vuoi
o PayPal
tutte le volte che vuoi
E
D
Essendo che l’aspettazione è un operatore lineare, possiamo riscrivere
L’aspettazione nel seguente modo:
E
D
Ora è possibile osservare che il primo termine coincide con la varianza
mentre il secondo termine coincide con il Bias al quadrato:
FITTING 5
mentre il terzo termine risulta zero:
Infine ritornando all’MSE si osserva che :
Con il concetto di miglior stimatore e ground truth è possibile riformulare il
concetto di bias e varianza:
Il Bias rappresenta quanto il miglior stimatore è in grado di
avvicinarsi alla ground truth. Un alto bias è tipico un modello
troppo semplice che non è in grado di apprendere,
indipendentemente dal dataset sui cui viene addestrato
La Varianza rappresenta quanto una singola ipotesi può
differire dal miglior stimatore. Un’alta varianza significa che lo
stesso modello, addestrato su dataset diversi, genera ipotesi
molto diverse. Una varianza troppo altra è sinonimo che il
modello è troppo complesso
NOTA: un modello troppo complesso tende a generare overfitting
FITTING 6
L’ideale per un modello sarebbe, tenendo conto del fatto che il MSE dipende dal
bias e dalla varianza, sarebbe mantenere bassa sia il bias che la varianza, ma
questo non è possibile in quanto all’aumentare dell’uno diminuisce l’atro
Quindi la complessità del modello deve essere scelta in modo tale che la somma
tra la varianza e il quadrato del bias sia la più piccola possibile
REGULARIZATION
Per cercare di ridurre l’overfitting durante l’addestramento del modello si posso
adottare due soluzione:
1. ridurre le feature del dataset (andandole a selezionare manualmente o
attraverso un algoritmo)
2. Regularization
Con la tecnica della regularization si vanno a mantenere tutte le feature ma
andiamo a diminuire quanto impattano queste variabili durante l’addestramento del
FITTING 7
modello
Nell’immagine di sinistra si vede l’andamento di un modello addestrato sulle
2
variabili e , mentre nell’immagine di destra si vede l’andamento del modello
x x 3 4
sullo stesso dataset ma con l’aggiunta della variabili e .
x x
3 4
Come è possibile osservare dall’immagine, le variabili e causano overfitting.
x x
Per mitigare l’overfitting, possiamo conservare queste due variabili e assegnare a
ciascuna di loro un parametro molto piccolo, in modo tale da diminuire il loro
θ
impatto in fase di addestramento
Per determinare il valori di questi parametri per queste variabili, si parte in primi
dalla funziona di costo
modifica la formula della funzione di costo nel seguente modo
FITTING 8
La norma L2 può essere riscritta come
NOTA: questa sarà la nuova funzione di costo da minimizzare
Rispetto alla formula iniziale, è stata aggiunto il parametro che prende il nome di
λ
regularization parameter. In sostanza più alto sarà il suo valore più piccoli
saranno i valori dei parametri
Siccome è difficile capire per quale variabili andare a scegliere un parametro
piccolo, si scegli, come intuibile anche dalla forma, di dare un valore piccolo di
θ
per tutte le feature.
il parametro è una iper-parametro da scegliere con attenzione, perché se si
λ
sceglie un valore troppo grande tale valore inizia a dominare la funzione di costo
costringendo a far tendere i vari parametri a 0.
θ
Un modello con tutti i parametri prossimo allo zero è un modello estremamente
semplice e come visto prima un modello semplice non è in grado di imparare.
REGULARIZED LINEAR REGRESSION
In questo caso al funziona di costo sarà
FITTING 9
Per quanto riguarda le regole di aggiornamento dei parametri, avremo:
NOTA: il parametro viene calcolato in modo diverso in quanto non va
θ
0
moltiplicato, quini non influenza nessun parametro
REGULARIZATION FOR LOGISTIC
REGRESSION
In questo caso la funzione di costo sarà:
mentre i corrispettivi aggiornamenti dei pesi saranno calcolati come
FITTING 10