Estratto del documento

Aspettazione e operatori lineari

Essendo che l'aspettazione è un operatore lineare, possiamo riscrivere l'aspettazione nel seguente modo:

Bias e varianza

Ora è possibile osservare che il primo termine coincide con la varianza mentre il secondo termine coincide con il Bias al quadrato:

Infine, ritornando all'MSE, si osserva che:

Con il concetto di miglior stimatore e ground truth è possibile riformulare il concetto di bias e varianza:

Il Bias rappresenta quanto il miglior stimatore è in grado di avvicinarsi alla ground truth. Un alto bias è tipico di un modello troppo semplice che non è in grado di apprendere, indipendentemente dal dataset sui cui viene addestrato.

La Varianza rappresenta quanto una singola ipotesi può differire dal miglior stimatore. Un'alta varianza significa che lo stesso modello, addestrato su dataset diversi, genera ipotesi molto diverse. Una varianza troppo alta è sinonimo che il modello è troppo complesso.

NOTA: un modello troppo complesso tende a generare overfitting.

Bias e varianza: equilibrio ideale

L'ideale per un modello sarebbe, tenendo conto del fatto che il MSE dipende dal bias e dalla varianza, mantenere bassa sia il bias che la varianza, ma questo non è possibile in quanto all'aumentare dell'uno diminuisce l'altro. Quindi la complessità del modello deve essere scelta in modo tale che la somma tra la varianza e il quadrato del bias sia la più piccola possibile.

Regularization

Per cercare di ridurre l'overfitting durante l'addestramento del modello si possono adottare due soluzioni:

  • Ridurre le feature del dataset (selezionandole manualmente o attraverso un algoritmo).
  • Regularization

Con la tecnica della regularization si vanno a mantenere tutte le feature ma si diminuisce quanto impattano queste variabili durante l'addestramento del modello.

Impatto delle variabili

Nell'immagine di sinistra si vede l'andamento di un modello addestrato sulle variabili x2 e x3, mentre nell'immagine di destra si vede l'andamento del modello sullo stesso dataset ma con l'aggiunta delle variabili x3 e x4. Come è possibile osservare dall'immagine, le variabili x3 e x4 causano overfitting. Per mitigare l'overfitting, possiamo conservare queste due variabili e assegnare a ciascuna di loro un parametro θ molto piccolo, in modo tale da diminuire il loro impatto in fase di addestramento.

Determinazione dei parametri

Per determinare i valori di questi parametri per queste variabili, si parte in primis dalla funzione di costo, modificando la formula della funzione di costo nel seguente modo:

La norma L2 può essere riscritta come:

NOTA: questa sarà la nuova funzione di costo da minimizzare. Rispetto alla formula iniziale, è stato aggiunto il parametro λ che prende il nome di regularization parameter. In sostanza, più alto sarà il suo valore, più piccoli saranno i valori dei parametri. Siccome è difficile capire per quali variabili scegliere un parametro piccolo, si sceglie di dare un valore piccolo di θ per tutte le feature.

Il parametro λ è un iperparametro da scegliere con attenzione, perché se si sceglie un valore troppo grande, tale valore inizia a dominare la funzione di costo costringendo a far tendere i vari parametri θ a 0. Un modello con tutti i parametri prossimo allo zero è un modello estremamente semplice e, come visto prima, un modello semplice non è in grado di imparare.

Regularized linear regression

In questo caso la funzione di costo sarà:

Per quanto riguarda le regole di aggiornamento dei parametri, avremo:

NOTA: il parametro θ0 viene calcolato in modo diverso in quanto non va moltiplicato, quindi non influenza nessun parametro.

Regularization for logistic regression

In questo caso la funzione di costo sarà:

mentre i corrispettivi aggiornamenti dei pesi saranno calcolati come:

Anteprima
Vedrai una selezione di 4 pagine su 12
Fitting Pag. 1 Fitting Pag. 2
Anteprima di 4 pagg. su 12.
Scarica il documento per vederlo tutto.
Fitting Pag. 6
Anteprima di 4 pagg. su 12.
Scarica il documento per vederlo tutto.
Fitting Pag. 11
1 su 12
D/illustrazione/soddisfatti o rimborsati
Acquista con carta o PayPal
Scarica i documenti tutte le volte che vuoi
Dettagli
SSD
Scienze matematiche e informatiche MAT/05 Analisi matematica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher vit1104 di informazioni apprese con la frequenza delle lezioni di Analisi matematica 1 e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Politecnico di Bari o del prof Mascolo Saverio.
Appunti correlati Invia appunti e guadagna

Domande e risposte

Hai bisogno di aiuto?
Chiedi alla community