Anteprima
Vedrai una selezione di 4 pagine su 12
Fitting Pag. 1 Fitting Pag. 2
Anteprima di 4 pagg. su 12.
Scarica il documento per vederlo tutto.
Fitting Pag. 6
Anteprima di 4 pagg. su 12.
Scarica il documento per vederlo tutto.
Fitting Pag. 11
1 su 12
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

E

D ​

Essendo che l’aspettazione è un operatore lineare, possiamo riscrivere

L’aspettazione  nel seguente modo:

E

D ​

Ora è possibile osservare che il primo termine coincide con la varianza

mentre il secondo termine coincide con il Bias al quadrato:

FITTING 5

mentre il terzo termine risulta zero:

Infine ritornando all’MSE si osserva che :

Con il concetto di miglior stimatore e ground truth è possibile riformulare il

concetto di bias e varianza:

Il Bias rappresenta quanto il miglior stimatore è in grado di

avvicinarsi alla ground truth. Un alto bias è tipico un modello

troppo semplice che non è in grado di apprendere,

indipendentemente dal dataset sui cui viene addestrato

La Varianza rappresenta quanto una singola ipotesi può

differire dal miglior stimatore. Un’alta varianza significa che lo

stesso modello, addestrato su dataset diversi, genera ipotesi

molto diverse. Una varianza troppo altra è sinonimo che il

modello è troppo complesso

NOTA: un modello troppo complesso tende a generare overfitting

FITTING 6

L’ideale per un modello sarebbe, tenendo conto del fatto che il MSE dipende dal

bias e dalla varianza, sarebbe mantenere bassa sia il bias che la varianza, ma

questo non è possibile in quanto all’aumentare dell’uno diminuisce l’atro

Quindi la complessità del modello deve essere scelta in modo tale che la somma

tra la varianza e il quadrato del bias sia la più piccola possibile

REGULARIZATION

Per cercare di ridurre l’overfitting durante l’addestramento del modello si posso

adottare due soluzione:

1. ridurre le feature del dataset (andandole a selezionare manualmente o

attraverso un algoritmo)

2. Regularization

Con la tecnica della regularization si vanno a mantenere tutte le feature ma

andiamo a diminuire quanto impattano queste variabili durante l’addestramento del

FITTING 7

modello

Nell’immagine di sinistra si vede l’andamento di un modello addestrato sulle

2

variabili  e , mentre nell’immagine di destra si vede l’andamento del modello

x x 3 4

sullo stesso dataset ma con l’aggiunta della variabili  e .

x x

3 4

Come è possibile osservare dall’immagine, le variabili  e  causano overfitting.

x x

Per mitigare l’overfitting, possiamo conservare queste due variabili e assegnare a

ciascuna di loro un parametro  molto piccolo, in modo tale da diminuire il loro

θ

impatto in fase di addestramento

Per determinare il valori di questi parametri per queste variabili, si parte in primi

dalla funziona di costo

modifica la formula della funzione di costo nel seguente modo

FITTING 8

La norma L2 può essere riscritta come

NOTA: questa sarà la nuova funzione di costo da minimizzare

Rispetto alla formula iniziale, è stata aggiunto il parametro  che prende il nome di

λ

regularization parameter. In sostanza più alto sarà il suo valore più piccoli

saranno i valori dei parametri

Siccome è difficile capire per quale variabili andare a scegliere un parametro

piccolo, si scegli, come intuibile anche dalla forma, di dare un valore piccolo di 

θ

per tutte le feature.

il parametro  è una iper-parametro da scegliere con attenzione, perché se si

λ

sceglie un valore troppo grande tale valore inizia a dominare la funzione di costo

costringendo a far tendere i vari parametri  a 0.

θ

Un modello con tutti i parametri prossimo allo zero è un modello estremamente

semplice e come visto prima un modello semplice non è in grado di imparare.

REGULARIZED LINEAR REGRESSION

In questo caso al funziona di costo sarà

FITTING 9

Per quanto riguarda le regole di aggiornamento dei parametri, avremo:

NOTA: il parametro  viene calcolato in modo diverso in quanto non va

θ

0 ​

moltiplicato, quini non influenza nessun parametro

REGULARIZATION FOR LOGISTIC

REGRESSION

In questo caso la funzione di costo sarà:

mentre i corrispettivi aggiornamenti dei pesi saranno calcolati come

FITTING 10

Dettagli
Publisher
A.A. 2022-2023
12 pagine
SSD Scienze matematiche e informatiche MAT/05 Analisi matematica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher vit1104 di informazioni apprese con la frequenza delle lezioni di Analisi matematica 1 e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Politecnico di Bari o del prof Mascolo Saverio.