Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
Possiamo anche visualizzare lo stimatore come una previsione per un valore futuro
= µ + ε . Ovvero ci poniamo in uno scenario di poter effettuare una previsione
+ +
futura di altre osservazioni della risposta assumendo che le medie siano le stesse, con
errori nuovi.
Per fare questo abbiamo bisogno di varie proprietà:
- valore atteso: ' −1 '
( ) = ( ) ()
- matrice di covarianza: 2 ' '
( ) = σ ( )
- somma delle varianze: 2
∑ ( ) = | |σ
=1
| |
dove è la cardinalità di , ovvero il numero di covariate incluse nel modello;
- somma degli errori medi al quadrato (SMSE):
2 2
( )
= |
|σ + ∑ µ − µ
=1
( )
µ = µ
dove ;
- errore quadratico atteso di previsione (SPSE):
2 2 2 2
( )
= σ + = σ + | |σ + ∑ µ − µ
=1
2
σ
La componente rappresenta una componente di errore irriducibile.
Si ha in particolare che, via via che aggiungiamo covariate al modello, aumenta il termine di
2 2
( )
| |σ ∑ µ − µ
somma delle varianze ( ) e diminuisce il termine di distorsione ( ).
=1
Come mai? Bisogna trovare il giusto equilibrio. Il termine di bias (o distorsione) ad un certo
punto, aggiungendo via via covariate, non diminuisce più di tanto, mentre la somma delle
varianze continua ad aumentare.
E’ per questo che modelli troppo complessi tendono ad overfittare sul training set, e quindi
effettueranno previsioni meno accurate.
Il valore di SPSE stimato utilizzando la somma degli scarti al quadrato è sottostimato rispetto
al valore di SPSE effettivo. Questo perché nella formula si ha:
( )
2 2
( )
∑ − = − 2 |
|σ
=1
Questa distorsione è tanto peggiore quanto complesso è il modello. µ
Purtroppo però SPSE non è direttamente accessibile come valore, in quanto è il vero
parametro incognito della media, e non è osservabile. Ciò significa che dobbiamo trovare un
modo alternativo per stimare SPSE:
- stimare SPSE usando dati nuovi e diversi da quelli utilizzati per la generazione del
modello, spesso dividendo il dataset in training e validation set;
- stimare SPSE usando i dati esistenti:
2 2
( )
= ∑ − + 2 | |σ
=1
Dobbiamo però tenere presente che se usiamo i dati esistenti per stimare l’errore di
previsione su dati futuri questa stima sarà sempre e comunque un po’ distorta, in
particolare sarà una sottostima.
Possiamo però applicare una correzione alla stima.
All’aumentare della complessità del modello infatti, il primo termine diminuisce,
perché aumenta la capacità del modello di spiegare il fenomeno, mentre il secondo
parametro aumenta. 2
Un appunto sull’indice di correlazione lineare :
2
come sappiamo, non è corretto utilizzare l’ per valutare in modo oggetivo la bontà di un
modello. Quest’ultimo infatti non tiene traccia di quanto complesso è il modello, perchè
dipende direttamente dagli scarti di previsione al quadrato. 2
Per sopperire a questo problema è possibile utilizzare il cosiddetto che consiste
in: 2 2
( )
−1
= 1− 1 −
−
Questa formula tiene conto della complessità del modello tramite il parametro , quindi
tende a tenere in considerazione anche il compromesso tra varianza e bias. Nonostante
questo tende a porre una penalità troppo lieve per l’aggiunta di ulteriori regressori.
AIC index
Criterio di informazione di Akaike : ( )
2
= − 2 · β , σ + 2
( |
| + 1
)
dove ( )
2
β , σ
rappresenta il valore massimo della log-likelihood, quando gli stimatori di massima
2
β σ
verosimiglianza e sono inseriti nel modello.
Un valore basso di corrisponde ad un alto indice di fit del modello.
Il tradeoff varianza-bias viene concretizzato da questo indicatore con il fatto che il primo
parametro, man mano che aumenta la complessità del modello, diminuisce, mentre il
secondo parametro aumenta.
Nel caso in cui gli errori siano normali, si ha che la formula di sopra diventa:
()
2
= · σ + 2 ( |
| + 1
)
BIC index
Criterio di informazione di Bayes: : ( )
2
= − 2 · β , σ + () (
| | + 1
)
che, assumendo errori normali, diventa: ()
2
= · σ + () (
| | + 1
)
La differenza tra e è che penalizza di più l’aggiunta di covariate.
Cross validation
Il principio chiave della cross validation è quello di trovare il modo di ottenere training e
validation test senza dover scartare dati o avere bisogno di dati addizionali.
Prevede di suddividere il dataset in porzioni in modo casuale. Il modello viene prima
− 1
costruito utilizzando porzioni (compresa la formulazione delle previsioni) e l’ultima
porzione lasciata fuori viene utilizzata per validare. Viene quindi calcolata una delle misure
dell’errore di previsione. − 2
Il processo viene ripetuto utilizzando la porzione per la validazione e il resto per il
modello, e così via a scorrere fino al caso in cui viene utilizzata la porzione 1 per effettuare la
validazione.
Viene quindi calcolata una stima dell’errore di previsione tramite:
2
( )
−
1
= ∑ −
=1
NB: il risultato ottenuto tramite non è esattamente uguale ad utilizzare due dataset
separati per training e validation, ma si dimostra che ci si avvicina molto! Ha il vantaggio non
da poco di non scartare osservazioni!
Diagnosi sui modelli
Presa in esame delle assunzioni compiute nella formulazione del modello:
(ε) = 0
Ipotesi di :
Di base si ha che se non ometto variabili allora il valore atteso degli errori è zero. Altrimenti,
si ha che il modello è formulato con un errore differente, che include anche la porzione di
variabili omesse. Il valore di questo errore nel secondo modello viene comunque 0 nel caso
in cui le variabili omesse abbiano coefficiente di regressione 0 oppure quando esse non sono
legate con le variabili del modello.
Formalmente si ha che: (ε| , ) = 0
1 2
e nel secondo caso (| ) = β ( | )
1 2 2 1
β = 0 ( | ) = 0
Si nota come il valore atteso di sia zero o quando o quando .
2 2 1
Ipotesi di omoschedasticità:
assumiamo che gli errori abbiano varianza costante, e in particolare non dipendente dai
valori delle variabili esplicative. Ciò è verificabile facilmente tramite un plot dei residui. Se
notiamo infatti che al crescere delle i residui aumentano o diminuiscono, questo è un
chiaro segnale di non-costanza degli errori.
Lo stesso si applica per l’incorrelazione degli errori o l’ipotesi di linearità, entrambi
verificabili chiaramente tramite un plot dei residui.
L’ipotesi di normalità degli errori è verificata tramite il QQ plot dei residui, in cui i residui
vengono ordinati crescenti e si determinano i quantili. Si ha che se gli errori sono distribuiti
normalmente i punti risiederanno tutti più o meno sulla bisettrice.
Analisi dell’assunzione di collinearità:
Consiederando un modello: = β + β + β + β + ε
0 1 1 2 2 3 3
e assumendo che ci sia completa linearità tra due delle variabili di regressione:
= ·
1 2
In questo caso si ha che non è possibile stimare separatamente i coefficienti di regressione
β β
e , ma solo l’unione dei due. Il modello infatti può essere riscritto in:
1 2 ( )
= β + β + β + β + ε = β + β + β + β + ε
0 1 1 2 2 3 3 0 1 2 2 3 3
Ovviamente la stima dei minimi quadrati non può avvenire perché avendo due colonne
linearmente dipendenti tra loro il rango della matrice del modello non è pieno, e quindi non
−1
esiste .
Di base abbiamo che, più alta è la dipendenza lineare di due covariate, più alto è il valore
(β )
della varianza dello stimatore :
2
σ
(β ) = 2
( ) ( )
2
1− ∑ −
=1 2
In casi estremi in cui il coefficiente di determinazione tende a 1, la varianza esplode verso
infinito, nonostante che la stima dei minimi quadrati può comunque avere luogo, anche se
totalmente imprecisa.
A correre in nostro soccorso per il problema della collinearità esiste il tool di diagnostica
chiamato Variance Inflation Factor (= ): 1
= 2
1−
[ 1, + ∞ ] > 10
che ha dominio . Come regola empirica, valori di segnalano problemi di
collinearità.
Problemi di questo tipo vengono di solito risolti tramite l’omissione di alcuni parametri,
oppure costruendo un’unica variabile esplicativa comprensiva dell’effetto di tutte le variabili
in esame.
Un’altra soluzione al problema di collinearità è l’utilizzo degli stimatori ridge piuttosto che
quelli dei minimi quadrati: −1
β = (
' + λ ) '
Questo è fatto perché in presenza di collinearità gli stimatori dei minimi quadrati non si
−1
(')
possono calcolare dato che non esiste .
Questo stimatore, a differenza di quello dei minimi quadrati, è distorto