Riassunto esame Advanced statistical models, Prof. Grilli Leonardo, libro consigliato Regression. Models, Methods and Applications. Springer., Fahrmeir, L., Kneib, T., Lang, S., Marx, B

Riassunto per l'esame di Advanced statistical models, basato sul corso e sullo studio autonomo del libro consigliato da Prof. Grilli Leonardo: Regression. Models, Methods and Applications. Springer., Fahrmeir, L., Kneib, T., Lang, S., Marx, B. Università degli Studi di Firenze - Unifi, facoltà di Scienze matematiche fisiche e naturali. Scarica il file in PDF!

Esame Advanced statistical models

Facoltà Scienze matematiche fisiche e naturali

Dal corso del Prof. Grilli Leonardo

Università Università degli Studi di Firenze

Publisher ElenaSmith

A.A. 2022-2023

43 pagine

Appunti esame

Vota 4,5 / 5 (2)

Scarica

Estratto del documento

Possiamo anche visualizzare lo stimatore come una previsione per un valore futuro

= µ + ε . Ovvero ci poniamo in uno scenario di poter effettuare una previsione

+ +

futura di altre osservazioni della risposta assumendo che le medie siano le stesse, con

errori nuovi.

Per fare questo abbiamo bisogno di varie proprietà:

- valore atteso: ' −1 '

( ) = ( ) ()

- matrice di covarianza: 2 ' '

( ) = σ ( )

- somma delle varianze: 2

∑ ( ) = | |σ

| |

dove è la cardinalità di , ovvero il numero di covariate incluse nel modello;

- somma degli errori medi al quadrato (SMSE):

2 2

( )

= |

|σ + ∑ µ − µ

( )

µ = µ

dove ;

- errore quadratico atteso di previsione (SPSE):

2 2 2 2

( )

= σ + = σ + | |σ + ∑ µ − µ

La componente rappresenta una componente di errore irriducibile.

Si ha in particolare che, via via che aggiungiamo covariate al modello, aumenta il termine di

2 2

( )

| |σ ∑ µ − µ

somma delle varianze ( ) e diminuisce il termine di distorsione ( ).

Come mai? Bisogna trovare il giusto equilibrio. Il termine di bias (o distorsione) ad un certo

punto, aggiungendo via via covariate, non diminuisce più di tanto, mentre la somma delle

varianze continua ad aumentare.

E’ per questo che modelli troppo complessi tendono ad overfittare sul training set, e quindi

effettueranno previsioni meno accurate.

Il valore di SPSE stimato utilizzando la somma degli scarti al quadrato è sottostimato rispetto

al valore di SPSE effettivo. Questo perché nella formula si ha:

( )

2 2

( )

∑ − = − 2 |

|σ

Questa distorsione è tanto peggiore quanto complesso è il modello. µ

Purtroppo però SPSE non è direttamente accessibile come valore, in quanto è il vero

parametro incognito della media, e non è osservabile. Ciò significa che dobbiamo trovare un

modo alternativo per stimare SPSE:

- stimare SPSE usando dati nuovi e diversi da quelli utilizzati per la generazione del

modello, spesso dividendo il dataset in training e validation set;

- stimare SPSE usando i dati esistenti:

2 2

( )

= ∑ − + 2 | |σ

Dobbiamo però tenere presente che se usiamo i dati esistenti per stimare l’errore di

previsione su dati futuri questa stima sarà sempre e comunque un po’ distorta, in

particolare sarà una sottostima.

Possiamo però applicare una correzione alla stima.

All’aumentare della complessità del modello infatti, il primo termine diminuisce,

perché aumenta la capacità del modello di spiegare il fenomeno, mentre il secondo

parametro aumenta. 2

Un appunto sull’indice di correlazione lineare :

come sappiamo, non è corretto utilizzare l’ per valutare in modo oggetivo la bontà di un

modello. Quest’ultimo infatti non tiene traccia di quanto complesso è il modello, perchè

dipende direttamente dagli scarti di previsione al quadrato. 2

Per sopperire a questo problema è possibile utilizzare il cosiddetto che consiste

in: 2 2

( )

−1

= 1− 1 −

−

Questa formula tiene conto della complessità del modello tramite il parametro , quindi

tende a tenere in considerazione anche il compromesso tra varianza e bias. Nonostante

questo tende a porre una penalità troppo lieve per l’aggiunta di ulteriori regressori.

AIC index

Criterio di informazione di Akaike : ( )

= − 2 · β , σ + 2

( |

| + 1

)

dove ( )

β , σ

rappresenta il valore massimo della log-likelihood, quando gli stimatori di massima

β σ

verosimiglianza e sono inseriti nel modello.

Un valore basso di corrisponde ad un alto indice di fit del modello.

Il tradeoff varianza-bias viene concretizzato da questo indicatore con il fatto che il primo

parametro, man mano che aumenta la complessità del modello, diminuisce, mentre il

secondo parametro aumenta.

Nel caso in cui gli errori siano normali, si ha che la formula di sopra diventa:

()

= · σ + 2 ( |

| + 1

)

BIC index

Criterio di informazione di Bayes: : ( )

= − 2 · β , σ + () (

| | + 1

)

che, assumendo errori normali, diventa: ()

= · σ + () (

| | + 1

)

La differenza tra e è che penalizza di più l’aggiunta di covariate.

Cross validation

Il principio chiave della cross validation è quello di trovare il modo di ottenere training e

validation test senza dover scartare dati o avere bisogno di dati addizionali.

Prevede di suddividere il dataset in porzioni in modo casuale. Il modello viene prima

− 1

costruito utilizzando porzioni (compresa la formulazione delle previsioni) e l’ultima

porzione lasciata fuori viene utilizzata per validare. Viene quindi calcolata una delle misure

dell’errore di previsione. − 2

Il processo viene ripetuto utilizzando la porzione per la validazione e il resto per il

modello, e così via a scorrere fino al caso in cui viene utilizzata la porzione 1 per effettuare la

validazione.

Viene quindi calcolata una stima dell’errore di previsione tramite:

( )

−

= ∑ −

NB: il risultato ottenuto tramite non è esattamente uguale ad utilizzare due dataset

separati per training e validation, ma si dimostra che ci si avvicina molto! Ha il vantaggio non

da poco di non scartare osservazioni!

Diagnosi sui modelli

Presa in esame delle assunzioni compiute nella formulazione del modello:

(ε) = 0

Ipotesi di :

Di base si ha che se non ometto variabili allora il valore atteso degli errori è zero. Altrimenti,

si ha che il modello è formulato con un errore differente, che include anche la porzione di

variabili omesse. Il valore di questo errore nel secondo modello viene comunque 0 nel caso

in cui le variabili omesse abbiano coefficiente di regressione 0 oppure quando esse non sono

legate con le variabili del modello.

Formalmente si ha che: (ε| , ) = 0

1 2

e nel secondo caso (| ) = β ( | )

1 2 2 1

β = 0 ( | ) = 0

Si nota come il valore atteso di sia zero o quando o quando .

2 2 1

Ipotesi di omoschedasticità:

assumiamo che gli errori abbiano varianza costante, e in particolare non dipendente dai

valori delle variabili esplicative. Ciò è verificabile facilmente tramite un plot dei residui. Se

notiamo infatti che al crescere delle i residui aumentano o diminuiscono, questo è un

chiaro segnale di non-costanza degli errori.

Lo stesso si applica per l’incorrelazione degli errori o l’ipotesi di linearità, entrambi

verificabili chiaramente tramite un plot dei residui.

L’ipotesi di normalità degli errori è verificata tramite il QQ plot dei residui, in cui i residui

vengono ordinati crescenti e si determinano i quantili. Si ha che se gli errori sono distribuiti

normalmente i punti risiederanno tutti più o meno sulla bisettrice.

Analisi dell’assunzione di collinearità:

Consiederando un modello: = β + β + β + β + ε

0 1 1 2 2 3 3

e assumendo che ci sia completa linearità tra due delle variabili di regressione:

= ·

1 2

In questo caso si ha che non è possibile stimare separatamente i coefficienti di regressione

β β

e , ma solo l’unione dei due. Il modello infatti può essere riscritto in:

1 2 ( )

= β + β + β + β + ε = β + β + β + β + ε

0 1 1 2 2 3 3 0 1 2 2 3 3

Ovviamente la stima dei minimi quadrati non può avvenire perché avendo due colonne

linearmente dipendenti tra loro il rango della matrice del modello non è pieno, e quindi non

−1

esiste .

Di base abbiamo che, più alta è la dipendenza lineare di due covariate, più alto è il valore

(β )

della varianza dello stimatore :

(β ) = 2

( ) ( )

1− ∑ −

=1 2

In casi estremi in cui il coefficiente di determinazione tende a 1, la varianza esplode verso

infinito, nonostante che la stima dei minimi quadrati può comunque avere luogo, anche se

totalmente imprecisa.

A correre in nostro soccorso per il problema della collinearità esiste il tool di diagnostica

chiamato Variance Inflation Factor (= ): 1

= 2

1−

[ 1, + ∞ ] > 10

che ha dominio . Come regola empirica, valori di segnalano problemi di

collinearità.

Problemi di questo tipo vengono di solito risolti tramite l’omissione di alcuni parametri,

oppure costruendo un’unica variabile esplicativa comprensiva dell’effetto di tutte le variabili

in esame.

Un’altra soluzione al problema di collinearità è l’utilizzo degli stimatori ridge piuttosto che

quelli dei minimi quadrati: −1

β = (

' + λ ) '

Questo è fatto perché in presenza di collinearità gli stimatori dei minimi quadrati non si

−1

(')

possono calcolare dato che non esiste .

Questo stimatore, a differenza di quello dei minimi quadrati, è distorto

Anteprima

Vedrai una selezione di 10 pagine su 43