Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
SI RICORDA CHE LA STIMA DEI RESIDUI ( ), CIOE’ LA DIFFERENZA TRA VALORE
i i i
OSSERVATO E VALORE PREVISTO DAL MODELLO (VALORE STIMATO), RAPPRESENTA LA
PARTE DI VARIANZA NON SPIEGATA.
- Analisi gra ca:
Il primo tipo di analisi è l’analisi di tipo gra co e può riguardare i residui grezzi, standardizzati,
studentizzati e parziali. Pagina 28 di 70
ffi fi fi fi fi fi ff ff ff ffi fi fi fi
̂
e = y − y
Essendo i residui grezzi —> e potendo essere visti come realizzazione delle variabili
i i i
̂ 2
E = Y − Y (1 − p )Y = (1 − p )ϵ ϵ ∼ N(0,σ )
aleatorie e quindi —> , ciò implica che, se ,
i i i ii i ii i i
2 2
E ∼ N(0,(1 − p ) σ ) ϵ
allora —> . Cioè, nonostante i disturbi siano omoschedastici e
i ii i
E p
incorrelati, i residui nono sono e la loro varianza dipende da .
i ii
̂
p y y
—> costituisce il peso da attribuire a per stimare , quindi rappresenta l’in uenza che
ii i i p
l’osservazione i-esima esercita sulle stime OLS —> tanto maggiore è , tanto più elevata è
ii
y
l’in uenza di sulle stime. Per tale motivo è detta LEVERAGE, o LEVA.
i p
I valori che assume vanno da 1/n a 1.
ii E p Var (E )
Osservando la varianza di , si nota che maggiore è la leverage ( ), tanto più viene
i ii i
2
σ
ridotta rispetto alla varianza .
Per eliminare questa forma di ETEROSCHEDASTICITA’, basta standardizzare i residui che
risulteranno distribuiti normalmente con varianza 1 (quindi costante).
—> I RESIDUI STANDARDIZZATI RISULTANO PIU’ IDONEI DI QUELLI GREZZI A
VERIFICARE LE IPOTESI SUI TERMINI DI DISTURBO POICHE’ QUELLI GREZZI
PRESENTANO ETEROSCHEDASTICITA’ E CORRELAZIONE, MENTRE QUELLI
STANDARDIZZATI NO. 2
σ
I RESIDUI STANDARDIZZATI, DIPENDONO DALLA VARIANZA INCOGNITA ; SE NELLA
STANDARDIZZAZIONE QUESTA E’ SOSTITUITA CON UNA STIMA APPROPRIATA, I
RESIDUI STANDARDIZZATI SONO DISTRIBUITI SECONDO UNA t-STUDENT E QUINDI
SONO DETTI STUDENTIZZATI.
2
σ
La stima più appropriata di nel caso dei residui standardizzati, può cambiare a seconda
dell’obiettivo dell’analisi:
- Può essere ottenuta nel metodo consueto —> devianza residua divisa per gli n-k gradi —>
E
i
T = studentized).
(internally
i S(1 − p )
ii
- Nel caso in cui l’analisi sia volta all’individuazione di OUTLIERS (valori anomali, cioè che si
discostano particolarmente dal pattern generale dei dati) si dovrà escludere dal calcolo della
devianza residua unità sotto esame, considerata come potenziale outlier —>
n E
1
̂ i
2 2
∑
σ = e → T = studentized).
(externally
i
j
(i) n − k − 1 ̂
(1 − p ) σ 2
j≠i, j=1 ii (i)
IN ALTRI TERMINI:
Dopo aver stimato un modello di regressione, dobbiamo veri care se è a dabile.
Come? Controllando se le ipotesi di base (normalità degli errori, omoschedasticità, linearità) sono
rispettate. ̂
e = y − y ε
I residui ( ) sono la nostra "lente d'ingrandimento" sugli errori del modello ( ).
i i i i
ε
Problema chiave: Anche se gli errori veri ( ) sono "perfetti" (normalmente distribuiti, varianza
i
e
costante), i residui ( ) non lo sono!
i
Perché? Per colpa della matrice di proiezione (o hat matrix). ̂
p y
Il suo elemento (detto leverage) misura quanto l'osservazione i-esima in uenza la stima di
ii i
2
p e σ
Impatto: Se è alto, la varianza del residuo è più piccola di . È come se il modello
ii i
̂
y y
“forzasse" vicino a per i punti con alta leverage.
i i
Come "aggiustiamo" i residui per analizzarli?
Per eliminare questo problema, trasformiamo i residui:
Residui standardizzati:
1. e e
i i
=
(e ) σ 1 − p
Var i ii 2
σ
Hanno media 0 e varianza 1 … ma è sconosciuta!
Residui studentizzati:
2. 2 2
σ s
Sostituiamo con una sua stima : Pagina 29 di 70
fl fi ffi fl fl
2
s
Internally studentized:
1. Usiamo calcolata su tutti i dati.
e
i
T =
i s 1 − p
ii 2 2
s σ
Externally studentized:
2. Per cercare outlier, usiamo (stima di escludendo
(i)
l'osservazione i).
e
i
T =
i s (1 − p )
2 ii
(i) 2
i s
Perché? Se è un outlier, includerlo in "contamina" la stima della variabilità.
Escludendolo, abbiamo un giudizio più obiettivo.
- L’ultimo caso è quello in cui si voglia veri care che una variabile esplicativa, al netto dell’azione
delle altre esplicative, entri linearmente nel modello oppure no.
Essendo che spesso le esplicative sono tra loro correlate, per tenere sotto controllo il loro
X
e etto mentre si valuta il tipo di legame tra la Y e l’esplicativa in questione ( ), si può ricorrere
h
partila residuals
ai —> rappresentano la parte di Y che dipende dall’esplicativa considerata, ma
non dalle altre. pr = e + b x
Per ogni esplicativa si ha una diversa serie di residui parziali —> .
ih i u ih
RESIDUAL PLOTS:
I gra ci dei residui (RESIDUAL PLOTS), sono lo strumento principale per l’analisi esplorativa e
aiutano ad identi care problemi nel modello stimato:
Tipo di gra co Cosa cercare Problema indicato
̂
y Pattern a imbuto, curva, punti Eteroschedicità, non-linearità,
Residui vs (y stimate) isolati outliers
Residui vs ciascuna delle Andamento concausale (trend, La relazione con quella variabile
esplicative curve) potrebbe non essere lineare
Q-Q plot (Normal probability Scostamenti dalla retta ideale Non-normalità degli errori
plot) (asimmetria, code pesanti)
pr = e + b x Se i punti non seguono una retta
Partial residual plots ih i u ih X
X —> la relazione con non è
Mostra la relazione tra Y e al h
h lineare.
netto delle altre variabili.
Tipo di gra co Cosa si plotta A cosa serve
e
̂
y Veri care se c’è presenza di
Residui sull’asse Y.
Residui vs (y stimate) i eteroschedasticità, non-linearità,
̂
y
Valori stimati sull’asse X.
i outliers
e
Residui vs ciascuna delle Controllare relazione lineare con
Residui sull’asse Y.
i X
esplicative (senza considerare altre
Una singola variabile X sull’asse j
j
X. variabili).
Q-Q plot (Normal probability Residui ordinati vs. Quantici Controllare la normalità degli
plot) teorici. errori.
pr
Partial residual plots Veri care la linearità speci ca di
Residui parziali sull’asse
ih X al netto delle altre variabili.
delle Y. h
X
Variabile sull’asse X.
h
Nel primo caso (residui verso y stimate), in assenza di problemi, i residui dovrebbero presentare
oscillazioni di ampiezza tendenzialmente costante (omoschedasticità), ed essere distribuiti
casualmente intorno allo zero.
Nel caso dei Q-Q plots, se i punti si dispongono lungo una retta, allora l’IPOTESI DI
NORMALITA’ può ritenersi valida; se invece si dispongono lungo una curva con concepita verso il
Pagina 30 di 70
ff fi
fi fi fi
fi fi fi fi
basso, la distribuzione dei residui è obliqua a sinistra (asimmetrica negativa), al contrario, se
concavità verso l’alto, distribuzione obliqua a destra (asimmetria positiva).
Nel caso in cui si voglia veri care liIPOTESI DI LINEARITA’ della relazione tra y e le
coviariate (variabili indipendenti), si può usare il plot delle y osservate verso ciascuna
esplicativa, o il plot dei residuali
ma in questo caso non si tengono sotto controllo le altre,
parziali per ogni esplicativa.
In questo caso, se la nuvola dei punti si dispone intorno ad una retta l’ipotesi di linearità è
confermata; in caso contrario si ha indicazione del fatto che l’esplicativa considerata in uenza la
Y in modo non lineare.
L’ultima analisi riguarda l’eventuale presenza di outliers, in questo caso si distingue tra
osservazioni che nello scattare plot corrispondono a punti molto lontani dai rimanenti (outliers) e
osservazioni per le quali una variazione comporterebbe una modi ca sostanziale nei risultati
dell’analisi (leverage points): p
- Punti con alta leverage —> Presentano alti valori di , dovuti a valori esprime di una o più
ii
covariate, e potrebbero avere una grande in uenza sulla stima dei parametri e caratterizzarsi
quindi come leverage points, ma potrebbero anche produrre stime molto prossime ai valori
p
—> PUNTO CON ALTO, VALORE ESTREMO DI UNA VARIABILE ESPLICATIVA.
osservati. ii 2k
p >
Regola pratica per identi care un punto di alta leverage —> se allora alta
ii n
leverage
- Outliers —> Sono punti per i quali il modello presenta uno scarso adattamento, ma non
—> PUNTI CON RESIDUO
necessariamente hanno un forte e etto sulla stima dei parametri.
| |
e
GRANDE ( ELEVATO).
i
- Leverage/in uence point —> Sono outliers che hanno una grossa in uenza nella regressione
p —> COMBINA ALTO
e presentano contemporaneamente alti valori di e dei residui.
ii
RESIDUO E ALTA LEVERAGE. IL PERICOLO E’ CHE TIRI LA RETTA DI REGRESSIONE
VERSO DI SE, DISTORCENDO LE STIME.
Per misurare l’in uenza esercitata da un certo punto viene usata la DISTANZA DI COOK
p
1 4
ii
2
D = e D >
—> . È considerata alta una per cui vi è alta in uenza.
i i
i
k (1 − p ) n
ii
p
LA LEVERAGE ( ) MISURA QUANTO UN PUNTO È "LONTANO" DALLA MASSA
ii
PRINCIPALE DEI DATI NELLO SPAZIO DELLE X.
ESEMPIO: Pagina 31 di 70
fl fl fi fi ff fl fi fl fl fl
In questo caso il punto blu presenta un valore di X = 3,4 che si discosta dal valore degli altri punti
che sono tendenzialmente compresi tra 2 e 3.
In questi termini si può dire che quel punto è un punto di leverage alta perchè il suo valore della X
si discosta da quello della massa principale. p
A nchè si possa dire che è un punto di in uenza, quindi oltre a un alto abbia anche un elevato
ii
| |
e , bisogna osservare la sua Y.
i
Se è lontana dalle altre osservazioni o dal trend delle altre allora siamo in presenza di un punto di
in uenza, altrimenti no.
in questo