Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
RESIDUI
RESIDUI GREZZI (raw) (ordinari)
̂ ̂
= − = 1, … ,
con
=1
∑ ̂ = 0
E’ gia noto che : purchè ci sia l’intercetta
=1
∑ ̂ = 0 2° equazione sistema di equazioni normali ; residui grezzi e covariata incorrelati
̂ ̂ (̂ ̂ ̂ ̂
=1 =1 =1 =1
→
∑ ∑ ∑ ∑
̂ ̂ = 0 ̂ = + ̂ + ) = ̂ + ̂ = 0
dove
0 1 0 1 0 1
→
, , , … ̂
Se ho più covariate i residui sono incorrelati con ciascuna covariata, con , con
1 2 3
qualunque combinazione lineare delle covariate
(assenza di andamenti regolari sistematici, pattern)
Al variare del campione :
̂ ̂
→
̂ → = 1, … , ) ( =
)
v.c. (
̂
( = ( − )
) eteroschedastici, anche se fossero omoschedastiche
1 ≤ ℎ ≤ 1 nota che dipende dai valori della covariata , leverage (valore di leva)
RESIDUI STANDADIZZATI (internamente studentizzati)
2
∑ ̂
̂ √
=1
̂
= =
dove , sono omoschedastici, qualora siano omoschedastici
−2
√−
̂
Funzione di densità ? Non sono più incorrelati con le
RESIDUI JACK-KNIFED (esternamente studentizzati)
̂ 2 2
̂
=
dove è la stima di calcolata dalla regressione senza la i-esima unità statistica
(−)
√−
(−)
→ ̂ ̂
sono incorrelati con
→
sono omoschedastici (se anche sono omoschedastici)
→ ~ − 3 = ( − 1) − 2 − 2 ⟺ − ( + 1)
se ( ) ; regressione semplice #covariate
− (
− 3 ⟺ − 1 − + 1) = − − 2 reg multipla
̂
(−−− )
2, … , → → =
u.s. stimo la regressione lineare (−) −−
GRAFICI DIAGNOSTICI
̂
Sono i plot dei residui e .
̂ ̂
→ ̂ = + ̂
se regressione è semplice allora , quindi è indifferente plottare o + residui
0 1
̂ ̂ ̂
→ ̂ = + + … = 1, … ,
se regressione è multipla allora considero i residui e + residui e con
0 1 1 2 2
1) STRUTTURA DEL MODELLO (LINEARITA’)
̂ ̂
Scatterplot con sulle ordinate e (o ) sulle ascisse
→
Se la linearità è soddisfatta l’andamento è privo di sistematicità (NULL PLOTS)
Sospetti sulla linearità se andamenti sistematici :
→
Possibili soluzioni inserire esplicative
2 , log , … )
trasformate (
→ passo a modelli non lineari
2) IPOTESI SUGLI ERORRI
→
INCORRELAZIONE (GOLS se non soddisfatta)
→ =
Tipicamente l’incorrelazione non è soddisfatta se u.s. istante temporale o punto spaziale
• ̂ ̂
Plot vs
Lunghe sequenze di residui sopra e sotto lo zero
• Index plot
• Plot dei residui vs residui ritardati (laggati)
( ̂ , ̂ )
1 2
( ̂ , ̂ ) { ( ̂ , ̂ )
+1 2 3
…
(LAG = 1)
(LAG > 1)
• Test per la significatività del coefficiente di regressione del modello in cui :
(̂
̂ ̂ = 0) ? ∶ = 0
Risposta = Esplicativa =
+1 0 0 1
→
Se c’è incorrelazione non rifiutare
Se è significativo allora sospetto che ci sia correlazione
1
• Test di Durbin – Watson →
∶ l’obiettivo è che − > 5%
0 − > 1%
(̂ )
−̂
= 2
→ −
∑
= →
ldd combinazione lineare di
∑ ̂
= →
R lm test
̂
̂
OMOSCHEDASTICITÀ (WLS) eteroschedastici
√| ̂ ̂
|
Scale – location plot vs
√| ̂ |
Propendo per omoschedasticità se la dispersione dei è
̂
“costante” al variare di
L’omoschedasticità è sospetta : fan – like
̂ ̂
| |
Spread – level plot vs stessa interpetazione
NORMALITÀ
Se non soddisfatta non c’è : significatività, IC, test bontà, efficienza assoluta .
→
Le cause di non normalità mancanza di simmetria
]
|
[ = + → =
0 1
Non è detto che sia il modo migliore per sintetizzare la distribuzione delle risposte
→ multimodalità
Suddivido la popolazione in due sottopopolazioni
F e M sono parte della covariata “genere”
→ →
omissione covariate che individua la sottopopolaz modalità MISS-SPECIFIED
• Boxplot
• Istogramma e sovraimporre la funzione di densità di una normale
• Q – Q plot
Test per la normalità → ∶ ?
Kolmogorov – Smirnov DS : p-value > 0.05 va bene , p-value < 0.01 non va bene
0
= ∶ à
Shapiro – Wilk : 0
( )
W può essere interpretato come quadrato del coefficiente di correlazione dei punti
rappresentato nel QQ-plot per la normalità.
Se la normalità è sospetta : uso trasformazioni che avvicinano alla normalità
oppure modelli che non richiedono la normalità
Es.
3) OSSERVAZIONI “UNUSUAL”
PUNTI DI LEVA (leverage elevato)
1
∀ . . ≤ ℎ ≤ 1
uno
Dipendono solo dalle , individuano u.s. che hanno valori delle
covariate lontani dal baricentro
(̂ 2
= (1 − ℎ )
)
.. ..
∑
̂
= + nxn
1 2
≠ ̂ ℎ ℎ ℎ
..
1 11 12 1
=1
∑ ℎ = 1
..
̂ ℎ ℎ ℎ
2 21 22 2
.. ..
.. .. → ≈ ̂
Le u.s. con leverage “elevato” sono punti di leva , il dato (osservaz i-esima) ha fatto leva sul modello
=1
∑ ℎ = + 1
“elevato” : k = # covariate
=1
∑ ℎ =2
regressione semplice :
OUTLIER
E’ una osservazione (u.s. data) che viene fittata male dal modello (residuo “grande”)
→
• leverage elevato , con residuo piccolo non è un outlier
→
• leverage elevato , con residuo grande outlier
̂
̂ → ~ − 3)
Regola per decidere se un’osservazione è outlier : (
−−2
∶ − è
0 } ̂
′
−−2; 1− 2
′
= 0.05
Test multipli (n test) : ciascuno a livello ′
)
( | ≤
La probabilità di errore globale 0
= ′
Correzione di Bonferroni : dove probabilità errore globale 0.05
′ probabilità errore sul singolo
→
−−2; 1− 2 faccio tabella per k = 3 e k= 5
PUNTI INFLUENTI
Un’osservazione è influente se la sua rimozione dal dataset causa un “grande” cambiamento nelle stime
(̂ ̂ ̂
, , … , ) (̂
e/o nel fit ) .
0 1
Un dato (osservazione) influente tipicamente è outlier oppure di leva oppure entrambe le cose.
(−)
Misure di influenza Il pedice signicfica senza l’i-esima osservazione
.. ..
̂ ̂ → 0 1
= 1, … , × + 1
1) k+1 vs con matrice
(−) .. ..
• ..
=1
La varianza nella stima dell’intercetta se togliessi la =2 .. .. .. ..
1° osservazione. .. .. .. .. ..
̂ ̂ .. .. .. ..
=
−
(−)
∶ = 0, … ,
con
2 −1
′
( )
√
(−) ̂ ̂
−
(−)
→
̂ ̂
̂ ̂ ∶
2) vs (−) 1 1 (−1) √ℎ
(−)
∑ ̂ ̂
−
( ) ̂
( )
(−)
=
()
∀ ∶ = =
3) Distanza di Cook : basta stimare un modello
(+) + (− )
→
misura di influenza della i−esima osservazione computeria… ovvero > a
→ elevata se punto è di leva o è outlier
2 ℎ
̂ ℎ
( )
è funzione crescente di e di (che a sua volta è funzione crescente di )
(1−ℎ )
2 ℎ
̂
( )
“elevat