Anteprima
Vedrai una selezione di 8 pagine su 31
Appunti Modelli - Analisi statistica multivariata - teoria Pag. 1 Appunti Modelli - Analisi statistica multivariata - teoria Pag. 2
Anteprima di 8 pagg. su 31.
Scarica il documento per vederlo tutto.
Appunti Modelli - Analisi statistica multivariata - teoria Pag. 6
Anteprima di 8 pagg. su 31.
Scarica il documento per vederlo tutto.
Appunti Modelli - Analisi statistica multivariata - teoria Pag. 11
Anteprima di 8 pagg. su 31.
Scarica il documento per vederlo tutto.
Appunti Modelli - Analisi statistica multivariata - teoria Pag. 16
Anteprima di 8 pagg. su 31.
Scarica il documento per vederlo tutto.
Appunti Modelli - Analisi statistica multivariata - teoria Pag. 21
Anteprima di 8 pagg. su 31.
Scarica il documento per vederlo tutto.
Appunti Modelli - Analisi statistica multivariata - teoria Pag. 26
Anteprima di 8 pagg. su 31.
Scarica il documento per vederlo tutto.
Appunti Modelli - Analisi statistica multivariata - teoria Pag. 31
1 su 31
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

RESIDUI

RESIDUI GREZZI (raw) (ordinari)

̂ ̂

= − = 1, … ,

con

=1

∑ ̂ = 0

E’ gia noto che : purchè ci sia l’intercetta

=1

∑ ̂ = 0 2° equazione sistema di equazioni normali ; residui grezzi e covariata incorrelati

̂ ̂ (̂ ̂ ̂ ̂

=1 =1 =1 =1

∑ ∑ ∑ ∑

̂ ̂ = 0 ̂ = + ̂ + ) = ̂ + ̂ = 0

dove

0 1 0 1 0 1

, , , … ̂

Se ho più covariate i residui sono incorrelati con ciascuna covariata, con , con

1 2 3

qualunque combinazione lineare delle covariate

(assenza di andamenti regolari sistematici, pattern)

Al variare del campione :

̂ ̂

̂ → = 1, … , ) ( =

)

v.c. (

̂

( = ( − )

) eteroschedastici, anche se fossero omoschedastiche

1 ≤ ℎ ≤ 1 nota che dipende dai valori della covariata , leverage (valore di leva)

RESIDUI STANDADIZZATI (internamente studentizzati)

2

∑ ̂

̂ √

=1

̂

= =

dove , sono omoschedastici, qualora siano omoschedastici

−2

√−

̂

Funzione di densità ? Non sono più incorrelati con le

RESIDUI JACK-KNIFED (esternamente studentizzati)

̂ 2 2

̂

=

dove è la stima di calcolata dalla regressione senza la i-esima unità statistica

(−)

√−

(−)

→ ̂ ̂

sono incorrelati con

sono omoschedastici (se anche sono omoschedastici)

→ ~ − 3 = ( − 1) − 2 − 2 ⟺ − ( + 1)

se ( ) ; regressione semplice #covariate

− (

− 3 ⟺ − 1 − + 1) = − − 2 reg multipla

̂

(−−− )

2, … , → → =

u.s. stimo la regressione lineare (−) −−

GRAFICI DIAGNOSTICI

̂

Sono i plot dei residui e .

̂ ̂

→ ̂ = + ̂

se regressione è semplice allora , quindi è indifferente plottare o + residui

0 1

̂ ̂ ̂

→ ̂ = + + … = 1, … ,

se regressione è multipla allora considero i residui e + residui e con

0 1 1 2 2

1) STRUTTURA DEL MODELLO (LINEARITA’)

̂ ̂

Scatterplot con sulle ordinate e (o ) sulle ascisse

Se la linearità è soddisfatta l’andamento è privo di sistematicità (NULL PLOTS)

Sospetti sulla linearità se andamenti sistematici :

Possibili soluzioni inserire esplicative

2 , log , … )

trasformate (

→ passo a modelli non lineari

2) IPOTESI SUGLI ERORRI

INCORRELAZIONE (GOLS se non soddisfatta)

→ =

Tipicamente l’incorrelazione non è soddisfatta se u.s. istante temporale o punto spaziale

• ̂ ̂

Plot vs

Lunghe sequenze di residui sopra e sotto lo zero

• Index plot

• Plot dei residui vs residui ritardati (laggati)

( ̂ , ̂ )

1 2

( ̂ , ̂ ) { ( ̂ , ̂ )

+1 2 3

(LAG = 1)

(LAG > 1)

• Test per la significatività del coefficiente di regressione del modello in cui :

̂ ̂ = 0) ? ∶ = 0

Risposta = Esplicativa =

+1 0 0 1

Se c’è incorrelazione non rifiutare

Se è significativo allora sospetto che ci sia correlazione

1

• Test di Durbin – Watson →

∶ l’obiettivo è che − > 5%

0 − > 1%

(̂ )

−̂

= 2

→ −

= →

ldd combinazione lineare di

∑ ̂

= →

R lm test

̂

̂

OMOSCHEDASTICITÀ (WLS) eteroschedastici

√| ̂ ̂

|

Scale – location plot vs

√| ̂ |

Propendo per omoschedasticità se la dispersione dei è

̂

“costante” al variare di

L’omoschedasticità è sospetta : fan – like

̂ ̂

| |

Spread – level plot vs stessa interpetazione

NORMALITÀ

Se non soddisfatta non c’è : significatività, IC, test bontà, efficienza assoluta .

Le cause di non normalità mancanza di simmetria

]

|

[ = + → =

0 1

Non è detto che sia il modo migliore per sintetizzare la distribuzione delle risposte

→ multimodalità

Suddivido la popolazione in due sottopopolazioni

F e M sono parte della covariata “genere”

→ →

omissione covariate che individua la sottopopolaz modalità MISS-SPECIFIED

• Boxplot

• Istogramma e sovraimporre la funzione di densità di una normale

• Q – Q plot

Test per la normalità → ∶ ?

Kolmogorov – Smirnov DS : p-value > 0.05 va bene , p-value < 0.01 non va bene

0

= ∶ à

Shapiro – Wilk : 0

( )

W può essere interpretato come quadrato del coefficiente di correlazione dei punti

rappresentato nel QQ-plot per la normalità.

Se la normalità è sospetta : uso trasformazioni che avvicinano alla normalità

oppure modelli che non richiedono la normalità

Es.

3) OSSERVAZIONI “UNUSUAL”

PUNTI DI LEVA (leverage elevato)

1

∀ . . ≤ ℎ ≤ 1

uno

Dipendono solo dalle , individuano u.s. che hanno valori delle

covariate lontani dal baricentro

(̂ 2

= (1 − ℎ )

)

.. ..

̂

= + nxn

1 2

≠ ̂ ℎ ℎ ℎ

..

1 11 12 1

=1

∑ ℎ = 1

..

̂ ℎ ℎ ℎ

2 21 22 2

.. ..

.. .. → ≈ ̂

Le u.s. con leverage “elevato” sono punti di leva , il dato (osservaz i-esima) ha fatto leva sul modello

=1

∑ ℎ = + 1

“elevato” : k = # covariate

=1

∑ ℎ =2

regressione semplice :

OUTLIER

E’ una osservazione (u.s. data) che viene fittata male dal modello (residuo “grande”)

• leverage elevato , con residuo piccolo non è un outlier

• leverage elevato , con residuo grande outlier

̂

̂ → ~ − 3)

Regola per decidere se un’osservazione è outlier : (

−−2

∶ − è

0 } ̂

−−2; 1− 2

= 0.05

Test multipli (n test) : ciascuno a livello ′

)

( | ≤

La probabilità di errore globale 0

= ′

Correzione di Bonferroni : dove probabilità errore globale 0.05

′ probabilità errore sul singolo

−−2; 1− 2 faccio tabella per k = 3 e k= 5

PUNTI INFLUENTI

Un’osservazione è influente se la sua rimozione dal dataset causa un “grande” cambiamento nelle stime

(̂ ̂ ̂

, , … , ) (̂

e/o nel fit ) .

0 1

Un dato (osservazione) influente tipicamente è outlier oppure di leva oppure entrambe le cose.

(−)

Misure di influenza Il pedice signicfica senza l’i-esima osservazione

.. ..

̂ ̂ → 0 1

= 1, … , × + 1

1) k+1 vs con matrice

(−) .. ..

• ..

=1

La varianza nella stima dell’intercetta se togliessi la =2 .. .. .. ..

1° osservazione. .. .. .. .. ..

̂ ̂ .. .. .. ..

=

(−)

∶ = 0, … ,

con

2 −1

( )

(−) ̂ ̂

(−)

̂ ̂

̂ ̂ ∶

2) vs (−) 1 1 (−1) √ℎ

(−)

∑ ̂ ̂

( ) ̂

( )

(−)

=

()

∀ ∶ = =

3) Distanza di Cook : basta stimare un modello

(+) + (− )

misura di influenza della i−esima osservazione computeria… ovvero > a

→ elevata se punto è di leva o è outlier

2 ℎ

̂ ℎ

( )

è funzione crescente di e di (che a sua volta è funzione crescente di )

(1−ℎ )

2 ℎ

̂

( )

“elevat

Dettagli
Publisher
A.A. 2018-2019
31 pagine
6 download
SSD Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher aina.belloni di informazioni apprese con la frequenza delle lezioni di Analisi statistica multivariata e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Milano - Bicocca o del prof Migliorati Sonia.