Appunti Modelli - Analisi statistica multivariata - teoria

Appunti completi riguardanti la parte teorica dell'esame di Analisi statistica multivariata basati su appunti personali del publisher presi alle lezioni della prof. Migliorati …

Esame Analisi statistica multivariata

Facoltà Scienze statistiche

Dal corso del Prof. Migliorati Sonia

Università Università degli Studi di Milano - Bicocca

Publisher aina.belloni

A.A. 2018-2019

31 pagine

6 download

Appunto

Vota 3,5 / 5 (2)

Scarica

Estratto del documento

RESIDUI

RESIDUI GREZZI (raw) (ordinari)

̂ ̂

= − = 1, … ,

con

∑ ̂ = 0

E’ gia noto che : purchè ci sia l’intercetta

∑ ̂ = 0 2° equazione sistema di equazioni normali ; residui grezzi e covariata incorrelati

̂ ̂ (̂ ̂ ̂ ̂

=1 =1 =1 =1

→

∑ ∑ ∑ ∑

̂ ̂ = 0 ̂ = + ̂ + ) = ̂ + ̂ = 0

dove

0 1 0 1 0 1

→

, , , … ̂

Se ho più covariate i residui sono incorrelati con ciascuna covariata, con , con

1 2 3

qualunque combinazione lineare delle covariate

(assenza di andamenti regolari sistematici, pattern)

Al variare del campione :

̂ ̂

→

̂ → = 1, … , ) ( =

)

v.c. (

( = ( − )

) eteroschedastici, anche se fossero omoschedastiche

1 ≤ ℎ ≤ 1 nota che dipende dai valori della covariata , leverage (valore di leva)

RESIDUI STANDADIZZATI (internamente studentizzati)

∑ ̂

̂ √

= =

dove , sono omoschedastici, qualora siano omoschedastici

−2

√−

Funzione di densità ? Non sono più incorrelati con le

RESIDUI JACK-KNIFED (esternamente studentizzati)

̂ 2 2

dove è la stima di calcolata dalla regressione senza la i-esima unità statistica

(−)

√−

(−)

→ ̂ ̂

sono incorrelati con

→

sono omoschedastici (se anche sono omoschedastici)

→ ~ − 3 = ( − 1) − 2 − 2 ⟺ − ( + 1)

se ( ) ; regressione semplice #covariate

− (

− 3 ⟺ − 1 − + 1) = − − 2 reg multipla

(−−− )

2, … , → → =

u.s. stimo la regressione lineare (−) −−

GRAFICI DIAGNOSTICI

Sono i plot dei residui e .

̂ ̂

→ ̂ = + ̂

se regressione è semplice allora , quindi è indifferente plottare o + residui

0 1

̂ ̂ ̂

→ ̂ = + + … = 1, … ,

se regressione è multipla allora considero i residui e + residui e con

0 1 1 2 2

1) STRUTTURA DEL MODELLO (LINEARITA’)

̂ ̂

Scatterplot con sulle ordinate e (o ) sulle ascisse

→

Se la linearità è soddisfatta l’andamento è privo di sistematicità (NULL PLOTS)

Sospetti sulla linearità se andamenti sistematici :

→

Possibili soluzioni inserire esplicative

2 , log , … )

trasformate (

→ passo a modelli non lineari

2) IPOTESI SUGLI ERORRI

→

INCORRELAZIONE (GOLS se non soddisfatta)

→ =

Tipicamente l’incorrelazione non è soddisfatta se u.s. istante temporale o punto spaziale

• ̂ ̂

Plot vs

Lunghe sequenze di residui sopra e sotto lo zero

• Index plot

• Plot dei residui vs residui ritardati (laggati)

( ̂ , ̂ )

1 2

( ̂ , ̂ ) { ( ̂ , ̂ )

+1 2 3

…

(LAG = 1)

(LAG > 1)

• Test per la significatività del coefficiente di regressione del modello in cui :

(̂

̂ ̂ = 0) ? ∶ = 0

Risposta = Esplicativa =

+1 0 0 1

→

Se c’è incorrelazione non rifiutare

Se è significativo allora sospetto che ci sia correlazione

• Test di Durbin – Watson →

∶ l’obiettivo è che − > 5%

0 − > 1%

(̂ )

−̂

= 2

→ −

∑

= →

ldd combinazione lineare di

∑ ̂

= →

R lm test

OMOSCHEDASTICITÀ (WLS) eteroschedastici

√| ̂ ̂

Scale – location plot vs

√| ̂ |

Propendo per omoschedasticità se la dispersione dei è

“costante” al variare di

L’omoschedasticità è sospetta : fan – like

̂ ̂

| |

Spread – level plot vs stessa interpetazione

NORMALITÀ

Se non soddisfatta non c’è : significatività, IC, test bontà, efficienza assoluta .

→

Le cause di non normalità mancanza di simmetria

]

[ = + → =

0 1

Non è detto che sia il modo migliore per sintetizzare la distribuzione delle risposte

→ multimodalità

Suddivido la popolazione in due sottopopolazioni

F e M sono parte della covariata “genere”

→ →

omissione covariate che individua la sottopopolaz modalità MISS-SPECIFIED

• Boxplot

• Istogramma e sovraimporre la funzione di densità di una normale

• Q – Q plot

Test per la normalità → ∶ ?

Kolmogorov – Smirnov DS : p-value > 0.05 va bene , p-value < 0.01 non va bene

= ∶ à

Shapiro – Wilk : 0

( )

W può essere interpretato come quadrato del coefficiente di correlazione dei punti

rappresentato nel QQ-plot per la normalità.

Se la normalità è sospetta : uso trasformazioni che avvicinano alla normalità

oppure modelli che non richiedono la normalità

Es.

3) OSSERVAZIONI “UNUSUAL”

PUNTI DI LEVA (leverage elevato)

∀ . . ≤ ℎ ≤ 1

uno

Dipendono solo dalle , individuano u.s. che hanno valori delle

covariate lontani dal baricentro

(̂ 2

= (1 − ℎ )

)

.. ..

∑

= + nxn

1 2

≠ ̂ ℎ ℎ ℎ

1 11 12 1

∑ ℎ = 1

̂ ℎ ℎ ℎ

2 21 22 2

.. ..

.. .. → ≈ ̂

Le u.s. con leverage “elevato” sono punti di leva , il dato (osservaz i-esima) ha fatto leva sul modello

∑ ℎ = + 1

“elevato” : k = # covariate

∑ ℎ =2

regressione semplice :

OUTLIER

E’ una osservazione (u.s. data) che viene fittata male dal modello (residuo “grande”)

→

• leverage elevato , con residuo piccolo non è un outlier

→

• leverage elevato , con residuo grande outlier

̂ → ~ − 3)

Regola per decidere se un’osservazione è outlier : (

−−2

∶ − è

0 } ̂

′

−−2; 1− 2

′

= 0.05

Test multipli (n test) : ciascuno a livello ′

)

( | ≤

La probabilità di errore globale 0

= ′

Correzione di Bonferroni : dove probabilità errore globale 0.05

′ probabilità errore sul singolo

→

−−2; 1− 2 faccio tabella per k = 3 e k= 5

PUNTI INFLUENTI

Un’osservazione è influente se la sua rimozione dal dataset causa un “grande” cambiamento nelle stime

(̂ ̂ ̂

, , … , ) (̂

e/o nel fit ) .

0 1

Un dato (osservazione) influente tipicamente è outlier oppure di leva oppure entrambe le cose.

(−)

Misure di influenza Il pedice signicfica senza l’i-esima osservazione

.. ..

̂ ̂ → 0 1

= 1, … , × + 1

1) k+1 vs con matrice

(−) .. ..

• ..

La varianza nella stima dell’intercetta se togliessi la =2 .. .. .. ..

1° osservazione. .. .. .. .. ..

̂ ̂ .. .. .. ..

−

(−)

∶ = 0, … ,

con

2 −1

′

( )

√

(−) ̂ ̂

−

(−)

→

̂ ̂

̂ ̂ ∶

2) vs (−) 1 1 (−1) √ℎ

(−)

∑ ̂ ̂

−

( ) ̂

( )

(−)

()

∀ ∶ = =

3) Distanza di Cook : basta stimare un modello

(+) + (− )

→

misura di influenza della i−esima osservazione computeria… ovvero > a

→ elevata se punto è di leva o è outlier

2 ℎ

̂ ℎ

( )

è funzione crescente di e di (che a sua volta è funzione crescente di )

(1−ℎ )

2 ℎ

( )

“elevat

Anteprima

Vedrai una selezione di 8 pagine su 31