Analisi Statistica multivariata

Appunti di modelli statistici basati su appunti presi alle lezioni del professore Nipoti con un riassunto finale di comandi di laboratorio utili per la risoluzione degli esercizi in R. Gli appunti sono stati scritti in word con parti scritte a mano, scannerizzate e inserite nel testo.

Esame Analisi statistica multivariata

Facoltà Scienze statistiche

Dal corso del Prof. Nipoti Bernardo

Università Università degli Studi di Milano - Bicocca

Publisher fede_poti

A.A. 2019-2020

120 pagine

2 download

Appunto

Vota 4,5 / 5 (2)

Scarica

Estratto del documento

RIPASSO

• Test d’ipotesi

• Regola decisionale:

- ⇒

Se rifiuto non posso rifiutare il modello, il modello di regressione lineare

0 aiuta a spiegare parte della

variabilità della variabile risposta.

- ⇒

Se non rifiuto rifiuto il modello

OSS • Statistica test

Se consideriamo questa quantità, tanto più questa quantità sarà lontana da zero allora

più ci sarà evidenza di una relazione lineare tra x e y.

• Consideriamo la devianza spiegata:

Possiamo riscrivere a stessa quantità in modo differente, vista come variabile

aleatoria:

• Consideriamo:

•

sotto abbiamo che:

se sostituisco tutti i valori ottengo:

• devianza spiegata: Proprietà:

Il quadrato di una Normale standard è

una Chi-Quadro con un grado di libertà

• devianza residua

Osserviamo ora la nostra statistica test, e ne cerchiamo la distribuzione:

̂ 2

e e

sapendo che sono indipendenti (anche )

1 Proprietà:

Date due variabile aleatorie U e V tali che:

dove è una distribuzione di Fisher con r e s gradi di libertà.

Possiamo infine scrivere che: (0, +∞)

La distribuzione di Fisher ha come supporto la semiretta positiva

• livello di significatività

Sia un determinato livello di significatività, determiniamo

12 2

̂ 2

• regola decisionale

- > ⇒ rifiuto

se 1,−2,1− 0

- < ⇒ accetto

se 1,−2,1− 0

• p-value

− = ( > )

- − < ⇒ rifiuto ⇒ non rifiuto il modello

se 0

- − > ⇒ accetto ⇒ rifiuto il modello

se 0

Diagnostica per un modello di

Regressione Lineare Semplice

Assunzioni di Modello Regressione Lineare Semplice Normale:

• → [ ] = +

Linearità 0 1

• 2

→ )

( =

Omoschedasticità

• → ( , = 0

)

Incorrelazione tra errori

• 2

→

~ (0, )

Normalità di

Per poter verificare le varie assunzioni ci rifacciamo all’uso dell’assunzione di assenza di

outliers, gli strumenti da utilizzare:

- Grafici (intuitivi)

- Test analitici (quantitativi, p-value)

Il miglior modo è l’utilizzo combinato dei due metodi.

La quantità più interessante per validare le assunzioni del modello di regressione è quello di

utilizzare i residui.

ANALISI DEI RESIDUI ( ),

, … , ( , )

Una volta osservate le coppie consideriamo i residui come equivalenti

1 1

campionari degli errori non osservabili

L’idea è di utilizzare i residui per verificare la validità delle assunzioni fatte sugli errori.

→

Alla base ci sono assunzioni sul modello (su ) sulla base di queste assunzioni abbiamo

→

studiato delle proprietà del modello in particolare la proprietà dei residui.

• Se le assunzioni sono valide i residui avranno determinate proprietà.

• Se queste proprietà sono violate, allora le assunzioni alla base del modello non sono

valide.

Proprietà algebriche dei residui

I residui possono essere pensati come realizzazioni di una variabile aleatoria

→ = −

ottengo .

Proprietà stocastiche dei residui →

La varianza del residuo dipende dalla covariata è diversa per ogni i.

Perciò anche se gli errori sono assunti omoschedastici, i residui sono eteroschedastici.

Consideriamo una trasformazione del residuo: ̂

2 2

è un parametro del modello che non conosciamo, tuttavia è possibile stimarlo con .

Possiamo definire un’altra trasformazione dei residui: residui studentizzati

ANALISI GRAFICA DEI RESIDUI

- asse X: residui

- ̂

asse Y: covariata oppure valori previsti ̂ ̂

̂ = +

risulta equivalente considerare: (trasformazione lineare)

0 1

Se il grafico con le covariate sull’asse delle x

segnala un determinato andamento dei

residui, questo andamento si può riconoscere

anche nel grafico in cui mettiamo sulle x

il valore previsto piuttosto che il valore

della covariata.

• È vera se consideriamo un modello di regressione lineare semplice.

Dalla proprietà algebriche, si può fare vedere che la correlazione tra residui e covariate è

uguale a zero. (→ se la covarianza è uguale a zero)

Analogamente:

se i grafici mostrano un andamento diverso tipico da due variabili incorrelate, allora si può

interpretare ciò come una violazione delle assunzioni del modello.

Inoltre, sappiamo che se consideriamo i residui standardizzati/studentizzati allora ci

̂.

aspettiamo che la variabilità sia costante, e non dipenda da o da

, ()

Al posto di possiamo considerare una trasformazione -> il modello lineare non

→

è adatto a descrivere la relazione tra variabile esplicativa e risposta perciò considero

modelli non-lineari.

In questi grafici, vi è un dubbio sull’omoschedasticità violata. I residui grezzi non sono

omoschedastici perciò risulta difficile capire se l’assunzione è violata o meno. È perciò

necessario considerare i residui studentizzati/standardizzati.

Le proprietà algebriche dei residui ci permettono di dire, che se andiamo a visualizzare il

grafico di dispersione dei residui standardizzati rispetto alla variabile esplicativa (o rispetto ai

valori previsti) allora se vediamo delle tendenze sistematiche che violano l’incorrelazione tra

variabile esplicativa e residui interpretiamo come un’indicazione che le assunzioni alla base

del modello non sono valide. Dal tipo di grafico possiamo intuire quale sia l’assunzione violata.

RIPASSO

Distribuzione di

̂ ̂

Ho riscritto e come combinazioni lineari.

0 1

Allora:

Residui Standardizzati

Mi permette di recuperare il concetto di omoschedasticità.

Residui internamente studentizzati

Residui esternamente studentizzati

̂ 2 2

è lo stimatore di ottenuto dal campione osservato da cui abbiamo cancellato

(−)

l’osservazione i-sima partendo da n-1 coppie, cioè:

{( ), ( ), ( ), ( )}

, … , , , … , , .

1 1 −1 −1 +1 +1

Verifica incorrelazione dei residui (o ritardati)

Residui vs residui laggati

Quello che possiamo fare è visualizzare uno scatter-plot composto da n- punti che son i punti

( ), ( ),

, , … , ( , ).

di coordinate 1 2 2 3 −1

È interessante perché nel caso in cui non ci sia correlazione tra i residui, ovvero nel caso che la

→

nostra assunzione sull’incorrelatezza della variabile errore sia valida ci aspettiamo che il

fatto che il residuo indicizzato da un ‘indice i sia positivo non ci dia un’informazione utile a

prevedere se il residuo per l’osservazione indicizzata con i+1 sia positivo o negativo, in quanto

le due sono incorrelate.

In caso di incorrelatezza dei residui mi aspetto di visualizzare una nuvola di punti concentrata

attorno all’origine ma che non evidenzia nessun andamento sistematico, al contrario in caso

di correlazione positiva tra i residui con due indici successivi, mi aspetto che dato positivo

aumenti anche la probabilità che sia positivo. Mi aspetto di vedere uno scatter-plot in cui

la nuvola di punti cadrà nel primo e/o nel terzo quadrante. Se la correlazione fosse negativa

mi aspetto di vedere la nuvola di punti che cade nel secondo e nel quarto quadrante.

→

Dati simulati: indipendenti incorrelazion

Corr( )

, > 0

Dati simulati: +1

( )

= , è possibile formulare un test con le seguenti ipotesi:

1 +1 →

: = 0 Test Durbin-Watson In R è possibile utilizzarlo scaricando il

0 1

: ≠ 0 pacchetto lmtest utilizzando la funzione dwtest.

1 1 Corr( )

, < 0

Dati simulati: +1

Verifica omoschedasticità del modello

I residui grezzi non sono utili per la verifica del modello in quanto la varianza dipende

dall’indice i.

Grafici utili da analizzare:

• Residui studentizzati (asse y), variabile esplicativa (asse x)

• √|residui |

studentizzati (asse y), variabile esplicativa (asse x)

( ) =

( ) dipende da

Verifica: normalità dei residui

Volgiamo verificare se i residui che calcoliamo hanno una distribuzione che è coerente con la

proprietà da verificare. I residui devono avere distribuzione di una normale standard.

1. Si può confrontare l’istogramma dei residui con la densità di una normale standard

() ()

2. Confrontare la funzione di ripartizione empirica e teorica

3. Confrontare i quantili empirici e quelli teorici

Dati simulati:

1. = 50 ~

= 500 ~

= 50 : non normale (bimodale)

= 500 : non normale (bimodale)

= 50 : non normale (T )

= 500 : non normale (T )

2. Se abbiamo una variabile aleatoria allora la funzione di ripartizione Funzione indicatrice:

= 50 ~

= 500 ~

= 50 : bimodale

= 500 : bimodale

= 50 ~

= 500 ~

Test di kolmogorov-smirnov In R:

ks.test()

Possiamo scegliere:

Conveniente perché, se consideriamo la funzione di ripartizione empirica in questi valori,

otteniamo:

Il confronto che farò sarà tra le componenti delle coppie:

Per evitare questo tipo di problema, considero:

grafico quantile vs. quantile Ci aspettiamo di osserv

Anteprima

Vedrai una selezione di 21 pagine su 120