Modelli statistici

Appunti sul modulo di Modelli statistici per l'esame di Analisi statistica multivariata, utili come alternativa al documento (illeggibile) fornito dal professore. Integrano sia slide sia le …

Esame Analisi Statistica Multivariata

Facoltà Scienze statistiche

Dal corso del Prof. Vittadini Giorgio

Università Università degli Studi di Milano - Bicocca

Publisher gabrielet0903

A.A. 2023-2024

36 pagine

Appunti esame

Vota 4,0 / 5 (2)

Scarica

Estratto del documento

Y X−μ

y x

σ x + +b +

y=b b x x ε

-piano di regressione: 0 1 1 2 2

I coefficienti si calcolano sempre attraverso il metodo dei minimi quadrati risolvendo il

sistema di tre derivate parziali, si può utilizzare il metodo di Cramer il quale sfrutta la

relazione fra determinanti. lo stimatore b1 si ottiene dal seguente rapporto:

−s

s s s

^ x y x x x y x x

b 1 2 2 2 1 2 dove s sono i componenti della matrice di varianze e covarianze

1 2

−s

s s

x x x x x x

1 1 2 2 1 2

campionaria. in modo analogo è possibile calcolare lo stimatore b^2 e per differenza

l’intercetta. b0 rappresenta l’intercetta del piano e fornisce il valore della risposta quando le

variabili esplicative assumono valore pari a zero, b1 è lo stimatore del coefficiente di

regressione riferito a x1 e stabilisce la misura dell’influenza parziale della prima variabile

esplicativa a parità dei valori dell’altra. b2 è lo stimatore del coefficiente di regressione

riferito a x2 e stabilisce la misura dell’influenza parziale della seconda variabile esplicativa a

parità dei valori della prima.

2.3 Bontà di adattamento

Un primo indice comunemente utilizzato per valutare il modello di regressione multipla si

basa sui residui e sul loro errore standard, e si calcola come:

RSE=√❑

valuta la variazione media della variabile effettiva rispetto all’interpolante, se i valori

interpolati sono prossimi a quelli osservati il valore di RSE sarà basso indicando un ottimo

adattamento del modello ai dati.

Un altro indice invece sfrutta la scomposizione della devianza complessiva, in primo luogo è

= −^ ¿

z y y

bene esplicitare le 3 proprietà dei residui ( :

i i i

∑ ( )=0

1-la somma dei residui è pari a 0 , di conseguenza la variabile effettiva e la

i=1

variabile interpolata hanno la stessa media.

2-i residui sono incorrelati rispetto ad ogni variabile esplicativa:

cov(Z, xi)=0

3- i residui sono incorrelati rispetto ai valori dell’interpolante:

cov(Z,Y^)=0 2

− ¿ +¿

y y

i i

¿ n

∑

( − ^ )+(^ − = ¿

y y y y)¿

i i i i=1

¿ n

∑

❑ 2

− ¿ = ¿

y y

i i=1

¿ n

∑

( )= ¿

Dev y i=1 z

n n

∑ ∑

n n ^ − ¿

z y y

∑ ∑ applicando le proprietà dei residui, è possibile

¿ (z )+ ❑ i 1

i =1

i=1 i

i=1 i 2

^ − ¿ +2 ¿

y y

i ¿

n n 2

^ − ¿

y y

∑ ∑

)= ( )+ ❑

Dev( y z

riscrivere ovvero

i ¿

i i=1

devianza totale = devianza residua + devianza spiegata

−1

X ' X X ' y

In termini matriciali, per ed esprimendo y e X in termini di variabili centrate

b(stimato)=¿

si ha che y = Xb^ + e^ = y^ + e^ (^ = stimato) −1

−1 −X ( ¿ )

I X ' X X ' y

X ' X X ' y n

dove ed

X b( stimato)= X (stimato)=¿

Si ha quindi:

-la Devianza totale (TSS) = y’y −1

X ' X X ' y

−1

¿ ¿

X ' X X ' y= y ' X

-la Devianza spiegata (MODEL SS) = y’^ y^ = −1

¿ ¿

X ' X X ' X

y'X

vale a dire la somma dei quadrati dovuti alla regressione

−1

−X ( ¿

I X ' X X ') y

n −1

−X ( ¿ ¿

I X ' X X ') y= y '

-la Devianza residua (SSR) = e’^ e^ = vale a dire la somma

−1

− ( ¿

I X X ' X X ')¿

n ¿

y' −1

X ' X X '

dei quadrati degli scarti tra valori osservati e interpolati. ( è una matrice

−X ¿

I n

idempotente, moltiplicata per se stessa da come risultato sempre se stessa, dimostrazione

fatta nella domanda 2.7)

−1

−X ( ¿ )

I X ' X X y=0

−1

poiché , vale il cosiddetto teorema di scomposizione della

¿ ¿

X ' X X

( ¿

y stimato)' e= y ' X

varianza: TSS = MODEL SS + SSR, e di conseguenza, è possibile calcolare un indice di

adattamento che prende il nome di coefficiente di correlazione multipla e mette in relazione

la varianza di y spiegata da X (MODEL SS) con la varianza totale di y (TSS)

SSR MODEL SS

2 =1− =

R l’indice R2 tuttavia ha la proprietà di aumentare nel momento

TSS TSS

in cui si aggiungono altri regressori al modello, per ovviare questo problema è stato costruito

un altro indice il quale penalizza l’aumento di R^2 all’inserimento di un altro regressore:

n−1 SSR

2 =1−( )

R adj −1

n−k TSS

Se R2 = 1 i valori osservati sono sempre uguali ai valori interpolati, i due fenomeni covariano

linearmente in modo perfetto perciò il divario fra realtà e teoria è nullo

Se R2=0 i valori osservati coincidono tutti con la μy, i due fenomeni non covariano in modo

lineare, perciò il divario tra teoria e realtà è massimo

Nel caso bivariato l’indice di bontà di adattamento è dato dal rapporto tra il divario tra valori

osservati ed interpolati (coefficiente b1) e il divario massimo (varianza di y), perciò

σ R^2 coincide con il quadrato del coefficiente di correlazione lineare di

2 xy 2

= =ρ

R 2 2

σ σ

x y

bravais-pearson. +b

y=b x+ e

Riprendendo la retta di regressione , attraverso il metodo dei minimi

o 1 x

σ xy

quadrati sappiamo che , adesso prendiamo una seconda retta di regressione

1 2

σ x σ xy

+ + a

x=a a y e , sempre attraverso OLS, sappiamo che . Di conseguenza è

0 1 y 2

σ y

possibile affermare che la media geometrica dei coefficienti angolari delle rette di

❑

√

regressione è uguale al coefficiente di correlazione:

❑

√

-se = 1, le due rette di regressione Y su X e X su Y coincidono e postulano un

perfetto legame lineare diretto

❑

√

-se = -1, le due rette di regressione Y su X e X su Y coincidono e postulano un

perfetto legame lineare inverso

❑

√

-se = 0, le rette di regressione sono perpendicolari tra di loro e si intersecano nel

( )

μ , μ

punto x y

❑

0< √

-se < 1, i punti sono disposti su spezzate crescenti e le rette postulano un legame

non perfetto ma di segno concordante

−1< ❑

√

- se < 0, i punti sono disposti su spezzate decrescenti e le rette postulano un

legame non perfetto ma di segno discordante.

2.4 Interpolazione con variabili centrate e standardizzate, variazione e previsione con retta di

regressione

-Interpolazione con variabili centrate

Attraverso un cambiamento dell’origine degli assi, è possibile scrivere le variabili Y e X come

=Y −μ =X−μ

Y X

variabili centrate: e . Riprendendo la retta di regressione

y x

mediante il metodo OLS:

σ xy

=μ + ( )

Y X−μ

y x

σ x σ xy ( )

−μ =¿ X−μ

Y x

y 2

σ x

σ σ

xy xy

= =

Y X b

di conseguenza: il coefficiente e 1

2 2

σ σ

x x

−1

X ' X X ' y

Y X b+e

In termini matriciali , dove ^

b=¿

-Interpolazione con variabili standardizzate

D

Se è la matrice diagonale i cui elementi sono le varianze delle variabili X, e le X e y

x ¿ −1 /2

=X

X D

sono standardizzate, ossia divise per il loro scarto quadratico medio: ,

¿ = /σ

y y , allora il coefficiente di regressione standardizzato

y −1

¿ /σ

X ' X y y

−1 /2 −1/ −1 −1 /2 −1/

2 2

¿ /σ =D ¿

D X ' X D D X ' y

x x x y x da una misura dell’entità della relazione

¿ ¿ −1 ¿ ¿

¿ =¿

X ' X X ' y

¿ =¿

B

lineare tra X e y al netto del loro ordine di grandezza

-Variazione

=b + +b +...+

y b x x b x x

si ha una variazione in

0 0 1 10 2 20 k k 0 k

=b +b +b +...+

y x x b x da cui:

w 0 1 10 2 20 k kw

− =b +b + +...+b −(b +b + +...+b )

y y x b x x x b x x e:

w 0 0 1 10 2 20 k kw 0 1 10 2 20 k k 0

− =b −b =b (x −x )

y y x x

w 0 k kw k k 0 k kw k0

Δ y Δ x

k k k

-Previsione ^ ^

= +

y b b x

Si abbia una regressione semplice definita su n osservazioni (

i 0 1 1 i

i=1,... , n con parametri calcolati con il metodo OLS. Si consideri una k+1-esima

osservazione non compresa nella rilevazione. Si ipotizzi che la variabile assumerà un

certo valore su tale osservazione e che i parametri ricavati per l’insieme delle n

1(k+1)

osservazioni valgano anche per tale osservazione, sebbene sia al di fuori della rilevazione. è

possibile quindi prevedere il valore che la variabile dipendente assume sulla k+1

k+1

osservazione. Caso analogo vi è anche per la regressione multipla.

2.5 Connessione, dipendenza in media, dipendenza lineare e scelta polinomi di grado g

La connessione indica quanto due variabili sono stocasticamente dipendenti tra loro ed è

calcolata tramite l’uso del Chi-quadro normalizzato

n n

i . . j 2

− ¿

ij n

n n

i . . j

¿ n

∑ ¿

j=1

∑ ¿

i=1

2 =¿

χ N ��

dove r e m sono il numero di modalità delle due variabili, le frequenze congiunte ed n il

numero di osservazioni.

Si tratta un indice normalizzato simmetrico e che è quindi compreso nell’intervallo 0 e 1

estremi inclusi: 0 indica che le due variabili sono tra loro stocasticamente indipendenti,

mentre 1 indica massima connessione.

Con la dipendenza in media si intende mostrare la dipendenza che esiste tra i valori medi

che assume la variabile Y dati i va

Anteprima

Vedrai una selezione di 9 pagine su 36