Estratto del documento

MODELLI STATISTICI

Modelli statistici: modi probabilistico-matematici che consentono di esplicitare la relazione tra variabili statistiche

(es. X (voto), Y (ore), Z (social) , effetto/risposta = X , cause = X,Y )

Ogni modello è una rappresentazione semplificata della realtà :

• Sufficientemente semplice (trattare, utilizzare capacità esplicative)

• Non troppo semplice (perde la capacità di avvicinarsi alla realtà) – Box

COSTRUZIONE DI UN MODELLO

TEORIA DATI

- Variabili di interesse - Metodologia di raccolta

- Relazioni - Pre-processing

- Ipotesi di studio

modello SPECIFICAZIONE DEL MODELLO

buon STIMA DEL MODELLO

un

è

non

Se VERIFICA E DIAGNOSTICA DEL

MODELLO

Se è un buon modello

UTILIZZO DEL MODELLO

SPECIFICAZIONE )

= ( , , … , +

Esplicitare la relazione tra le variabili : modello di regressione

Y risposta (endogena, dipendente)

, , … , esplicative , covariate (regressori, esogene, indipendente, predettori) ; esprimono le cause

variabile errore , ad es :

- Se nel modello mancano delle covariate

- Errori di misurazione

- mal specificata

)

( , , … , componente sistematica del modello, natura deterministica

, … , , … ,

poiché sono deterministiche, non aleatorie, non casuali (sono valori )

1 1

Es. tipicamente per fenomeni economici l’ipotesi non è soddisfatta

| = , … , = (approccio condizionato qualora l’ipotesi non sia soddisfatta)

1 1

componente erratica o accidentale del modello, natura aleatoria (variabile casuale)

(quindi dato che Y dipende da , anche Y è una variabile casuale)

La specificazione richiede anche l’emissione di ipotesi su (caratteristiche probabilistiche)

STIMA DEL MODELLO → →

Specificato il modello per le unità statistiche di una popolazione statistica rilevazione parziale campione

∶ #

= 1, . . , = ( , … , ; _) +

Il modello specificato vale per ogni unità statistica del campione:

è la variabile risposta per la i-esima componente

0 →

_ = [ ] vettore di parametri ignoti , da stimare (coefficienti di regressione)

1

Inoltre ci sono i parametri che caratterizzano la distribuzione (funzione di densità) di

VERIFICA E DIAGNOSTICA

- Bontà del modello

- Significatività dei coefficienti di regressione

- Ipotesi su

CLASSIFICAZIONE DEI MODELLI

In base al numero di variabili

• = ( ; _) +

Semplice , se c’è una variabile risposta e una variabile esplicativa

• = ( , … , ; _) +

Multipla, se c’è una risposta e più di una esplicativa

• Multivariata, se c’è più di una risposta e solitamente più di una esplicativa (ma anche solo una esplicativa)

( ) ( )

= , … , ; _ + … = , … , ; _ +

In base al legame funzionale tra parametri

• Lineari, se la risposta è una combinazione lineare di esplicative e parametri

2

= + + + = + + exp

( ) +

oppure

0 1 1 2 2 0 1 2 2

1

• Linearizzabili, se non sono lineari ma possono essere resi lineari tramite opportune trasformazioni

∗ ∗ ∗

0∗

→ →

1

= ∗ ∗ log

( ) = log

( ) + log

( ) + log

( ) = + +

0 0 1 1 1 1

1

• Non lineari, se non esiste una trasformazione che li rende lineari

1 2

= ∗ ∗ ∗ linearizzabile

0

1

= + + non linearizzabile

0

1+ exp (− )

2 3

1 2

⁄ )

= exp(− linearizzabile

0 1

MODELLO DI REGRESSIONE LINEARE SEMPLICE

SPECIFICAZIONE

= + + per la i-esima unità statistica

0 1

= [ , ]′

dove vettore colonna di coefficienti di regressione IGNOTI

− 0 1

IPOTESI SULLA COMPONENTE ERRATICA - ipotesi classiche del modello di regress. lineare, di secondo ordine

Se non pongo delle ipotesi, non conoscendola non posso procedere.

• → )

( = 0 ∀ = 1, . . ,

Non sistematicità degli errori per tutte le u.s. quindi predittore lineare

] ] ] ]

)

→ = ( = [ + + = [ + [ + [ = + =

la media della risposta 0 1 0 1

′ ′

] ]

→ [ = ≠ 0 = − [ = 0

se posso così

posso traslare la componente erratica per fare in modo che sia soddisfatta la non sistemasticità

le sono note (non aleatorie) , quindi in ambito economico tutte le affermazioni che andiamo a fare

devono essere interpretate condizionatamente ai valori

]

)

( | = + + [ | = + ≡ ≡

se le variabili e sono indipendenti

0 1 0 1

• → ( , = 0 ∀ ≠ , = 1, . . ,

)

Incorrelazione degli errori numeratore del coeff di correlazione

→ ( , = ( + + , + + = ( , =

) ) ) utilizzo ipotesi di incorrel errori

0 1 0 1

+

Una traslazione costante della variabile non cambia la covarianza (essendo costante)

0 1

interpretiamo condizionatamente ai valori

)

( | = ?

• 2

→ )

( = < ∞ ∀ = 1, . . ,

Omoschedasticità degli errori finita uguale per ogni u. statistica

) ) )

→ ( = ( + + = ( = utilizzo ipotesi di omoschedasticità errori

0 1

IPOTESI SULLA VARIABILE ESPLICATIVA X

E’ nota (senza errrore) o perché la fisso o se così non fosse tratto il modello condizionatamente alle

• L’esplicativa assume almeno due valori distinti sulle unità statistiche del campione

= ∀ →

Infatti se varianza campionaria = 0 e quindi non posso stimare, la stima non esisterebbe

STIMA DEL MODELLO →

( )

, = 1, . . , , , = + +

Considero coppia di valori determinati (x e y quantitativi)

0 1

è il risultato osservato (ad es un voto, o un valore di un’azienda)

= scarto ; determinazione corrispondente a , ma non è osservabile (non posso chiederla all’azienda)

= − ( + ) _

scarto tra la risposta osservata e la ignota (poiché ignota)

( , )

Per stimare il modello devo trovare i due valori di , quindi supponiamo

= = = +

che siano noti e allora è una retta.

0 1 1 2

Tra le infinite rette quale scelgo? scelgo la retta che abbia scarto minore possibile

,

Metodo che consenta di stimare i coefficienti di regressione che

0 1

permettono di avere scarti piccoli

→ METODO DEI MINIMI QUADRATI

METODO DEI MINIMI QUADRATI - MQ o LS (least squares)

Metodo di stima non parametrico (poiché non richiede ipotesi sulla legge di distribuzione delle variabili)

=1 2

min

Scelgo una funzione obiettivo e la minimizzo : ,

0 1

E’ importante che sia al quadrato perché lo scarto potrebbe essere negativo, e se lo minimizzo si scosterebbe solo,

quindi utilizzo i quadrati per evitare compensazioni tra scarti positivi e scarti negativi.

Calcoli =1 2 =1 2 =1 2

→ [

∑ ∑ ∑ ( )]

min = − + = ( , )

0 1 0 1

,

0 1

=1

[

∑ ( )]

= −2 − + = 0 =

[

∑ ( )]

− + =

0 1

0

{ { sistema di equazioni normali

=

[

∑ ( )]

− + =

=1

[

∑ ( )]

= −2 − + = 0

0 1

1

scarto = perpendicolarità tra ed

2 2̅ 2 2

= det() = 4 > 0

[ ]

Calcolo Hessiana determinante =

2

2̅ 2

Così posso verificare che il punto di stazionarietà è un punto di minimo

Soluzione sistema di equazioni normali : stime dei minimi quadrati mq (ols, ordinary least squared)

( ̅)( ̅)

∑ − −

∗ ∗ ∗

=

̅ ̅

= − = = =

dove

( )

∑ ̅

= 2

( )( ( )

∑ ∑

̅)

−̅ − −̅

1 1

=1 =1

=1 =1

∑ ∑

̅ ̅

( = = ) ( = ) ( = )

,

Dimostrazione

0∗ 1∗ ∑ ∑ ∑

̅ − − ̅ = 0 → − − = 0

0 1 0∗ 1∗

= ̅ − ̅

{ dato

2

0∗ 1∗

∑ ∑

− ̅ − = 0

2 2

1∗ 1∗ 1∗ 2

∑ ∑ ∑ ∑

− ̅ (̅ − ̅ ) − = 0 → ̅ − + − ̅ ̅ = 0

( )

∑ −

̅ ̅

̅ ̅

1∗

= = = =

2 2 2

2

̅

∑ ∑

2

̅

0∗ 1∗

→ = + equazione retta dei minimi quadrati

sono i valori previsti dal modello (teorici, fittati, interpolati, stimati)

Esercizio

X : anno (1931,1981) 1931 1932 … 1981

Y : livello annuale massimo del mare a venezia 103 78 … 138

acqua aumentata di 35 cm dall’inizio alla fine

2 2

̅ ̅

n = 51 = 1956 = 119,61 = 402,75 = 216,67 = 122,84

122,84

1∗ 0∗

= = = 0,567 = 119,61 − 0,567 ∗ 1956 = −989,44

2

216,67

= − 989,44 + 0,567 equazione dei minimi quadrati

0∗ ∗

→ per x = 0

1∗

→ variazione nella risposta media se l’esplicativa ha una variazione unitaria

(x -> x+1)

PROPRIETA’ DESCRITTIVE della retta dei MQ (proprietà campionarie)

∗ ∗ 0∗ 1∗ 1∗

( ) ( )

() = = − = − + = − ̅ − − ̅ numero noto

1∗

1

∗ . . ..

̅ = ̅

1) , media campionaria osservata = medie valori interpolati ∗

0∗ 1∗ 0∗ 1∗ ∗

∑( ∑ ∑

− − ) = 0 → = + → ̅ = ̅

1° equazione del sistema di equazioni normali :

∗ ̅

→ = → =

̅, ̅)

(

2) Retta dei minimi quadrati passa per il punto →

3) Scomposizione della devianza della risposta DT = DR + DS vale per i modelli lineari (LM)

∗ ∗

∑( ̅) ∑( ) ∑( ̅)

− = − + −

DT = DR + DS

DT o TSS : devianza totale , total sum squares →

DR o RSS : devianza residua , residual sum squares misura l’incapacità del modello di interpretare i dati

DS o ESS o SSR : devianza spiegata , explained sum squares, sum squares of regression

⇔ = ∀

DR = 0 in questo caso il modello interpreta perfettamente i dati

Dimostrazione ∗ ∗ ∗ ∗ ∗ ∗

∑( ̅) ∑( ̅) ∑( ) ∑( ̅) ∑( ̅)

− = − + − = − + − + − )( −

deve essere = 0

∗ 0∗ 1∗ 1∗ 1∗ 1∗

= + = ̅ − ̅ + = ̅ + ( − ̅ )

∗ ∗ 1∗ 1∗

∑( ∑ (

− )( − ̅) = − ̅ − ( − ̅ )) (̅ + ( − ̅ ) − ̅)

1∗ 1∗ 2 2

∑( ∑( ) ( )

= − ̅) ( − ̅ ) − − ̅

1∗ 1∗ 2 2

( )

= −

2

2

= − = 0

2

2 2

( )

→ = = −

4) Indice di bontà del modello (retta) r squared o indice di determinazione lineare camp

∈ [; ]

Percentuale della variabilità della risposta spiegata del modello ,

= pessima capacità interpretativa

= perfetta capacità interpretativa (DR = 0)

PROPRIETA’ (INFERENZIALI) DEGLI STIMATORI MQ – LINEARITA’

0∗ 0∗ 0∗

→ )

→ ( =

stima mq (numero) stimatore mq (v.c.) correttezza 0

1∗ 1∗ 1∗

→ )

→ ( =

stima mq (numero) stimatore mq (v.c.) correttezza 1

∗ ∗

= 1, … ,

e stimatori dei MQ (OLS) sono combinazioni lineari delle

)( ) )̅ ( ) ( )

∑( ∑( ∑(

−̅)

−̅ −̅ − −̅ −̅ −̅

1∗

∑ ∑

= = = = =

dove peso non aleatorio

2 2 2 2

) ) ) )

∑( ∑( ∑( ∑(

−̅ −̅ −̅ −̅

(coinvolge solo non )

∑( )

− ̅ = 0 perché è la somma degli scarti della media

1 1 1

0∗ 1∗ ∑ ∑ ∑( ∑

= ̅ − ̅ = − ̅ = − ̅ ) = = ( − ̅ )

dove pesi noti non aleatori

1∗ 0∗

→ ∑ ∑

= =

Proprietà di e

( ) )

∑(

−̅ −̅

• = =1 =1

∑ ∑ ∑

= = = = 0

2 2

) )

∑( ∑(

−̅ −̅

2 2 2

( ) )

∑( ∑ ∑ ∑

−̅ −̅ −̅ − ̅

• = =1 =1

∑ ∑ ∑

= = = = = = 1

2 2 2 2 2 2 2

) )

∑( ∑( ∑ ∑ ∑

−̅ −

Anteprima
Vedrai una selezione di 8 pagine su 31
Appunti Modelli - Analisi statistica multivariata - teoria Pag. 1 Appunti Modelli - Analisi statistica multivariata - teoria Pag. 2
Anteprima di 8 pagg. su 31.
Scarica il documento per vederlo tutto.
Appunti Modelli - Analisi statistica multivariata - teoria Pag. 6
Anteprima di 8 pagg. su 31.
Scarica il documento per vederlo tutto.
Appunti Modelli - Analisi statistica multivariata - teoria Pag. 11
Anteprima di 8 pagg. su 31.
Scarica il documento per vederlo tutto.
Appunti Modelli - Analisi statistica multivariata - teoria Pag. 16
Anteprima di 8 pagg. su 31.
Scarica il documento per vederlo tutto.
Appunti Modelli - Analisi statistica multivariata - teoria Pag. 21
Anteprima di 8 pagg. su 31.
Scarica il documento per vederlo tutto.
Appunti Modelli - Analisi statistica multivariata - teoria Pag. 26
Anteprima di 8 pagg. su 31.
Scarica il documento per vederlo tutto.
Appunti Modelli - Analisi statistica multivariata - teoria Pag. 31
1 su 31
D/illustrazione/soddisfatti o rimborsati
Acquista con carta o PayPal
Scarica i documenti tutte le volte che vuoi
Dettagli
SSD
Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher aina.belloni di informazioni apprese con la frequenza delle lezioni di Analisi statistica multivariata e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Milano - Bicocca o del prof Migliorati Sonia.
Appunti correlati Invia appunti e guadagna

Domande e risposte

Hai bisogno di aiuto?
Chiedi alla community