MODELLI STATISTICI
Modelli statistici: modi probabilistico-matematici che consentono di esplicitare la relazione tra variabili statistiche
(es. X (voto), Y (ore), Z (social) , effetto/risposta = X , cause = X,Y )
Ogni modello è una rappresentazione semplificata della realtà :
• Sufficientemente semplice (trattare, utilizzare capacità esplicative)
• Non troppo semplice (perde la capacità di avvicinarsi alla realtà) – Box
COSTRUZIONE DI UN MODELLO
TEORIA DATI
- Variabili di interesse - Metodologia di raccolta
- Relazioni - Pre-processing
- Ipotesi di studio
modello SPECIFICAZIONE DEL MODELLO
buon STIMA DEL MODELLO
un
è
non
Se VERIFICA E DIAGNOSTICA DEL
MODELLO
Se è un buon modello
UTILIZZO DEL MODELLO
SPECIFICAZIONE )
= ( , , … , +
Esplicitare la relazione tra le variabili : modello di regressione
→
Y risposta (endogena, dipendente)
→
, , … , esplicative , covariate (regressori, esogene, indipendente, predettori) ; esprimono le cause
→
variabile errore , ad es :
- Se nel modello mancano delle covariate
- Errori di misurazione
- mal specificata
→
)
( , , … , componente sistematica del modello, natura deterministica
, … , , … ,
poiché sono deterministiche, non aleatorie, non casuali (sono valori )
1 1
Es. tipicamente per fenomeni economici l’ipotesi non è soddisfatta
| = , … , = (approccio condizionato qualora l’ipotesi non sia soddisfatta)
1 1
→
componente erratica o accidentale del modello, natura aleatoria (variabile casuale)
(quindi dato che Y dipende da , anche Y è una variabile casuale)
La specificazione richiede anche l’emissione di ipotesi su (caratteristiche probabilistiche)
STIMA DEL MODELLO → →
Specificato il modello per le unità statistiche di una popolazione statistica rilevazione parziale campione
∶ #
= 1, . . , = ( , … , ; _) +
Il modello specificato vale per ogni unità statistica del campione:
è la variabile risposta per la i-esima componente
0 →
_ = [ ] vettore di parametri ignoti , da stimare (coefficienti di regressione)
1
…
Inoltre ci sono i parametri che caratterizzano la distribuzione (funzione di densità) di
VERIFICA E DIAGNOSTICA
- Bontà del modello
- Significatività dei coefficienti di regressione
- Ipotesi su
CLASSIFICAZIONE DEI MODELLI
In base al numero di variabili
• = ( ; _) +
Semplice , se c’è una variabile risposta e una variabile esplicativa
• = ( , … , ; _) +
Multipla, se c’è una risposta e più di una esplicativa
• Multivariata, se c’è più di una risposta e solitamente più di una esplicativa (ma anche solo una esplicativa)
( ) ( )
= , … , ; _ + … = , … , ; _ +
In base al legame funzionale tra parametri
• Lineari, se la risposta è una combinazione lineare di esplicative e parametri
2
= + + + = + + exp
( ) +
oppure
0 1 1 2 2 0 1 2 2
1
• Linearizzabili, se non sono lineari ma possono essere resi lineari tramite opportune trasformazioni
∗ ∗ ∗
0∗
→ →
1
= ∗ ∗ log
( ) = log
( ) + log
( ) + log
( ) = + +
0 0 1 1 1 1
1
• Non lineari, se non esiste una trasformazione che li rende lineari
1 2
= ∗ ∗ ∗ linearizzabile
0
1
= + + non linearizzabile
0
1+ exp (− )
2 3
1 2
⁄ )
= exp(− linearizzabile
0 1
MODELLO DI REGRESSIONE LINEARE SEMPLICE
SPECIFICAZIONE
= + + per la i-esima unità statistica
0 1
= [ , ]′
dove vettore colonna di coefficienti di regressione IGNOTI
− 0 1
IPOTESI SULLA COMPONENTE ERRATICA - ipotesi classiche del modello di regress. lineare, di secondo ordine
Se non pongo delle ipotesi, non conoscendola non posso procedere.
• → )
( = 0 ∀ = 1, . . ,
Non sistematicità degli errori per tutte le u.s. quindi predittore lineare
] ] ] ]
)
→ = ( = [ + + = [ + [ + [ = + =
la media della risposta 0 1 0 1
′ ′
] ]
→ [ = ≠ 0 = − [ = 0
se posso così
posso traslare la componente erratica per fare in modo che sia soddisfatta la non sistemasticità
→
le sono note (non aleatorie) , quindi in ambito economico tutte le affermazioni che andiamo a fare
devono essere interpretate condizionatamente ai valori
]
)
( | = + + [ | = + ≡ ≡
se le variabili e sono indipendenti
0 1 0 1
• → ( , = 0 ∀ ≠ , = 1, . . ,
)
Incorrelazione degli errori numeratore del coeff di correlazione
→ ( , = ( + + , + + = ( , =
) ) ) utilizzo ipotesi di incorrel errori
0 1 0 1
+
Una traslazione costante della variabile non cambia la covarianza (essendo costante)
0 1
→
interpretiamo condizionatamente ai valori
)
( | = ?
• 2
→ )
( = < ∞ ∀ = 1, . . ,
Omoschedasticità degli errori finita uguale per ogni u. statistica
) ) )
→ ( = ( + + = ( = utilizzo ipotesi di omoschedasticità errori
0 1
IPOTESI SULLA VARIABILE ESPLICATIVA X
•
E’ nota (senza errrore) o perché la fisso o se così non fosse tratto il modello condizionatamente alle
• L’esplicativa assume almeno due valori distinti sulle unità statistiche del campione
= ∀ →
Infatti se varianza campionaria = 0 e quindi non posso stimare, la stima non esisterebbe
STIMA DEL MODELLO →
( )
, = 1, . . , , , = + +
Considero coppia di valori determinati (x e y quantitativi)
0 1
è il risultato osservato (ad es un voto, o un valore di un’azienda)
= scarto ; determinazione corrispondente a , ma non è osservabile (non posso chiederla all’azienda)
= − ( + ) _
scarto tra la risposta osservata e la ignota (poiché ignota)
( , )
Per stimare il modello devo trovare i due valori di , quindi supponiamo
= = = +
che siano noti e allora è una retta.
0 1 1 2
Tra le infinite rette quale scelgo? scelgo la retta che abbia scarto minore possibile
,
Metodo che consenta di stimare i coefficienti di regressione che
0 1
permettono di avere scarti piccoli
→ METODO DEI MINIMI QUADRATI
METODO DEI MINIMI QUADRATI - MQ o LS (least squares)
Metodo di stima non parametrico (poiché non richiede ipotesi sulla legge di distribuzione delle variabili)
=1 2
∑
min
Scelgo una funzione obiettivo e la minimizzo : ,
0 1
E’ importante che sia al quadrato perché lo scarto potrebbe essere negativo, e se lo minimizzo si scosterebbe solo,
quindi utilizzo i quadrati per evitare compensazioni tra scarti positivi e scarti negativi.
Calcoli =1 2 =1 2 =1 2
→ [
∑ ∑ ∑ ( )]
min = − + = ( , )
0 1 0 1
,
0 1
=1
[
∑ ( )]
= −2 − + = 0 =
[
∑ ( )]
− + =
0 1
0
{ { sistema di equazioni normali
=
[
∑ ( )]
− + =
=1
[
∑ ( )]
= −2 − + = 0
0 1
1
scarto = perpendicolarità tra ed
2 2̅ 2 2
= det() = 4 > 0
[ ]
Calcolo Hessiana determinante =
2
∑
2̅ 2
Così posso verificare che il punto di stazionarietà è un punto di minimo
Soluzione sistema di equazioni normali : stime dei minimi quadrati mq (ols, ordinary least squared)
( ̅)( ̅)
∑ − −
∗ ∗ ∗
=
̅ ̅
= − = = =
dove
( )
∑ ̅
−
= 2
( )( ( )
∑ ∑
̅)
−̅ − −̅
1 1
=1 =1
=1 =1
∑ ∑
̅ ̅
( = = ) ( = ) ( = )
,
Dimostrazione
0∗ 1∗ ∑ ∑ ∑
̅ − − ̅ = 0 → − − = 0
0 1 0∗ 1∗
= ̅ − ̅
{ dato
2
0∗ 1∗
∑ ∑
− ̅ − = 0
2 2
1∗ 1∗ 1∗ 2
∑ ∑ ∑ ∑
− ̅ (̅ − ̅ ) − = 0 → ̅ − + − ̅ ̅ = 0
( )
∑ −
̅ ̅
−
̅ ̅
∑
1∗
= = = =
2 2 2
2
−
̅
∑ ∑
2
−
̅
0∗ 1∗
∗
→ = + equazione retta dei minimi quadrati
∗
sono i valori previsti dal modello (teorici, fittati, interpolati, stimati)
Esercizio
X : anno (1931,1981) 1931 1932 … 1981
Y : livello annuale massimo del mare a venezia 103 78 … 138
acqua aumentata di 35 cm dall’inizio alla fine
2 2
̅ ̅
n = 51 = 1956 = 119,61 = 402,75 = 216,67 = 122,84
122,84
1∗ 0∗
= = = 0,567 = 119,61 − 0,567 ∗ 1956 = −989,44
2
216,67
= − 989,44 + 0,567 equazione dei minimi quadrati
0∗ ∗
→ per x = 0
1∗
→ variazione nella risposta media se l’esplicativa ha una variazione unitaria
(x -> x+1)
PROPRIETA’ DESCRITTIVE della retta dei MQ (proprietà campionarie)
∗ ∗ 0∗ 1∗ 1∗
( ) ( )
() = = − = − + = − ̅ − − ̅ numero noto
1∗
1
∗ . . ..
̅ = ̅
1) , media campionaria osservata = medie valori interpolati ∗
0∗ 1∗ 0∗ 1∗ ∗
∑( ∑ ∑
− − ) = 0 → = + → ̅ = ̅
1° equazione del sistema di equazioni normali :
∗ ̅
∗
∑
→ = → =
̅, ̅)
(
2) Retta dei minimi quadrati passa per il punto →
3) Scomposizione della devianza della risposta DT = DR + DS vale per i modelli lineari (LM)
∗ ∗
∑( ̅) ∑( ) ∑( ̅)
− = − + −
DT = DR + DS
DT o TSS : devianza totale , total sum squares →
DR o RSS : devianza residua , residual sum squares misura l’incapacità del modello di interpretare i dati
DS o ESS o SSR : devianza spiegata , explained sum squares, sum squares of regression
∗
⇔ = ∀
DR = 0 in questo caso il modello interpreta perfettamente i dati
Dimostrazione ∗ ∗ ∗ ∗ ∗ ∗
∑( ̅) ∑( ̅) ∑( ) ∑( ̅) ∑( ̅)
− = − + − = − + − + − )( −
deve essere = 0
∗ 0∗ 1∗ 1∗ 1∗ 1∗
= + = ̅ − ̅ + = ̅ + ( − ̅ )
∗ ∗ 1∗ 1∗
∑( ∑ (
− )( − ̅) = − ̅ − ( − ̅ )) (̅ + ( − ̅ ) − ̅)
1∗ 1∗ 2 2
∑( ∑( ) ( )
= − ̅) ( − ̅ ) − − ̅
1∗ 1∗ 2 2
( )
= −
2
2
= − = 0
2
2 2
( )
→ = = −
4) Indice di bontà del modello (retta) r squared o indice di determinazione lineare camp
∈ [; ]
Percentuale della variabilità della risposta spiegata del modello ,
= pessima capacità interpretativa
= perfetta capacità interpretativa (DR = 0)
PROPRIETA’ (INFERENZIALI) DEGLI STIMATORI MQ – LINEARITA’
0∗ 0∗ 0∗
→ )
→ ( =
stima mq (numero) stimatore mq (v.c.) correttezza 0
1∗ 1∗ 1∗
→ )
→ ( =
stima mq (numero) stimatore mq (v.c.) correttezza 1
∗ ∗
= 1, … ,
e stimatori dei MQ (OLS) sono combinazioni lineari delle
)( ) )̅ ( ) ( )
∑( ∑( ∑(
−̅)
−̅ −̅ − −̅ −̅ −̅
1∗
∑ ∑
= = = = =
dove peso non aleatorio
2 2 2 2
) ) ) )
∑( ∑( ∑( ∑(
−̅ −̅ −̅ −̅
(coinvolge solo non )
∑( )
− ̅ = 0 perché è la somma degli scarti della media
1 1 1
0∗ 1∗ ∑ ∑ ∑( ∑
= ̅ − ̅ = − ̅ = − ̅ ) = = ( − ̅ )
dove pesi noti non aleatori
1∗ 0∗
→ ∑ ∑
= =
Proprietà di e
( ) )
∑(
−̅ −̅
• = =1 =1
→
∑ ∑ ∑
= = = = 0
2 2
) )
∑( ∑(
−̅ −̅
2 2 2
( ) )
∑( ∑ ∑ ∑
−̅ −̅ −̅ − ̅
• = =1 =1
→
∑ ∑ ∑
= = = = = = 1
2 2 2 2 2 2 2
) )
∑( ∑( ∑ ∑ ∑
−̅ −
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
-
Appunti di Modelli statistici (Analisi statistica multivariata)
-
Appunti Analisi statistica multivariata - Modelli statistici
-
Appunti Laboratorio in R - Modelli Statistici (Analisi statistica multivariata)
-
Appunti Analisi statistica multivariata sull'esplorativa