Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
P-VALUE
valore p valore di probabilità; p-value)
Il (o è la probabilità di ottenere risultati uguali o meno probabili di
quelli osservati durante il test, supposta vera l’ipotesi nulla.
In altri termini il valore p aiuta a capire se la differenza tra il risultato osservato e quello ipotizzato è dovuto
alla casualità introdotta dal campionamento, oppure se tale differenza è statisticamente rilevante, cioè
difficilmente spiegabile mediante la casualità dovuta al campionamento.
Talvolta viene anche chiamato livello di significatività osservato (o stimato) e va confrontato con un p-value
teorico tale che:
se il valore p ≤ livello di significatività scelto (1%; 5%; 10%), allora l’evidenza empirica è fortemente contraria
all’ipotesi nulla che quindi va rifiutata, in tal caso si dice che i dati osservati sono statisticamente significativi
e il regressore è significativo per spiegare la variabile spiegata.
Es: p-value stimato < 0,01 allora il parametro è significativo all’1%.
ANALISI DEI RESIDUI
= + +
1 2
Data una retta di regressione qualsiasi stimata attraverso il modello OLS c’è da considerare che gli errori
hanno delle proprietà molto importanti da cui poi derivano delle implicazioni:
1) +
() = () =
i residui della retta di regressione devono avere un valore atteso nullo pertanto la sommatoria di residui
positivi e negativi va ad annullarsi vicendevolmente, andando così a sovrastimare e sottostimare
coerentemente i valori previsti della Y rispetto i valori reali in modo da avere un modello che in media è
corretto.
2) � ; � = � ; � =
residui non devono essere tra loro correlati ovvero il loro valore dev’essere casuale e non dev’essere
I
sistematico in modo che possano essere definiti indipendenti.
La correlazione dei residui è una caratteristica che emerge quando vengono utilizzate serie storiche, infatti
in tali dati le osservazioni successive tendono ad essere correlate (es: PIL è sicuramente correlato con i valori
t
del PIL degli anni passati)
Se l’autocorrelazione della Y non è ben spiegata dall’autocorrelazione della X, la porzione di autocorrelazione
non spiegata va nei residui che risulteranno autocorrelati.
Per ridurre l’autocorrelazione delle serie storiche si calcola la variazione variabile Y | ∆ = −
−1
−
oppure il tasso di crescita | che equivale alla variazione del logaritmo della variabile.
−1 = ∆
−1
3) X non è stocastica mentre la y è una variabile casuale quindi anche la e lo sarà.
4) Gli e si distribuiscono come una normale come anche i valori della y.
~(; )
Per valutare la normalità della distribuzione dei residui esiste un test, tuttavia a volte i residui non sono
outlier (anomali)
normali a causa di residui che possono derivare da errori nei dati, uso scorretto di unità di
misura per diverse osservazioni.
5) = residui devono essere omoschedastici.
varianza degli errori dev’essere costante ossia i
La
L’eteroschedasticità, ossia la varianza non costante della y quindi anche dei residui, è una caratteristica
molto presente nelle regressioni in cui si usano dati cross section.
nella parte finale dello scatter plot a lato la
distribuzione delle retribuzioni intorno alla retta di
regressione aumenta con gli anni di istruzione (X) e
parallelamente la varianza dei residui stimati
(distanza dalla retta) aumenta all’aumentare della
X.
In questo caso i residui sono eteroschedastici in
quanto i residui diventano sempre maggiori al
crescere della X.
Con eteroschedasticità il problema non è con la stima puntuale dei parametri, ossia con la correttezza (non
distorsione) della stima, ma con la stima degli errori standard con cui vengono fatti i test per l’inferenza
statistica. “BLUE” best linear
Se almeno una di queste assunzioni non viene rispettata, lo stimatore degli OLS non è
unbiased estimator ovvero non è il miglior stimatore lineare corretto. hanno
,trovati con il modello OLS,
Se le assunzioni invece vengono rispettate allora gli stimatori ;
1 2
varianza minima fra tutti gli stimatori lineari corretti ossia ) )
( ; ( ).
= =
1 1 2 2
TEST DEI RESIDUI
L’analisi grafica dei residui è spesso complessa, tuttavia ci sono dei test sui residui stimati per valutarne le
proprietà:
Test di normalità Jarque Bera
-
Se i residui non sono normali è possibile:
1) Provare a controllare eventuali Outlier nei dati.
2) Trasformare il modello cambiando la specificazione (modelli non linearli).
ipotesi nulla | l’errore è distribuito normalmente
Si impone come chi-quadro (2)
Utilizzando la statistica test [chi-quadro con 2 gradi di libertà) e lo si va a confrontare con il
p-value. Quando: allora accetto l’ipotesi nulla
chi quadro (2) > p-value
Test di eteroschedasticità (test di White)
-
Si tende a non fare il test e apportare una correzione per errori standard robusti ossia di valore molto elevati
(ad esempio HCO).
Hp. Nulla: il residuo è omoschedastico
Confronto p-value stimato con p-value teorico che andiamo a considerare (1%, 5%, 10%).
Quando si rifiuta la nulla si va ad affermare che i residui siano eteroschedastici.
Correzione per l’eteroschedasticità
Quando si ha eteroschedasticità dei residui non ci si può più fidare della significatività dei parametri, pertanto
viene introdotto un’opzione per correggere gli errori standard robusti in dati cross section e time series.
Una volta effettuata la correzione per errori standard robusti si va ad effettuare il test per eteroschedasticità.
Test di correlazione seriale (Durbin-Watson)
-
Se i residui di una regressione tra serie storiche sono correlati serialmente o autocorrelati, si è in presenza di
regressione spuria
una e le variabili vanno trasformate per ridurre l’autocorrelazione. Generalmente si vanno
a prendere le differenze prime delle variabili.
Anche in questo caso si possono apportare correzioni agli S.E. dei parametri (HAC).
curva di Phillips
L’esempio più evidente è nella stima della che relaziona fortemente tasso di disoccupazione
e inflazione nel tempo (dati time series) e a loro volta questi sono molto autocorrelati.
= + +
La relazione tra inflazione e tasso di disoccupazione ha un segno atteso negativo | β<0
Questo argomento è correlato con l’efficacia della politica monetaria in quanto se esiste una relazione forte
non vi è
tra queste due variabili, esiste anche un trade off tra grandezze reali e monetarie tale per cui
neutralità della moneta.
Rho : ρ | coefficiente di autocorrelazione | 0≤ ρ≤1 | =
−
Durbin-Watson | statistica di verifica di autocorrelazione dei residui del 1° ordine
Il Test di DW testa che questa autocorrelazione del 1° ordine sia significativa o meno:
: ρ = 0 ∶ ρ > 0
0 1
La statistica viene fatta usando i residui stimati: =2 2
∑ (̂ )
− ̂
−1
= 2
∑ ̂
=1
Se autocorrelazione positiva dei residui
- →
Se non c’è autocorrelazione dei residui
- ~
Se c’è autocorrelazione negativa dei residui.
- ≫
Errori robusti per l’eteroschedasticità e l’autocorrelazione HAC o di Newey-West:
si va a dare una struttura auto regressiva all’errore in modo tale da ripulire la distorsione che aveva nell’errore
standard del parametro.
REGRESSIONE MULTIPLA E VARIABILI OMESSE
Andando a stimare una regressione a due o più variabili (ma rimanendo comunque con pochi regressori)
variabili omesse
sicuramente si va ad incorrere in un problema di che possono comportare:
- Distorsione del segno
- Distorsione nella stima puntuale della dimensione del parametro, sovrastima o sottostima del
legame tra y e x.
La ragione per cui questo accade è perché tali variabili omesse sono strettamente correlate ai regressori scelti
per la regressione.
Es: EDU_INC
Modello 3: OLS, usando le osservazioni 1-428
Variabile dipendente: faminc Coefficiente Errore Std. rapporto t p-value
const −5533,63 11229,5 −0,4928 0,6224
he 3131,51 802,908 3,900 0,0001 ***
we 4522,64 1066,33 4,241 <0,0001 ***
Media var. dipendente 91213,00 SQM var. dipendente 44117,35
Somma quadr. residui 6,97e+11 E.S. della regressione 40497,86
R-quadro 0,161300 R-quadro corretto 0,157354
F(2, 425) 40,86844 P-value(F) 5,84e-17
Log-verosimiglianza −5146,454 Criterio di Akaike 10298,91
Criterio di Schwarz 10311,09 Hannan-Quinn 10303,72
Coefficienti positivi per entrambi i regressori, maggiore per un anno aggiuntivo di situazione della moglie
rispetto il marito.
I parametri HE e WE sono statisticamente diversi da 0 se si considera la significatività all’1%, questo perché:
: β=0
si rigetta H all’1%, infatti
0
rapporto t > 1,96 ( valore critico 5%)
rapporto t > 2,54 (valore critico 1%)
la costante invece non è significativa innanzitutto perché il suo p value è pari a 0,6224 che è maggiore di
0,01 ; 0,05 e 0,10 ossia di qualsiasi livello di significatività normalmente usato per il test delle ipotesi.
Riguardo R quadro il valore è 0,16, pertanto il 16% della variazione del reddito familiare è spiegato
dall’istruzione dei coniugi, pertanto non sono regressori abbastanza esplicativi.
OMISSIONE WE
Modello 1: OLS, usando le osservazioni 1-428
Variabile dipendente: faminc Coefficiente Errore Std. rapporto t p-value
const 26191,3 8541,11 3,066 0,0023 ***
he 5155,48 658,457 7,830 <0,0001 ***
Media var. dipendente 91213,00 SQM var. dipendente 44117,35
Somma quadr. res