Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
L’AUTOCORRELAZIONE
Sussistono alcuni problemi legati ad un modello dinamico che include variabili laggate:
1. Includendo nella regressione (a destra) valori laggati della variabile dipendente (yt),
non vi sono più variabili non stocastiche (non causali), fisse e in campioni ripetuti. Se la
variabile dipendente (yt) dipende non solo da xt ma anche dai suoi valori laggati,
essendo yt una variabile casuale che segue una certa distribuzione, allora a destra
dell’equazione di regressione non ci sarà solo il termine di errore come variabile
stocastica, ma ci sarà anche la variabile yt.
2. Bisogna essere in grado di spiegare la presenza di un grande numero di lags
all’interno di un’equazione di regressione. I valori laggati si devono aggiungere
nell’equazione di regressione con uno scopo, devono quindi essere motivati.
3. Se c’è autocorrelazione nei residui di un modello in cui sono stati aggiunti lags
ovviamente l’OLS non sarà consistente. Questo significa che anche quando t tende ad
infinito, anche se si aggiunge un grande numero di lags, l’OLS non sarà consistente.
Per cui, se si aggiungono lags alla specificazione per risolvere l’autocorrelazione, ci si
deve assicurare di risolvere il problema, altrimenti si potrebbero generare altri
problemi come il fatto che lo stimatore dell’OLS NON sarà più consistente.
MULTICOLLINEARITÀ
Il problema della multicollinearità si verifica quando le variabili indipendenti sono strettamente
correlate fra loro. Si distinguono 2 casi:
MULTICOLLINEARITÀ PERFETTA sussiste quando esiste una relazione perfetta fra le variabili,
à
le variabili indipendenti sono quindi correlate fra loro al 100%.
Supponiamo di voler stimare il seguente modello e supponiamo che x = 2x :
3 2
In questo caso NON si ha la possibilità di distinguere quale impatto ha la variazione della
variabile x , mantenendo costante x , sulla variabile y e quale impatto ha la variazione della
2 3 t
variabile x , mantenendo costante x , sulla variabile y .
3 2 t
In questo caso, la soluzione è quella di rimuovere x o x dalla regressione al fine di risolvere
3 2
questo problema di non invertibilità della matrice.
MULTICOLLINEARITÀ IMPERFETTA sussiste quando la relazione fra le variabili NON è
à
perfetta ma nemmeno trascurabile quindi NON può esser ignorata. Questo perché nel caso in
cui si ignorasse tale multicollinearità si potrebbero verificare i seguenti problemi:
2 2
- R sarà elevato ma i singoli coefficienti avranno uno SE elevato. Visto un R elevato si
potrebbe pensare che le variabili spiegano bene la variazione di y tuttavia osservando i t-
ratio si nota che questi saranno prossimi allo 0 e che gli SE sono elevati. Ciò significa che,
singolarmente, le variabili NON riescono a spiegare il loro effetto sulla variazione di y.
- La regressione diventa molto sensibile a piccoli cambiamenti nella specificazione. Infatti se
c’è multicollinearità aggiungere o togliere una variabile alla specificazione comporta una
variazione statisticamente significativa sul segno e sulla grandezza dei coefficienti.
50
Owen Tixer
- Dato che lo SE per le variabili affette da multicollinearità è ampio, anche l’intervallo di
confidenza sarà ampio ed effettuando test di significatività, questi potrebbero condurre a
risposte sbagliate.
Per ciò che concerne la MISURA DELLA MULTICOLLINEARITÀ, sfortunatamente non esiste
una procedura statistica ben precisa per testarla. Per cui la cosa più semplice da fare è quella
di calcolare la correlazione a coppie (MATRICE DI CORRELAZIONE) tra le variabili inserite nella
specificazione.
Nel caso in cui in una regressione notiamo un’elevata correlazione si potrebbero quindi avere
problemi di multicollinearità (es. 0.8).
Tuttavia si verifica un altro problema se 3 o più variabili sono linearmente dipendenti (cioè se x +
2t
x = x ) questo perché sarà difficile calcolare la correlazione fra queste 3 variabili per capire da
3t 4t
dove effettivamente deriva la multicollinearità e in tal caso si rende necessario far riferimento alla
teoria economico-finanziaria per capire quale relazione potrebbe sussistere fra le variabili
esplicative. Da ricordare e molto importante è il fatto che la multicollinearità non riguarda la
variabile dipendente y bensì le variabili indipendenti x. Vediamo ora alcune soluzioni al problema
della multicollinearità:
1) Utilizzare la tecnica dei PCA che consiste nell’estrapolare informazioni comuni alle variabili
correlate o in alternativa le RIDGE REGRESSION.
2) Scartare le variabili multicollineari
3) Includere nel modello le variabili x altamente correlate fra loro NON singolarmente ma
trasformandole in rapporti e/o differenze. Tuttavia tale soluzione potrebbe NON
essere ottimale se la teoria economico-finanziaria suggerisce che i cambiamenti della y
potrebbero esser dovuti alle variabili x singolarmente e non alle relazioni fra le stesse.
4) La miglior soluzione è quella di raccogliere più dati possibili andando quindi ad
incrementare le osservazioni del campione in modo da ottenere delle stime più precise.
Da notare è infine il fatto che in presenza di multicollinearità, lo stimatore OLS è ancora
consistente, NON distorto ed efficiente ma ciò che accade è che sarà difficile ottenere uno SE più
vicino a quello che dovrebbe essere.
FORMA FUNZIONALE ERRATA
Fin’ora abbiamo assunto in maniera indiretta che la forma funzionale appropriata della relazione
fra y e x sia quella lineare tuttavia non sempre è così, soprattutto nella realtà. Supponiamo, ad
esempio, che sia crescente fino ad un certo valore di x e poi decrescente. Se si stima una relazione
che ha un andamento prima crescente e poi decrescente con una regressione lineare,
graficamente si avrà una linea retta che non fitterà bene i dati, perché questa linea retta non
rappresenterà la vera relazione esistente tra y e x. Quando si verifica un problema simile, la
soluzione potrebbe esser rappresentata dal RAMSEY RESET TEST, che è un test basato sul residuo.
51
Owen Tixer
Essenzialmente tale metodo consiste nell’AGGIUNGERE TERMINI DI ORDINE SUPERIORE DEI
VALORI STIMATI in una regressione ausiliaria. Quindi è possibile regredire u -HAT su una serie di
t
valori fittati elevati alla potenza p.
L’utilizzo di questi termini di ordine superiore dei valori fittati di ordine p, consente di
testare l’esistenza di una relazione non lineare tra le variabili.
2 2
Si ottiene un R da questa regressione e lo si moltiplica per il numero di osservazioni (TR ) e
2
questo viene distribuito come una CHI -DISTRIBUTION con p-1 df.
Una volta determinato il valore del test statistico distribuito come χ2(p − 1), questo deve essere
confrontato con il critical value. Se il valore del test statistico è maggiore del critical value, l’ipotesi
nulla dovrà essere rigettata. Se il valore del test statistico è minore del critical value, l’ipotesi nulla
non dovrà essere rigettata. Se si rigetta l’ipotesi nulla, ovvero l’ipotesi di linearità della forma
funzionale adottata, si dovrà stimare il modello non lineare.
2
ASSUNZIONE 5 u N (0, SIGMA )
~
à t
Abbiamo assunto la normalità per testare le ipotesi del campione stimato al corrispondente
parametro della popolazione. Dobbiamo assumere la normalità in modo che un t-test-statistic
segua una t-distribution, che un f-test-statistic segua una f-distribution, …
Ci sono molti test che testano l’assunzione di normalità, che può essere applicata non soltanto
al residuo, ma anche alle variabili. Il test più conosciuto è il BJ NORMALITY TEST (BERA-JARQUE
NORMALITY TEST), che usa le proprietà della distribuzione normale ed è completamente
caratterizzato dai primi due momenti della distribuzione.
1) Il momento primo di una distribuzione è la MEDIA.
2) Il momento secondo della distribuzione è la VARIANZA.
3) Il momento terzo di una distribuzione è la SKEWNESS, che va a catturare l’asimmetria
della distribuzione rispetto al suo valore medio.
4) Il momento quarto di una distribuzione è la CURTOSI (o KURTOSIS) (dal greco = “gobba”),
che va a misurare se una distribuzione ha una forma più o meno allungata rispetto ad
un’altra. Nel caso in cui si ha una distribuzione più piatta, si parla di PLATICURTOSI, mentre,
se la distribuzione ha una forma più allungata, si parla di LEPTOCURTOSI.
Una volta noti media e varianza, è possibile analizzare il terzo e il quarto momento della
distribuzione dei residui, cioè guardare alla proprietà di questi momenti che ci diranno se i
residui sono approssimativamente normalmente distribuiti o meno. La skewness e la kurtosis
sono versioni standardizzate del momento terzo e quarto della distribuzione.
52
Owen Tixer
Una distribuzione normale è caratterizzata dalla sua simmetria rispetto al suo valore medio (in
caso di standardizzata esso sarà pari a 0) mentre una distribuzione skewed è asimmetrica rispetto
al suo valore medio per cui una coda sarà più allungata dell’altra.
Tendenzialmente, in ambito finanziario, le variabili si distribuiscono secondo una leptocurtica.
TEST PER LA DISTRIBUZIONE NORMALE
Osserviamo se i residui sono normalmente distribuiti o meno andando ad analizzare i coefficienti
legati alla skewness (b ) e alla curtosi (b ).
1 2
Il coefficiente di SKEWNESS (b ) si calcola come il rapporto tra il valore atteso del cubo del
1
termine di disturbo che andremo a sostituire con il residuo quando andremo a calcolarlo, e
la varianza elevata a 3/2.
La skewness è chiamata momento terzo standardizzato proprio perché nella formula per calcolare
il suo coefficiente al numeratore prendiamo il cubo del residuo e lo standardizziamo per una
funzione della varianza al denominatore. In una distribuzione normale il coefficiente b1 sarà pari a
0 in quanto la distribuzione è simmetrica.
Il coefficiente di CURTOSI (b ) si calcola come il rapporto tra il valore atteso del termine di
2
disturbo alla quarta, che andremo a sostituire con il residuo quando andremo a calcolarlo,
e la varianza alla seconda, cioè:
Data una distribuzione normale ci aspettiamo che b = 1 e b = 3
1 2
Il problema in questione è che si può fare inferenza solo nel caso in cui NON venga violata
l’assunzione di normalità altrimenti è difficile utilizzare le proprietà di una normale al fine di
utilizzare il residuo e testare le rela