Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
Regolarizzare la linea di regressione
Per evitare che ci siano osservazioni troppo lontane dalla linea di regressione, sarà necessario costruire una linea di regressione differente rispetto alla precedente (linea gialla), che riduca quindi l'effetto dell'outlier.
Pertanto, secondo tale scuola di pensiero, dovremmo rimuovere l'outlier di regressione che non fitterà bene le osservazioni ma si avvicinerà all'outlier per cercare di minimizzare questa distanza (linea gialla).
Un modo pragmatico per capire se includere o meno l'outlier è quello di capire se l'outlier impatta tanto o poco sui risultati della regressione. L'alternativa sarebbe quella di trovare un evento finanziario che possa giustificare in qualche modo la presenza di un outlier nei dati, come ad esempio, quello avvenuto nell'Ottobre del 1987, ovvero il crash finanziario, oppure un attacco terroristico.
Omissione di una variabile importante o inclusione di dummy variable.
e non sarà risolta aumentando il campione, in particolare se la variabile esclusa è correlata con le altre variabili indipendenti. Pertanto, è fondamentale includere tutte le variabili rilevanti nella specificazione del modello di regressione al fine di ottenere stime accurate e consistenti dei coefficienti.modo nel caso in cui ex2sono correlate.
Non includendo una variabile importante nel modello vi saranno le seguenti conseguenze:
- Se e abbiamo omesso dalla specificazione, i coefficienti stimati saranno distorti e inconsistenti. I coefficienti saranno diversi rispetto al loro valore della popolazione.
- I coefficienti saranno, inoltre, inconsistenti anche aumentando il numero di osservazioni, cioè la numerosità campionaria (in generale, invece quanto tende a infinito, i coefficienti sono consistenti).
Se e quindi sono ortogonali (perché non c'è multicollinearità), cioè x xe non sono correlate, l'intercetta sarà non distorta.
sarà distorto. Per cui, la varianza non sarà, allora, calcolata correttamente e quindi sarà distorta e, di conseguenza, anche lo standard error, calcolato come radice quadrata della varianza, sarà distorto. In sintesi: Se si omette dalla regressione una variabile importante, i coefficienti stimati su tutte le variabili saranno a meno che la variabile esclusa non sia correlata a tutte le altre variabili. Anche se questa condizione è soddisfatta, la stima del coefficiente sul termine costante sarà sbilanciata e anche gli errori standard saranno distorti. Osserviamo ora cosa accade nel caso in cui si include nel modello una variabile irrilevante. Supponiamo che il DGP sia dato dalla seguente funzione: DGP = " + " 5 + ," Includere una variabile irrilevante nel modello significa che quando stimiamo il modello andiamo a considerare una variabile irrilevante che quindi potrebbe essereeliminata ma, poiché non conosciamo in' = ! + ! 5 + ! 5 + ,la includiamo:DGP, " & # # ' ' "Includendo una variabile irrilevante nel modello vi saranno le seguenti conseguenze:) ) )`(! = " `(! = " `(! = " = 0.& & &OLS sarà consistente e non distorto.• L , eL’OLS sarà non distorto in quanto: & & # # ' '#la varianza sarà corretta;• gli intervalli di confidenza (CI) saranno validi;• gli stimatori saranno inefficienti.• 73Dunque, la varianza sarà più ampia dei beta del vero modello. Pertanto, non si avrà più una varianza minimatra gli stimatori non distorti nella classe della ma si avrà una varianza più ampia.linear regression model,Se includiamo una variabile in più nel modello, cioè una variabile irrilevante, significa che i regressori (x)L =aumentano, quindi aumenta. Pertanto, i gradi di libertà diminuiscono,
in quanto questi sono dati dak T – k.KGG# , dato che i gradi di libertàDi conseguenza, quando calcoleremo la varianza, che è data da -57KGG) )_`(! _`(!& & aumenta.(denominatore) diminuiscono, il rapporto -57 #Poiché, e sono positivamente correlati con la varianza (L ), lo standard error aumenta e,& #dunque, lo stimatore non avrà più una varianza minima tra gli stimatori non distorti nella classe della linear regression model.Possiamo affermare che è molto meno rilevante rispetto adincludere una variabile irrilevante escludere unaPertanto, nell’incertezza è meglio includere una variabile rilevante nella specificazionevariabile rilevante.piuttosto che una variabile irrilevante, in quanto si è visto che nel caso di omissione di una variabileimportante le conseguenze sono maggiori rispetto a quelle che si avrebbero se si includesse nellaspecificazione una variabile irrilevante.Una volta inclusa la variabilenella specificazione, per capire se questa è rilevante o meno bisogna osservare se il t-ratio della variabile è statisticamente significativo o meno. Se il t-ratio della variabile non è statisticamente significativo, sarà possibile eliminare quella variabile; se, invece, il t-ratio della variabile è statisticamente significativo, non sarà possibile eliminare quella variabile. Test di Stabilità dei parametri Finora abbiamo stimato regressioni del tipo: , " "e ) sono costanti per l'intero periodo del campione. Abbiamo assunto implicitamente che i parametri (') sono costanti per l'intero periodo del campione. Questa ipotesi implicita può essere testata utilizzando il test di stabilità dei parametri. L'idea è essenzialmente quella di suddividere i dati in sotto-periodi e dopo di stimare fino a tre modelli, per ciascuna delle sotto-parti e per tutti i dati, e infine di "confrontare" l'RSS dei modelli. NelContesto delle serie storiche si potrebbe avere una parte del campione con un stabile e una parte instabile, cioè differente rispetto alla prima parte del campione.
Esistono due tipi di test che possono essere condotti al fine di testare se i parametri sono effettivamente stabili lungo l'intero campione:
- Analysis of Variance Test
- Chow Test
Entrambi questi test sono stati ideati per testare la stabilità dei parametri, ma in modo diverso.
Il Chow Test è utilizzato per testare la stabilità dei parametri mediante il seguente procedimento:
- Dividiamo il campione in due sotto-campioni.
- Stimiamo la regressione per l'intero campione e poi separatamente per i due sotto-campioni, ottenendo così 3 regressioni.
- Le regressioni hanno le stesse covariate, cioè le stesse variabili indipendenti, e la stessa variabile dipendente.
- Questo significa che il valore di che indica il numero dei regressori,
è uguale in tutte e 3 le regressioni. Calcoliamok,l’RSS per ogni regressione; χ# anche se2. Per testare la stabilità dei parametri si può utilizzare sia un che un -test,F-testsolitamente si opta per l’F-test.Se si utilizza l’F-test bisogna individuare la e l’unrestrictedrestricted regression regression.La è la regressione dell’intero campione mentre l’unrestricted sirestricted regression regressioncompone di due parti: la regressione del primo sotto-campione e la regressione del secondo sotto-campione.Come individuare la restricted regression e l’unrestricted regression?Osservando l’andamento dei dati si può notare che ad un certo punto questi seguono un patterndifferente. Di conseguenza, si potrebbe dividere il campione in 2 parti: eT = 100 T = 1, …, 50 T = 51,1 2Considerando il sotto-campione , la corrispondente linea di regressione che può essere…, 100. T1tracciata
avrà una pendenza positiva. Considerando, invece, il sotto-campione , la corrispondente linea di regressione che può essere tracciata avrà pendenza negativa. Infatti, la linea di regressione, quindi la relativa pendenza, cambia a seconda dei campioni stimati. La regressione dell'intero campione è la perché in quella specificazione si restricted regression, assume che i parametri siano stabili, cioè si assume che il modello fitti tutte le osservazioni. Se rimuoviamo la restrizione per cui i parametri siano stabili, permettendo ai due sotto-campioni di avere delle differenti linee di regressione, lasciamo i modelli liberi di avere la propria linea di regressione. Dunque, la è la linea rossa, cioè quella dell'intero campione, restricted regression mentre l'unrestricted è composta da due regressioni, cioè dalla linea verde, che rappresenta il primo campione (T ), e dalla linea blu, che rappresenta il
Il secondo sotto-campione (T) si determina come segue:
test statistic
Dove:
- RSS = RSS del sotto-campione 1
- RSS = RSS1 del sotto-campione 2
- RSS = RSS2
- numero di osservazioni T = numero di regressori dell'unrestricted regression (in quanto si divide in 2 parti)
- 2k = numero di regressori (in ciascuna parte) dell'unrestricted regression
- k = 75
Ä__ ≥ Ä__ + Ä__
Ä__ > Ä__ + Ä__
Ä__ = Ä__ + Ä__.
Tuttavia, in pratica si ha qu