Estratto del documento

Regressioni lineari semplici

L’analisi delle regressioni è lo strumento più semplice a disposizione dell’econometrico. L’analisi delle regressioni descrive e valuta la relazione tra una data variabile che chiameremo variabile dipendente e una o più variabili che chiameremo variabili indipendenti.

Tipi di regressione

Quindi se consideriamo la relazione tra due variabili, ovvero tra quella dipendente e quella indipendente, allora parliamo di una regressione lineare bivariata perché ci sono 2 variabili. Se invece la regressione descrive una relazione tra una variabile dipendente e una serie di variabili indipendenti allora parleremo di un’analisi di regressione multivariata.

L’idea essenziale stabilisce che una o più variabili sono in relazione tra di loro in un particolare modo, ma quale? Che una o più variabili determinano un impatto su una data variabile (come la variazione del reddito possa influire sul consumo, quindi l’impatto di una variazione di una variabile ha effetto su un'altra). La variabile spiegata non è altro che la variabile dipendente, ovvero che si muove a seguito dell’impatto dell’altra variabile. La variabile indipendente è quella che spiega.

Contesto macroeconomico

In un contesto più generale avremo più variabili da spiegare, non solo una ma più, soprattutto in macroeconomica se si pensa alle varie politiche che portano degli effetti a catena. Per spiegare tutto ciò avremo bisogno di un set di regressioni, ma per il momento nel corso semplificheremo con un’analisi basata sulla regressione semplice.

Analisi delle variabili

Andremo ad analizzare:

  • Regressione lineare semplice
  • Regressione lineare multivariata - ogni variabile dipendente può dipendere da una serie di variabili che definiremo come K variabili.

Nel modello bivariato K=1, che andrà a indicare il numero di variabili indipendenti. Y=X +X +...+X1 2 K. All’inizio del nostro corso per semplicità assumeremo che k=1. Ci focalizzeremo su un modello lineare semplice con una sola variabile indipendente capace di spiegare la variabile dipendente. X= independent variables = regressors Y= dependent variables = regressand.

Regressione vs correlazione

Andando alla definizione di regressione, si potrebbe pensare che un sinonimo della regressione è la correlazione perché noi vogliamo spiegare l’effetto che ha una variabile rispetto ad un'altra variabile. Si potrebbe pensare che le variabili sono correlate. Ma se diciamo che x e y sono correlate significa che x è correlata a y e viceversa, come dire che consumo e reddito siano correlate, ovviamente in maniera positiva.

Ma la correlazione non ci permette di dire se una variabile determina l’altra, se ha effetto sull’altra. Non possiamo intercambiare x ed y nel caso della regressione e ottenere lo stesso risultato, perché ora trattiamo diversamente la variabile dipendente e quella indipendente.

Variabili e distribuzione

La variabile che vogliamo spiegare y è assunta avere una distribuzione di probabilità e si assume che sia una variabile randomica. Mentre x, che è la variabile esplicativa, che deve spiegare che accade alla dipendente non è una variabile randomica, bensì una variabile fissa, sotto controllo e non ha una distribuzione di probabilità. Quindi l’analisi della regressione è molto più flessibile e potente della correlazione, ecco perché ci focalizziamo sulla regressione.

Per semplicità abbiamo assunto che k=1 per cui si abbia una unica variabile indipendente per cui la variazione di y è spiegata solo dalla variazione della variabile X. Si chiama bivariato perché ci sono due variabili, x e y, ma pur essendo molto semplice, ci permette di studiare diverse fattispecie, come:

  • Come i rendimenti degli asset possono variare alla variazione del market risk
  • Di misurare la relazione di lungo termine tra lo stock price e i dividendi
  • Ci permette di costruire un optimal hedge ratio

Nonostante la semplicità si può fare un’analisi in finanza.

Esempio pratico

Supponiamo di aver i seguenti dati relativi ai rendimenti di un portafoglio XXX e di avere accesso a dei dati relativi ai rendimenti di un indice. Noi abbiamo l’idea che il fondo xxx ha investito negli stessi asset che possiamo trovare nell’indice di mercato, ma con un peso diverso. Se vogliamo stimare la relazione tra i rendimenti del fondo e quelli dell’indice ci aspetteremo che la relazione sia positiva, quindi in termini di capem il beta del portafoglio ci aspettiamo essere positivo.

Guardando allo scatter diagram, notiamo 5 punti che sono le osservazioni. Plottando i dati possiamo vedere le caratteristiche di questi dati: Si ha quindi una relazione positiva. La prima da chiedere è questo tipo di relazione. Una volta plottati i dati possiamo immaginare una linea retta che possa catturare questa relazione positiva che venga espressa con questi punti. Ovviamente non riusciremo ad interpolare tutti i dati sulla linea retta, alcuni saranno sulla retta mentre altri sopra e sotto, ma la retta riesce in qualche modo a catturare la relazione che c’è tra i dati anche se non perfettamente.

Grafico della regressione

Dal punto di vista grafico: Riusciamo a catturare con la linea retta la relazione che c’è tra le variabili. In questo modo stiamo sopravvalutando il valore di y rispetto al data point che abbiamo plottato in alcuni casi mentre in altri li stiamo sottovalutando.

Per cui c’è una relazione lineare positiva. Che tipo di relazione potrebbe descrivere quella presente tra le variabili?

  • = + con = intercetta della retta, il valore di y quando x=0 = coefficiente angolare, la pendenza della retta.

Il problema è che è una relazione deterministica per cui per ogni valore di x, troveremo con certezza un valore di y, è prevedibile con certezza. Ma è possibile predire con esattezza il valore di y? No, perché in primis la relazione potrebbe essere non perfettamente lineare, per cui all’aumentare unitario di x non è detto che y aumenti di un’unità.

Inoltre, supponendo che X sia l’inflazione e che Y sia lo stock return, il rendimento delle azioni. Sapendo il valore dell’inflazione x, possiamo predire il valore dello stock y? No, perché altrimenti saremmo tutti ricchi, non possiamo predire esattamente il rendimento e l’inflazione. I data point non giacciono sulla linea retta per cui non potremmo conoscere perfettamente la relazione che vi è tra x ed y. Dobbiamo aggiungere un termine di errore, perché nella linea retta a volte siamo sopra e a volte siamo sotto, per cui la distanza tra la retta e il data point corrisponde all’errore. Random disturbance - errore di previsione.

Equazione della regressione

La nostra equazione sarà:

  • Con = intercetta = pendenza, la slope della retta = margine di errore

Il termine di errore può catturare:

  • Variabili determinanti di y perse in precedenza
  • Errori nel misurare y che potrebbero essere non modellabili (esistono elementi random che non possono essere controllabili e per cui possono essere tralasciati, ma pur avendo un impatto su y)

Minimizzazione dell'errore

Come facciamo a determinare? Guardando allo scatter plot, potremmo dire che vogliamo trovare quella linea retta che permette di fittare i dati nel miglior modo possibile, retta che permette di minimizzare l’errore di previsione. Vogliamo trovare quindi e della linea retta che permette di minimizzare l’errore di previsione, il quale non è altro che la distanza verticale tra il data point e il punto della linea retta corrispondente.

Quindi perché ci interessa minimizzare la distanza verticale e non orizzontale? Perché vogliamo catturare il valore di y tenendo x fisso. Dobbiamo poi andare a minimizzare la somma delle distanze! Dato che alcuni punti sono sopra e quindi la distanza è positiva e altri casi è negativa potremmo andare a neutralizzarle, noi vorremmo che questa differenza sia però positiva. Il modo migliore è utilizzare la somma dei quadrati dei residui. Perché? Perché il quadrato da maggiore peso agli scarti maggiori, più grandi, che sono quelli che disturbano di più i nostri risultati, per cui vorremo minimizzare quelli. Per farlo dobbiamo minimizzare la somma dei quadrati dei residui.

Il punto che si trova sulla retta di regressione in corrispondenza di y sarà ciò che noi stiamo prevedendo. Ciò che noi stiamo prevedendo è differente da ciò che abbiamo osservato, per cui la differenza tra questi due valori sarà l’errore.

  • - + = Quel che dobbiamo fare non è altro che, considerare i quadrati che vanno dai data point fino alla retta. L’idea è di sommare tutte le aree dei quadrati, e la cosa migliore per fare ciò è di fare la somma dei quadrati dei residui e minimizzandola abbiamo il modo migliore per trovare quella linea retta che ci permette di stimare nel miglior modo possibile e.

Metodo dei Minimi Quadrati Ordinari (OLS)

Quando parliamo di Ordinary Least Squared, parliamo di questo metodo dei minimi quadrati, che permette di minimizzare la somma dei quadrati dei residui, per cui OLS è il metodo usato per fare in modo che la linea riesca a fittare nel modo migliore possibile i dati. Ci permette di trovare e ovvero intercetta e coefficiente angolare.

Notazione

  • -> usiamo il cappello perché deriva da una stima.
  • -> è il valore fittato (fitted value)
  • - La differenza tra il data point e il fitted value di y, , è il residuo della regressione che è u (poiché termine di errore che andiamo a calcolare con questa regressione allora mettiamo il cappellino perché è stimato).

Il metodo utilizzato è l’OLS che quindi minimizza ogni singolo residuo. Minimizziamo la somma dei quadrati dei residui quindi: (considerando 5 osservazioni)

  • = Questo ci permetterà di dare peso maggiore agli scarti più grandi e quindi di ridurre il peso delle osservazioni che sono molto distanti rispetto alla linea di regressione.

Minimizzazione dell'errore

Come facciamo a minimizzare l’errore di previsione e quindi utilizzando l’OLS? Dobbiamo considerare che ciò che vogliamo minimizzare è la somma dei quadrati dei residui, ma in che modo? Considerando L, la Loss Function, funzione che misura la perdita. Avremo quindi la somma di tutte le osservazioni T della differenza tra il valore reale e quello previsto che deriva dalla regressione.

Al fine di minimizzare la somma del quadrato dei residui (RSS, residual sum of square) dobbiamo calcolare le derivate rispetto ad e. Questo perché vogliamo trovare quella linea di regressione che ci permette di fittare nel miglior modo possibile i dati, per cui ci interessa trovare (hat) che ci consentono di andare a trovare la linea di regressione così da passare dal campione alla popolazione.

Il nostro obiettivo quindi è di minimizzare L rispetto a , ovvero intercetta e pendenza. È una sommatoria che va fino a T. Bisogna però capire che:

  • ! !∑ ∑e̅ = ' = à # #" "Quindi il valore medio è dato da: 1/T x sommatoria osservazioni.

Cerchiamo di capire l’espressione cosa include? Questo dipende dalle osservazioni x(t) e y(t). Una volta ottenuto e calcolato, sarà semplice calcolare anche. Questo metodo che permette di minimizzare la somma dei quadrati dei residui è conosciuto come OLS, o metodo dei minimi quadrati.

Esempio di applicazione

Esempio: con i dati forniti dall’esercizio abbiamo: Abbiamo quindi una retta di regressione con pendenza positiva ma intercetta negativa. Quanto pagherà il fondo XXX? Questo renderà il 20% in più, per cui sostituiamo in x(t) il valore di 20 e quindi otterremo un valore pari a 31,06. Questo cosa significa? Il fondo XXX renderà il 31% in più. Solitamente in una qualsiasi regressione all’aumentare della variabile X di 1 euro il consumo Y aumenterà di 1.64 con una relazione positiva.

Quindi alpha rappresenta il valore dell’intercetta, quindi il valore di y barra quando il valore di x è nullo. Quindi alpha non è altro che il valore che assume y hat nel momento in cui x=0. Dobbiamo però stare attenti perché se nei dati non ci sono valori di x pari a 0 allora la stima non sarà realistica. Non avremo valori di y che saranno vicini all’asse verticale.

Considerazioni sul campione e popolazione

Non possiamo quindi stimare il valore esatto di y quando x=0 se nei dati non abbiamo osservazioni in merito. Popolazione -> tutti gli oggetti o persone che saranno studiati (esempio: tutto l’elettorato) Campione (sample) -> porzione della popolazione che possiede tutte le caratteristiche della popolazione.

Distinzioni importanti

Altra distinzione che bisogna fare è tra:

  • Population regression function -> funzione di regressione della popolazione (PRF)
  • Funzione di regressione del campione -> (SRF\DGP)

Mentre la popolazione può essere infinita -> ad esempio in finanza si possono considerare tutti i ptf che si possono creare attraverso la combinazione con pesi diversi di diversi asset. Oppure popolazione finita -> elettorato degli Stati Uniti è rappresentato da un numero finito di soggetti.

La population regression function può essere rappresentata da ciò che noi potremmo considerare come la funzione da cui nascono i dati reali. Ma noi difficilmente sappiamo quale è la PRF, perché noi ciò che useremo sarà la SRF in quanto avremo un campione di dati su cui faremo delle regressioni che ci daranno la SRF su cui poi lavoreremo che ci dirà quale è la relazione tra le variabili. Usiamo la SRF per fare inferenza statistica per quanto riguarda il vero valore di alpha e beta della popolazione e capire quanto buoni siano i nostri strumenti per stimare alpha e beta, che sono i veri valori della popolazione (non abbiamo hat di stima). Noi useremo la funzione di regressione del campione al fine di fare inferenza sulla popolazione.

Modello lineare nei parametri

Una cosa da considerare quando usiamo la OLS è che ci occorre un modello che sia lineare nei parametri, quindi rispetto ad alpha e a beta. Questo non necessariamente deve essere lineare nelle variabili perché alla fine noi possiamo anche esprimere le variabili in forma lineare. Ciò che ci interessa è la linearità nei parametri alpha e beta.

Proprietà dell'errore

Una volta vista la minimizzazione della somma dei residui tramite la OLS, possiamo ottenere i valori e , ma ricordando il fatto che non siamo in grado di fare delle previsioni esatte, dato che non conosciamo esattamente come saranno i valori di x(t) o y(t) - poiché non sappiamo con certezza il valore della variabile dipendente, abbiamo aggiunto il termine (termine di errore stocastico) per tenere in considerazione il fatto che potremmo avere degli errori.

Le proprietà dell’errore:

  • 1. Noi sappiamo che non è osservabile in quanto la popolazione in completo non è osservabile, per cui andremo a sostituire con in quanto lo si ottiene da una stima. L’errore ha una media pari a 0, ovvero il valore atteso dell’errore dato è pari a 0. Questo significa che l’aspettativa di dato è pari a 0 significa che dati i valori di , possiamo sapere i valori di , la differenza tra y e y fitted sarà pari a , ma la differenza sarà sia positiva che negativa, per cui la sua somma sarà pari a 0.
  • 2. La varianza degli errori è costante, per cui si parla di omoschedasticità. Dato un valore di x, la varianza del termine di errore è costante.
  • 3. La covarianza del termine di errore i e j è uguale a 0. I due termini di errore non si muovono congiuntamente, non c’è un pattern sistemico. Qua c’è serial correlation: Quando ci troviamo una nuvola di punti allora non ci sarà correlazione.
  • 4. Non c’è relazione tra il termine di errore e la variabile dipendente. Se ci fosse correlazione tra i due non sarebbe più una variabile non stocastica, come se ci fosse una relazione allora perderebbe la proprietà di variabile fissa.

Conclusione

Al fine di mostrare che il metodo OLS è buono si necessitano queste proprietà. Un'altra proprietà che andremo ad assumere è che l’errore è normalmente distribuito. Fondamentale nel momento in cui andiamo a fare inferenza statistica (es. quando si controlla che beta sia uguale ad un determinato valore). Quando l’errore segue una distribuzione normale è fondamentale.

Se le assunzioni dalla 1 alla 4 vengono rispettate allora potremmo dire che e, stimatori, sono i “Best Linear Unbiased Estimator” (BLUE). Estimator è uno stimatore che ci permette di trovare il corretto valore di beta. Il valore che troviamo dalla formula, quello che troviamo indica che.

Anteprima
Vedrai una selezione di 10 pagine su 277
Appunti Lezioni Econometria Pag. 1 Appunti Lezioni Econometria Pag. 2
Anteprima di 10 pagg. su 277.
Scarica il documento per vederlo tutto.
Appunti Lezioni Econometria Pag. 6
Anteprima di 10 pagg. su 277.
Scarica il documento per vederlo tutto.
Appunti Lezioni Econometria Pag. 11
Anteprima di 10 pagg. su 277.
Scarica il documento per vederlo tutto.
Appunti Lezioni Econometria Pag. 16
Anteprima di 10 pagg. su 277.
Scarica il documento per vederlo tutto.
Appunti Lezioni Econometria Pag. 21
Anteprima di 10 pagg. su 277.
Scarica il documento per vederlo tutto.
Appunti Lezioni Econometria Pag. 26
Anteprima di 10 pagg. su 277.
Scarica il documento per vederlo tutto.
Appunti Lezioni Econometria Pag. 31
Anteprima di 10 pagg. su 277.
Scarica il documento per vederlo tutto.
Appunti Lezioni Econometria Pag. 36
Anteprima di 10 pagg. su 277.
Scarica il documento per vederlo tutto.
Appunti Lezioni Econometria Pag. 41
1 su 277
D/illustrazione/soddisfatti o rimborsati
Acquista con carta o PayPal
Scarica i documenti tutte le volte che vuoi
Dettagli
SSD
Scienze economiche e statistiche SECS-P/05 Econometria

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher GA.cattolica di informazioni apprese con la frequenza delle lezioni di Econometria finanziaria e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università Cattolica del "Sacro Cuore" o del prof Colombo Valentina.
Appunti correlati Invia appunti e guadagna

Domande e risposte

Hai bisogno di aiuto?
Chiedi alla community