vuoi
o PayPal
tutte le volte che vuoi
Capitolo 4: Regressione lineare con singolo L’ varia tra 0 e 1 e misura la frazione della
regressore varianza di che è spiegata da .
Il modello di regressione lineare postula una E’ il rapporto tra la somma dei quadrati spiegata
relazione lineare tra le variabili x e y, la pendenza e la somma dei quadrati totale.
della retta che mette in relazione x e y è l’effetto La somma dei quadrati spiegata (ESS, Explained
di una variazione unitaria di x e y, ed è una Sum of Squares) è la somma delle deviazioni
̂
caratteristica incognita come la media di y. La quadratiche dei valori predetti dalla loro
pendenza e l’intercetta possono essere stimati media.
attraverso un metodo chiamato Minimi Quadrati ̂ ̅)
∑(
Ordinari (OLS, Ordinary Least Squares).
A noi interessa stimare la variazione di y al variare
di x (pendenza; y=x0X; dX:dY), al fine di predire La somma dei quadrati totale (TSS, Total Sum of
una relazione valida in media nella popolazione. Squares) è la somma delle deviazioni quadratiche
Per fare questo è utile incorporare nella relazione di Y dalla loro media.
tutti quei fattori che possono influenzare y. Al ̅
∑
momento ci limiteremo ad un modello con
singolo regressore: Quindi l’ , sarà:
Bisogna usare i dati (raccolti usando un
campione casuale) per stimare la pendenza e
l’intercetta (coefficienti o parametri della L’ della regressione di Y sul singolo regressore
regressione), sfruttando il loro stimatore è il quadrato del coefficiente di correlazione tra Y
naturale: la media. e X.
Lo stimatore OLS sceglie i coefficienti di Errore standard della regressione (SER)
regressione in modo che la retta di regressione L’errore standard della regressione misura la
stimata sia il più possibile vicina ai dati osservati, distanza tipica di dal suo valore predetto (SER,
dove la vicinanza è misurata dalla somma dei Standard Error of the Regression). E’ uno
quadrati degli errori che si commettono nel stimatore della deviazione standard dell’errore di
predire y data x. Quindi bisogna trovare quei regressione ui, ovvero misura la dispersione delle
coefficienti che minimizzano: osservazioni intorno alla retta di regressione
̂ ̂
∑ [ ] (stessa unità di misura della variabile
dipendente).
̂ ̂
Dove e sono stimatori dei minimi quadrati Poiché gli errori di regressione non sono
ordinari di B0 e B1, da cui si costruisce la retta di osservati, il SER è calcolato usando le loro
̂
regressione OLS e quindi il valore predetto . Tali ̂ ̂
controparti campionarie, i residui OLS .
coefficienti sono il risultato dell’operazione di
̂
̂
minimizzazione.Il residuo sarà . ∑ ̂
Le formule di calcolo degli stimatori OLS della ̂ ̂
pendenza e dell’intercetta sono:
̅ ̅
∑
̂ Le assunzioni dei minimi quadrati
̅
∑ Assunzioni sotto le quali gli OLS costituiscono uno
̂ ̅ ̂ ̅ stimatore appropriato dei coefficienti di
regressione ignoti B0 e B1.
L’ e l’errore standard misurano quanto bene si Assunzione 1: la distribuzione condizionata di Ui
adatta la retta di regressione standard OLS ai data Xi ha media nulla.
dati. Assunzione 2: (Xi, Yi) sono indipendentemente e
L’ identicamente distribuite. Altrimenti incorrelati.
1
Assunzione 3: gli outlier sono improbabili. Con Per il test unilaterale (coda sinistra):
momenti quarti finiti nulli. | | | |
Capitolo 5: Verifica di ipotesi ed intervalli di
confidenza Si rifiuta l’ipotesi a livello di significatività del 5%,
Verifica di ipotesi su un singolo coefficiente di se il valore-p è minore di 0,05 (o,
regressione equivalentemente, se | |>1,96).
Verifica di ipotesi circa la pendenza B1 Verifica di ipotesi circa l’intercetta B0
Verifica dell’ipotesi contro Stesso procedimento. Con errore standard:
l’alternativa bilaterale .
̂ ̂ ̂
1. Si calcola l’errore standard di , SE( ); ̂
( ) √ ;
̂
stimatore della deviazione standard
campionaria. ̂
∑ ̂
̂ ̂
̂ ̂
( ) ̂
√ ∑
; [ ]
̂ Dove:
̅
∑ ̂
̂ ̂ ̅
̅
∑
[ ] ̂ [ ]
∑
2. Si calcola la statistica t; Intervallo di confidenza per un coefficiente di
; regressione
Intervalli di confidenza per B1.
̂ ̂
( ) Un intervallo di confidenza di livello 95% per B1
è: - L’insieme di valori che non si possono
3. Si calcola il valore-p; rifiutare usando un test d’ipotesi
bilaterale con livello di significatività del
Il valore-p è il più basso livello di significatività al 5%;
quale l’ipotesi nulla si rifiuta (probabilità di
̂ - Un intervallo che una probabilità 95% di
osservare un valore di diverso da ) , contenere il vero valore di B1 (livello di
basandosi sulla statistica t calcolata. confidenza 95%).
̂
̂ Notando che la statistica t rifiuta il valore
[| | | ipotizzato quando questo è al di fuori
̂
̂ ̂ ̂
|] [| | | |] dell’intervallo .
̂ ̂
( ) ( )
| | | | Intervalli di confidenza per B0
Per il test bilaterale: Vale lo stesso procedimento.
Nel caso in cui volessimo variare X di un
| | | | | | ammontare , la variazione predetta in Y sarà
̂ :
Dove è il valore della statistica t ̂
l’intervallo di confidenza di livello 95% per =
effettivamente osservato e è la funzione di
ripartizione normale standardizzata tabulata nella ̂ ̂ ̂ ̂
[ ( ) ( ) ]
tabella 1. 2 ̂ ̂ ̂
∑( )
Eteroschedasticità e omoschedasticità
L’errore di regressione Ui è omoschedastico, se la ̂ ̂ ̂
Dove , , sono stimatori dei minimi
varianza della distribuzione condizionata di Ui quadrati ordinari (OLS).
data Xi è costante per i=1,…n, e in particolare
non dipende da Xi. Misure di bontà dell’adattamento nella
Se ad esempio la distribuzione condizionata di Ui regressione multipla
diventa più dispersa al crescere di X, si tratta di
eteroschedasticità. Le statistiche descrittive comunemente usate
Capitolo 6: Regressione lineare con regressori nella regressione multipla sono tre: l’errore
multipli ̅
standard, l’ , l’ corretto (o ).
Invalidare la distorsione da variabili omesse. Si
dice che c’è distorsione da variabile omessa se il Errore standard della regressione (SER)
regressore è correlato con una variabile omessa Stima la deviazione standard dell’errore ui, cioè è
dall’analisi, ma che determina in parte la variabile
dipendente. Vuol dire anche che la prima ipotesi una misura della dispersione della distribuzione
|
dei minimi quadrati è errata . Se un di Y attorno alla retta di regressione.
errore ui è correlato con Xi, quindi determinante
di Yi, la media condizionata è non nulla. Lo ̂ ̂
stimatore OLS è distorto. ∑ ̂
La regressione multipla permette si stimare
l’effetto su Yi della variazione in una variabile
tenendo costanti gli altri regressori. La relazione L’
media tra le due variabili indipendenti X1i e X2i e
la variabile dipendente Y è data dalla funzione E’ la frazione della varianza campionaria di Yi
lineare: spiegata dai regressori.
| ̂ ̅)
∑(
E’ la retta di regressione della popolazione nel
modello di regressione multipla.
Se introduciamo una variazione che comporti
una variazione , la retta di regressione sarà: ̅
∑
Da cui ricaviamo che: L’ cresce ogni volta che viene aggiunto un
; tenendo costante regressore.
Ovvero che il coefficiente B1 è l’effetto su Y di ̅
L’ “corretto” ( )
una variazione unitaria in X1, lasciando fisso X2.
Il coefficiente B0 (intercetta) è il valore atteso di L’ fornisce una stima in eccesso della bontà
Y, quando tutte le X sono pari a zero. della regressione, quindi si cerca di correggerlo
Lo stimatore OLS della regressione multipla deflazionandolo per impedire che questo
aumenti necessariamente quando si aggiunge un
La somma dei quadrati degli errori di predizione nuovo regressore.
che va minimizzata è: 3 Un ipotesi congiunta è un ipotesi nulla che
̂
̅ impone due o più restrizioni sui coefficienti di
regressione. Per verificarla si utilizza la statistica
̅ è sempre minore di . Il fattore F.
controbilancia la somma dei quadrati dei residui. La statistica F con q=2 restrizioni.
Esso quantifica in che misura il regressore La statistica F combina le due statistiche t cioè t1
descrive (o spiega) la variazione nella variabile e t2, date le due restrizioni dell’ipotesi nulla B1=0
indipendente. e B2=0. ̂
( )
Le assunzioni dei minimi quadrati per la ̂
regressione multipla ̂
Dove è uno stimatore della correlazione tra
Ci sono quattro assunzioni degli OLS per il le due statistiche t.
modello di regressione multipla. Le prime tre Poiché la statistica F ha una distribuzione , in
sono identiche alle assunzioni fatte nel modello di grandi campioni sotto l’ipotesi nulla, il valore-p è
regressione con singolo coefficiente. [ ]
4. Assunzione 4: Assenza di collinearità perfetta.
Si dice che i regressori sono perfettamente Statistica F classica
collineari (o che mostrano collnearità Interpreta quanto bene la regressione non
perfetta) se uno dei regressori è una vincolata e quella vincolata si approssimano ai
funziona lineare esatta degli altri. La dati. Esse sono valide solo per errori
collinearità imperfetta sorge quando uno dei omoschedastici. Sostituisce la statistica F robusta
regressori è altamente correlato con gli altri all’eteroschedasticità quando non si trattano dati
regressori. economici. La statistica F classica è data dalla
formula:
̂ ̂ ̂
Per grandi campioni , , si distribuiscono
secondo una normale multivariata. Ogni
coefficiente si distribuisce secondo una = somma dei quadrati dei residui
con j=0,..,k . della regressione vincolata (considerando vera
l’ipotesi nulla);
Capitolo 7: Verifica di ipotesi ed intervalli di
confidenza nella regressione multipla = somma dei quadrati dei residui
della regressione non vincolata (considerando
I coefficienti del modello di regressione multipla vera l’ipotesi alternativa);
possono essere stimati attraverso gli OLS, tuttavia
è soggetto a variabilità poiché differisce da un q = numero di restrizioni sotto l’ipotesi nulla;
campione ad un altro. Esistono metodi per
quantificare la variabilità campionaria dello = numero di regressori nella
stimatore OLS attraverso l’uso di errori standard, regressione non vincolata.
test di ipotesi stat