Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
SQ SQ
SQ
tot res
reg
ovvero che la devianza delle risposte osservate è scomponibile nella somma tra la devianza
spiegata dal modello e la devianza dovuta all’errore.
3.3.2 Derivazione del coefficiente di determinazione
Ricordando il risultato riportato sopra, ci si aspetta che se il modello è buono, allora la
devianza residua sarà molto minore della devianza spiegata.
Di conseguenza si definisce il coefficiente di determinazione come
SQ −
SQ SQ SQ
reg tot res res
2 −
= =1 . (22)
R = SQ SQ SQ
tot tot tot
15
2 ∈
Si noti che R [0, 1].
2
Se R = 1, allora il modello si adatta perfettamente ai dati.
A livello di popolazione, il coefficiente di determinazione è definito come
2
− Y )
(
Ŷ
E
2 . (23)
R =
pop
2
−
(Y Y )
E
Osservazione 2
Nel modello di regressione lineare semplice, il coefficiente di determinazione R coincide con
il quadrato del coefficiente di correlazione r . Infatti
xy n
n 2 2 2
P
P
SQ −
− (x
(ŷ y) β̂ x)
(?) i
i
reg 1
2 i=1
i=1
= = =
R = n n
P P
2 2
− −
SQ (y y) (y y)
i i
tot i=1 i=1
2
"P #
n n 2
P
− −
−
(x (x
x)(y y) x)
i i
i
i=1 i=1
= =
n n
P P
2 2
− −
(x x) (y y)
i i
i=1 i=1
2
n
P − −
(x x)(y y)
i i
i=1
= =
n n
P P
2 2
− −
x) y)
(x (y
i
i
i=1 i=1 2
" #
n
P −
− x)(y y)
(x i
i
i=1 2
= = r
xy
2
n n
pP pP
2 2
− −
(x x) (y y)
i i
i=1 i=1
2
R misura quindi la forza della relazione lineare tra x e y indipendentemente dal segno della
correlazione. 16
4 Modello di regressione lineare semplice normale
Il modello di regressione lineare semplice normale è un caso speciale del modello di regres-
sione lineare semplice.
4.1 Specificazione
Fino ad ora, sugli errori, sono state fatte solo assunzioni del secondo ordine (su media e
varianza) e con queste è stato possibile studiare la stima ai minimi quadrati di β e β e le
0 1
2
proprietà degli stimatori B̂ , B̂ e Ŝ . Ora, con il fine di ottenere procedure inferenziali di
0 1 0
stima intervallare e verifica di ipotesi, vengono introdotte due assunzioni sulla forma della
distribuzione degli errori.
Quindi, alle assunzioni (A), (B) e (C) (rispettivamente non sistematicità, omoschedasticità
e incorrelazione degli errori), si aggiungono:
(D) Normalità degli errori
(E) Identica distribuzione degli errori
Osservazione
Si usa la distribuzione normale perché può essere visto come somma di altri errori. Se
i
questi errori sono identicamente distribuiti, allora per il teorema centrale del limite ha
i
distribuzione normale.
Le assunzioni (A), (B), (C), (D) e (E) implicano che
i.i.d. 2
∼ N
0, σ , i = 1, . . . , n. (?)
i
Gli errori sono indipendenti tra di loro perché, nel caso di una distribuzione normale,
i
l’indipendenza implica l’incorrelazione e viceversa.
Osservazione
La linearità in media, l’omoschedasticità e l’incorrelazione delle risposte valgono ancora.
6
Infatti, se i = 1, . . . , n e se j = i = β + β x
- ) = + β x + ) = β + β x + )
E(Y E(β E( 0 1 i
i 0 1 i i 0 1 i i
{z }
| =0
2
- ) = + β x + ) = ) = σ
Var(Y Var(β Var(
i 0 1 i i i
- , Y ) = + β x + , β + β x + ) = , ) = 0
Cov(Y Cov(β Cov(
i j 0 1 i i 0 1 j j i j
ind.
2
∼ N
Inoltre, il risultato (?) implica che Y = β + β x + β + β x , σ .
i 0 1 i i 0 1 i
Y , . . . , Y non sono identicamente distribuite perché la media dell’i-esima risposta dipende
1 n
dall’i-esima realizzazione di X.
4.2 Stima
Grazie alla conoscenza della distribuzione di Y si può utilizzare il metodo della massima
i 2
verosimiglianza per la stima dei parametri del modello, cioè θ = (β , β , σ ).
0 1
17
4.2.1 Stima di massima verosimiglianza
La funzione di verosimiglianza è definita come la funzione di densità congiunta dei dati
osservati, ovvero
L(θ|D) = f (x , y ), . . . , (x , y ), θ (24)
D 1 1 n n
con D = (x , y ), . . . , (x , y ) .
1 1 n n
Siccome la distribuzione delle osservazioni è
n
ind. normalità
Y
f (x , y ), . . . , (x , y ), θ = f (x , y , θ) =
D 1 1 n n i i
i=1
n 1
1 n o
Y 2
√ − − −
exp (y β β x ) =
= i 0 1 i
2
2σ
2
2πσ
i=1 n
1
n n o
− X
2 2
− − −
2
= 2πσ exp (y β β x )
i 0 1 i
2
2σ i=1
Allora, a meno di una costante moltiplicativa, la funzione di verosimiglianza è
n
1
n n o
− X
2 2
L(θ|D) − − −
2
= σ exp . (25)
(y β β x )
i 0 1 i
2
2σ i=1
2
Si ricercano quindi i valori (
β̂ , β̂ , σ̂ ) tali che massimizzano la funzione di verosimiglianza.
0 1
Un problema equivalente consiste nel massimizzare la log-verosimiglianza, ovvero
n
1
n X
2 2
− − −
L(θ, − log (σ ) (y β β x ) (26)
`(θ, D) = log D) = i 0 1 i
2
2 2σ i=1
Per ricercare il punto di massimo della log-verosimiglianza bisogna risolvere il seguente
sistema n
∂`(θ|D)
1 P − −
= (y β β x ) = 0
i 0 1 i
2 i=1
∂β σ
0
n
∂`(θ|D) 1 P − −
= x (y β β x ) = 0
i i 0 1 i
2 i=1
∂β σ
1 n
∂`(θ|D) n 1
2
P
− − −
= + (y β β x ) = 0
i 0 1 i
2 2 2 2 i=1
∂σ 2σ 2(σ )
che equivale a risolvere n
P − −
(y β β x ) = 0
i 0 1 i
i=1
n
P − −
x (y β β x ) = 0
i i 0 1 i
i=1 n
n 1 2
P
− − −
+ (y β β x ) = 0
i 0 1 i
2 2 2 i=1
σ (σ ) 2
La prima e la seconda equazione non dipendono da σ e sono esattamente le equazioni
s
xy
−
studiate per trovare le stime ai minimi quadrati. Quindi β̂ = y β̂ x e β̂ = .
0 1 1 2
s
x
Risolvendo la terza equazione si ottiene che
n
1 X
2 2
− −
(y β̂ β̂ x ) (27)
σ̂ = i 0 1 i
n i=1
2
ovvero σ̂ è la media dei quadrati dei residui e corrisponde ad una realizzazione dello sti-
2
matore Ŝ .
0 18
L’unico punto critico di ` è quindi n
s 1
xy X
2 2
− − −
β̂ , β̂ , σ̂ = y β̂ x, , (y β̂ β̂ x )
0 1 1 i 0 1 i
2
s n
x i=1
2 L.
Si può verificare che β̂ , β̂ , σ̂ è punto di massimo per ` e quindi anche per
1
0 2
Se si considerano β̂ , β̂ e σ̂ come funzioni della variabili aleatorie Y , . . . , Y si ottengono
0 1 1 n
2
gli stimatori B̂ , B̂ e Ŝ .
0 1 0
Gli stimatori di massima verosimiglianza sono B̂ e B̂ , che corrispondono a quelli del
0 1
2 2
metodo ai minimi quadrati, e Ŝ , che è lo stimatore non corretto di σ .
0 2
Le proprietà studiate per B̂ , B̂ e Ŝ sono ancora valide.
0 1 0
4.2.2 Distribuzioni degli stimatori 2
Conoscere la distribuzione di Y permette di determinare le distribuzioni di B̂ , B̂ e Ŝ .
i 0 1 0
Nella (15) e nella (16) si è dimostrato rispettivamente che
n − x
x i
X , i = 1, . . . , n
B̂ = w Y con w =
1 i i i n
P 2
− x)
(x i
j=1
i=1
e n 1
X −
v Y con v =
B̂ = xw , i = 1, . . . , n.
i i i
0 i
n
i=1
Allora, siccome B̂ e B̂ combinazioni lineari di variabili aleatorie indipendenti, per la
0 1
proprietà riproduttiva della normale, vale che
n n 2
σ
X X 2
∼ N ≡ N
B̂ w ), w ) β ,
E(Y Var(Y
1 i i i 1 n
i P 2
− x)
(x i
i=1
i=1 i=1
e che n
n 2
1 x
X
X 2 2
≡ N
∼ N v ) β , σ
v ), +
B̂ .
Var(Y
E(Y i 0
i i
0 n
i P 2
−
n (x x)
i
i=1
i=1
i=1 2
Inoltre, è possibile dimostrare che Ŝ , a meno di una trasformazione, si distribuisce come
0
−
una chi-quadro con n 2 gradi di libertà, ovvero
2
Ŝ
0 2
∼ χ .
n n−2
2
σ
2 2
Ŝ Ŝ
−
Da ciò e dal fatto che n = (n 2) segue che
0
2 2
σ σ 2
Ŝ
0 2
− ∼
(n 2) χ .
n−2
2
σ
2
Infine, si può dimostrare che Ŝ è indipendente da B̂ e B̂ , ovvero
0 1
2 ⊥
⊥
Ŝ (
B̂ , B̂ ).
0 1
19
4.3 Verifica
4.3.1 Test di significatività dei coefficienti di regressione
Ora che si conoscono le distribuzioni degli stimatori, è possibile formulare dei test statistici
per stabilire se una certa variabile esplicativa ha un effetto significativo sulla variabile ri-
sposta, ovvero se la conoscenza della covariata aiuta a prevedere la risposta.
Se β = 0, allora Y = β + β x + = β + , che significa che la conoscenza di x non è
1 i 0 1 i i 0 i i
necessaria per stimare Y .
i
In generale, il sistema di ipotesi necessario per effettuare il test é
6
H : β = b vs H : β = b
0 1 1 1 1 1
con b fissato.
1 2
σ
∼ N .
Se si suppone che l’ipotesi nulla sia vera, allora B̂ H b ,
1 0 1 2
ns
x
La statistica test è ottenuta standardizzando la variabile aleatoria B̂ e so-
1
2 2
stituendo al parametro ignoto σ il suo stimatore corretto Ŝ .
La statistica test è quindi −
B̂ b
1 1
T =
1 q 2
Ŝ 2
ns
x
−
che, sotto H , ha distribuzione t di Student con n