Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
T
2 2
⇔ (7)
Cov(ε) = σ I Cov(Y ) = σ I
n n
⇔
= 0 ] = X β
E[ε] E[Y T
Definizione 5.2. (Metodo dei minimi quadrati)
Posto η = X β diciamo che β̂ è stimatore dei minimi quadrati di β se rende minimo il valore
T M Q X 2 2 2
kεk kY −
ε = = ηk
i
i
cioè 2
kY −
β̂ = arg min ηk
M Q β
È importante sapere che con questo metodo si approssimano al meglio tutti i dati e che si otten-
gono stimatori non-distorti ed efficienti (quindi a varianza minima).
Definizione 5.3. (Equazioni normali)
Sono delle equazioni che risolvono β̂, in particolare XY = Sβ
Per ottenere una equazione normale basta considerare la funzione 2
" #
X X
2
kY − −
s(Y, β) = X βk = Y X β
T j i,j i
j i
∂s = 0 si ottiene
e se si pone ∂β
r "" # #
X X
−2 −
Y X β X = 0, r = 1, . . . , p
j i,j i r,j
j i
cioè − ⇒
XY XX β = 0 XY = XX β = Sβ
T T
−1 −1 −1
∃ ∃!
In particolare se S = (XX ) si ha β̂ = S XY e quindi β̂
T M Q M Q
Teorema 5.4.
Gli stimatori dei minimi quadrati sono tutte e sole le soluzioni delle equazioni normali, cioè
kY − ⇔
β̂ = arg min X βk XY = Sβ
M Q T
β
Dimostrazione.
cerchiamo
Sia X β = η,
T 2
kY −
η̂ = arg min ηk
η
e quindi η̂ = X β̂
T M Q
⇒) kY −
Se β minimizza la quantità X βk, allora risolve l’equazione normale.
T 39
⇐) n n p
∈ ⊆ ∈ ∈ ∈ ×
Abbiamo che Y U , ε , β e X M (n p)
R R R
n T
= X β; si ha
Riscriviamo in modo più esplicito l’equazione η T
X ... X β
β
1,1 1,p 1
1
.. .. .
.. i
h
.. ... ξ
ξ .. ∈ ⊆
η = V V
=
.
. . . r n
1 p
X ... X β
β
n,1 n,p p
p
≤ 6
Con r = rk(X ) = rk(X) p, in particolare se r = p allora S non è invertibile.
T
, . . . , α una base ortonormale per V , grazie al teorema di Gram-Schmidt, è possibile
Sia α r
1 r , . . . , α , con n > r ad una base ortonormale per V .
ampliare la base a α n
1 n n
P
∈ ∈
z α
Possiamo riscrivere Y V : Y = e possiamo anche riscrivere η V attraverso la base
i
n r
i
i
r
P
= ẑα
ortonormale: η i
i
Quindi si ottiene: r n X X
X X 2 2
−
− − = (z ẑ ) + z
Y η = (z ẑ )α + z α i i
i i i i
i=1 i=r+1
Poiché questa è un somma di termini positivi, l’unico modo per minimizzarla è annullare quanti
più coefficienti possibili, e quindi prendere ẑ = z , i = 1, 2, . . . , r
i i
La scelta di questi ẑ equivale a quella di prendere η come proiezione ortogonale di Y su V , cioè
i r
− ∀j − ⇒ −
(Y η)⊥ξ = 1, . . . , p e quindi ξ (Y X β) = 0 XY XX β = 0 che è una equazione
j j T T
normale.
Nota. −1 −1 −1
Se S è invertibile, allora si ha che β̂ ] = XY ] = S X ] = S XX β = β
E[ E[S E[Y
M Q T
Proposizione 5.5. k ×
Sia X un vettore aleatorio con matrice di covarianza Cov(X) in e A una matrice m k
R
deterministica. Allora si ha Cov(AX) = A Cov(X)A T
Dalla precedente proposizione si evince che, supponendo S invertibile
−1 −1 −1 −1 −1 −1
2 2
Cov(S XY ) = S X Cov(Y )(S X) = σ [S XI X S ] = σ S
T n T
−1
e poiché in generale S non è diagonale, le componenti di β̂ sono correlati.
M Q
Definizione 5.6. (Funzione parametrica)
p p
∈ ∈
Sia c deterministico e β il vettore dei parametri del modello di regressione lineare
R R Y = X β + ε
T
] = X β
E[Y T
2
Cov(Y ) = σ I
n
β è detta funziona parametrica.
La funzione Ψ = c
T
Definizione 5.7. (Funzione parametrica stimabile)
Una funzione Ψ parametrica si dice stimabile se possiede uno stimatore lineare in Y non distorto,
∃ ∈
cioè se a V tale che [aY ] = Ψ.
E
n β 40
Lemma 5.8. ∈ V tale che [aY ] = Ψ. Sia d la proiezione di
Sia Ψ una funzione parametrica stimabile e a E
n β
a su un sottospazio V , allora
r
1. [dY ] = Ψ
E
β
2 2
≥
2. σ (aY ) σ (dY )
= cβ̂
3. dY M Q
⊂
4. Se e V è un vettore tale che ] = Ψ, allora e = d
E[eY
r
Dimostrazione.
1) può venir scritto in maniera univoca nel seguente modo: a = b + d con b⊥V e quindi
Il vettore a r
aY = (b + d)Y = bY + dY
e di conseguenza Ψ = [aY ] = [bY ] + [dY ] = bX β + [dY ]
E E E E
β β β T β
Per l’ortogonalità si ha bX = 0 e quindi
T Ψ = [dY ]
E
β
2 2 2 2
kak kbk kdk
Per come è stato decomposto il vettore a si può scrivere = + e quindi
2 2 2 2 2 2
kak ≥ kdk
σ (aY ) = a Cov a = σ σ = σ (dY )
3
Si ha Y ] = Ψ = c β per definizione e Y ] = d ] = d X β da cui segue vtc =
E[d E[d E[Y T T
T T T T T
d X .
T
T −
Si consideri η̂ = X β̂ , essa è la proiezione ortogonale di Y su V , quindi d (Y η̂) = 0 da
M Q T M Q r T
cui segue d Y = d η̂ = d X β̂
β̂ = c
M Q T M Q
M Q
T T T T
4 ∈
Sia e V tale che [eY ] = Ψ, si ha allora
E
r β − − −
0 = [dY ] [eY ] = [(d e)Y ] = (a e)X β
E E E
β β β T
− −
Serve quindi (d e)X = 0 identicamente in β. La richiesta è equivalente a chiedere d e
T −
ortogonali a V , il che è impossibile poichè entrambi stanno in V a patto che d e = 0
r r
Definizione 5.9. (Stimatore dei minimi quadrati)
∈ ∈
Sia Ψ = cY una funzione stimabile. Esiste allora a V tale che [aY ] = Ψ, sia d V la sua
E
n β r
chiamiamo tale quantità stimatore dei minimi quadrati di Ψ.
proiezione, allora posto Ψ̂ = dY
Teorema 5.10. (di Gauss-Markov)
Dato il modello Y = X β + ε
T
2 2
⇔ (8)
Cov(ε) = σ I Cov(Y ) = σ I
n n
⇔
= 0 ] = X β
E[ε] E[Y T
e sia Ψ una funzione stimabile, allora lo stimatore Ψ̂ dei minimi quadrati di Ψ ha varianza
minima nella classe degli stimatori non distorti per Ψ e lineari in Y .
41
Dimostrazione. ∈ ∀β.
∃a V tale che Y ] = Ψ
Sia Ψ stimabile, allora E[a
n T
Sia d la proiezione di a su V , allora si ha Ψ̂ = d Y = c β̂ .
r M Q M Q
T T
Y un’altro stimatore per Ψ lineare in Y non distorto, allora
Sia b T ∈
1. Se b V si ha b = d e quindi var(b Y ) = var(d Y )
r T T
∈
2. Se b / V e possibile considerare la sua proiezione su V , che avrà varianza pari a var(d Y ) =
r r T
Y )
var(Ψ̂ ) < var(b
M Q T
Corollario 5.11. ∈
∀c V la funzione Ψ è stimabile e Ψ̂ è ottimale,
Sia rk(X) = n il massimo possibile; allora n M Q
come anche tutti i β̂ M Q,j
Dimostrazione. −1
Se il rango di X è massimo la matrice S è invertibile, quindi β̂ = S XY . Se scelgo c =
M Q
(0, . . . , 0, 1, 0, . . . , 0) allora c β̂ = β̂ ed esso ha varianza minima.
M Q M Q,j
T
Riduzione del modello lineare - stima della varianza
Fino ad ora è stato scritto soltanto come stimare i parametri β , non è stato detto ancora nulla
i
2
su σ .
Ricordiamo che V è lo spazio r−dimensionale generato dalle colonne di X , con r = rk(X). Sia
r T
{α } {α }
, . . . , α una base ortonormale per V , questa base può essere estesa a , . . . , α , α , . . . , α
1 r r 1 r r+1 n
∈ ∈
base ortonormale per V . Poiché Y V e la sua proiezione η̂ V si ha
n n M Q r
r
n X
X z α
z α e η̂ =
Y = j j
j j M Q j=1
j=1
quindi n
n X
X 2
2
2 k
kY − k k z
z α =
η̂ = j j
M Q j
j=r+1 j=r+1
Posto Z = (z , . . . , z ) e P la matrice che contiene le componenti della base di V si ha, poiché
1 n n
2 2 2
Cov(Y ) = σ I , Cov(Z) = P σ I P = σ I . Inoltre E[Z] = E[P Y ] = P η, mentre ] =
E[Z
n n T n j
2 2
∀j ∀j
0 > r e di conseguenza E z = var(z )σ > r.
j
j
Quindi n
X
2 2 2
kY − k − −
η̂ = ] = (n r) var(z ) = (n r)σ
E[z
E M Q j
j
j=r+1
Quindi
2
kY − k
η̂
E M Q
2
σ̂ = −
(n r)
è uno stimatore della varianza. 42
Verifica di ipotesi sul modello lineare di regressione
∈ V , cioè η soddisfa q ipotesi lineari con
Un test di ipotesi che si è soliti fare è H : η r−q
0
∈
0 < q < r stiamo quindi verificando se alcuni parametri β sono nulli o meno.
N, i
Si pone preventivamente X 2
−
s = s(Y, β) = (Y ])
E[Y
i i
si denota con s se si sta supponendo vera l’ipotesi H oppure con s se non si suppone nessuna
H 0 H
0 2
∼
ipotesi. Se si suppone Y N (η, σ I ) una normale multivariata, si ha che, per l’indipendenza
n
delle Y
i s(Y,β)
n
z }| {
1 1
2 X 2
2 2
− − )
L(Y, β, σ ) = exp σ (Y ]
E[Y
i i
2
2πσ 2 {z }
|
=η i
2
Fissato σ , massimizzare L rispetto a β sotto l’ipotesi H , è equivalente a cercare
0 2
kY −
min s(Y, β) = min ηk
quindi β̂ è la soluzione e β̂ = β̂
M Q M L M Q
Sia quindi s = min s(Y, β) sotto l’ipotesi H e s = min s(Y, β) senza nessuna ipotesi.
H β 0 H β
0 ∞
∂L = 0 e poiché il l