Che materia stai cercando?

Econometria - i minimi quadrati

Appunti di Econometria per l'esame del professor Carlucci sui minimi quadrati. Gli argomenti trattati sono i seguenti: il criterio dei minimi quadrati, i minimi quadrati nel modello lineare semplice, i minimi quadrati nel modello lineare multiplo, la scomposizione della devianza ed il coefficiente di determinazione, i residui come... Vedi di più

Esame di Econometria docente Prof. F. Carlucci

Anteprima

ESTRATTO DOCUMENTO

Modulo II – Minimi quadrati

1.9 – Poiché il rango massimo di è , per i teoremi

Osservazione X′X k

XIX-1.4 e XIX -1.3 la condizione (1.4.9) è equivalente alla seguente

> , ( ) (1.4.11)

n k r X =k

L’ortogonalità dei residui rispetto alle variabili esplicative β̂

Poiché le equazioni normali (1.4.8) sono soddisfatte da definita dalla (1.4.10),

vale la relazione −1

′ β̂ = ′ ′ ′ = ′ (1.4.12)

X X X X

( X X ) X y X y ′

[ ]

=

che viene utilizzata per dimostrare delle stime

l’ortogonalità ˆ ˆ ˆ ˆ

u u u ... u

1 2 n

dei residui rispetto alle variabili esplicative . Coerentemente con la (1.4.2) si ha

7

= − = − β̂ (1.4.13)

u

ˆ y y

ˆ y X

costituito dalla differenza tra il vettore dei valori osservati e quello dei valori

y

teorici = β̂ (1.4.14)

y

ˆ X β̂

formati dalla componente sistematica delle con i parametri stimati tramite il

y i

t

criterio dei minimi quadrati. L’ortogonalità di rispetto alle variabili esplicative

consiste, dunque, nel fatto che è (1.4.15)

′ = ′ − β = ′ − ′ β =

ˆ ˆ

X u

ˆ X ( y X ) X y X X 0

per la (1.4.8). Trasponendo la (1.4.15) si ottiene, ovviamente,

′ ′

= (1.4.16)

ˆ

u X 0

Le (1.4.15) o (1.4.16) generalizzano le (1.3.13).

L’ortogonalità mostrata dalla (1.4.15) può essere interpretata nel senso che è

la proiezione ortogonale di sullo spazio ortogonale a quello generato dalle colonne

y

di . D’altro canto consiste nella proiezione ortogonale di sullo spazio generato

X y

dalle colonne di , per cui e sono ortogonali. Infatti

X û ′ = β ′ =

ˆ

y

ˆ u

ˆ ' X u

ˆ 0

avendo sfruttato le (1.4.14) e (1.4.15).

Le relazioni (1.4.15) e (1.4.16) permettono di determinare la seguente

scomposizione del prodotto scalare che otteniamo in virtù delle definizioni

y y

(1.4.13) e (1.4.14)

Talvolta la stima è indicata con il simbolo ed il vettore con

e

7 û û e.

t

t 1-14

Modulo II – Minimi quadrati (1.4.17)

′ = β + ′ β + = β ′ β + β ′ + β + ′ = + ′

ˆ ˆ ˆ ˆ ˆ ˆ

y y ( X u

ˆ ) ( X u

ˆ ) ' X X ' X u

ˆ u

ˆ ' X u

ˆ u

ˆ y

ˆ ' y

ˆ u

ˆ u

ˆ

e che lega i valori osservati con i teorici e i residui stimati.

y

Se l’equazione (1.3.4) contiene l’intercetta, una delle colonne di , ad esempio

X

l’ultima, è costituita da unità, per cui anche l’ultima riga di è formata da 1, e

X

dalla (1.4.15) deriva che n

∑ (1.4.18)

=

ˆ

u 0

t

=

t 1

cioè il valor medio campionario dei residui stimati è nullo, se viene calcolata

l’intercetta. La (1.4.18) generalizza la prima delle (1.3.13). In questo caso,

considerando la (1.4.2), si ha anche che il valor medio campionario delle è uguale

y

t

al valor medio campionario delle stimate

ŷ t

n n

1 1

∑ ∑

= = (1.4.19)

ˆ

y y y

t t

n n

= =

t 1 t 1

1.10 - L’equazione del sistema (1.4.15) può essere

Osservazione i-esima

scritta nella forma

n n

∑ ∑

− β = =

ˆ (1.4.20)

ˆ

x ( y x ) x u 0

it t t it t

= =

t 1 t 1

dove è il vettore delle variabili esplicative al tempo . Se in virtù

k t

x′ t =1,

della presenza dell’intercetta è, ad esempio, per ogni , si ottiene

x t

kt

nuovamente la (1.4.18).

Un esempio: il modello lineare semplice in termini matriciali

Trattiamo il caso del modello lineare semplice (1.3.1) in termini matriciali. La

(1.4.4) è in forma esplicita

   

y u

1 1

   

 

y 1 x u

   

2 1 2

 

   

β

 

... 1 x ...

 

= +

2 1

   

 

  β

   

... ... ... ...

2

 

   

 

... 1 x ...

   

n

   

   

y u

n n

per cui la matrice è

X X 1-15

Modulo II – Minimi quadrati

 

n

 

n x t

′ =  

=

t 1

X X n n

 

∑ ∑ 2

x x

 

t t

 

= =

t 1 t 1

2

 

n n

∑ ∑

′ = −  

con determinante e aggiunta

2

det( X X ) n x x

t t

 

= =

t 1 t 1

 

n n

∑ ∑

2

 

x x

t t

′ =  

= =

t 1 t 1

agg ( X X ) n

 

− x n

 

t

 

=

t 1

Si ha, allora, facendo uso delle posizioni (1.3.8)

  −

−    

β  

ˆ y m y x

m

m x

1 1

′ ′

= = = xx xy

1 xx

 

1    

 

( X X ) X y −

− − −

β

ˆ 2 2

  m m x y

     

m x x 1 m x

xy xy

xx xx

2

stime uguali alle (1.3.11) e (1.3.10), rispettivamente.

La condizione sufficiente per i minimi quadrati

Determiniamo ora le condizioni sufficienti affinché la devianza (1.4.6) possegga un

β̂

minimo nel punto estremante trovato tramite la condizione necessaria (1.4.10).

Se consideriamo il differenziale del secondo ordine della funzione (β)

S (1.4.21)

2

d S(β ) = dβ′Hdβ

dove ed è la matrice quadrata simmetrica di ordine , detta

dβ = (dβ dβ … dβ ) H k

1 2 k

, il cui elemento generico (i, è

hessiana j)

∂ β

2 S ( )

β ∂

β

i j

è positivo o negativo a seconda che sia definita positiva o negativa. Così la

2

d S(β ) H

β̂

condizione sufficiente affinché corrisponda ad un minimo (la positività del

differenziale ) è che la matrice

2

d S(β ) ∂ β

2 S ( )

= =2 ′

H X X (1.4.22)

β ∂

β

i j β

ottenuta derivando la (1.4.7) rispetto a sia definita positiva. Ma per l’ipotesi

β̂

(1.4.11) e il teorema XIX-1.8 la è definita positiva e quindi è un punto di

X X

minimo. 1-16

Modulo II – Minimi quadrati

Dunque la condizione (1.4.9) oppure l’equivalente (1.4.11) è necessaria e

β̂

sufficiente perché sia un minimo per (β).

S

1.11 - In analogia a quanto asserito sopra, la condizione

Osservazione β̂

sufficiente affinché corrisponda ad un massimo (la negatività del

differenziale ) è che la matrice sia definita negativa.

2

d S(β ) H

Le condizioni sufficienti possono essere dimostrate anche senza ricorrere al

differenziale del secondo ordine (1.4.21). A questo scopo scriviamo la devianza (β)

S

nel modo seguente ′

n

∑ ′

β = = = − β − β =

2

S ( ) u u u (

y X ) ( y X )

t

=

t 1 ′

= − β + β − β − β + β − β =

ˆ ˆ ˆ ˆ

( y X X X ) ( y X X X ) (1.4.23)

= − β − β − β − β − β − β =

ˆ ˆ ˆ ˆ

[( y X ) X ( )] [( y X ) X ( )]

′ ′ ′

= − β − β + β − β β − β

ˆ ˆ ˆ ˆ

( y X ) ( y X ) ( ) X X ( )

dove si è sfruttato il fatto che i prodotti incrociati sono nulli per la proprietà di

ortogonalità esposta nella (1.4.16)

8

′ ′

− β β − β = β − β =

ˆ ˆ ˆ

( y X ) X ( ) u

ˆ X ( ) 0

da cui anche, trasponendo,

= β − β ′ ′ − β

ˆ ˆ

0 ( ) X ( y X ) ′ ≠

Sfruttando il corollario XIX -1.1 del par. XIX -1.8, dato che ) 0 la forma

det(X X

β β̂ β − β ′ ′ β − β

in ( ) data dalla nella (1.4.23) sarà maggiore di

ˆ ˆ

quadratica - ( ) X X ( )

β β

β̂ β̂

zero se ( - ) Allora, poiché è un vettore di costanti, il minimo di ( ) viene

0. S

β β̂

ottenuto se si prende dato dalla (1.4.10), che quindi costituisce il vettore delle

=

stime dei minimi quadrati dei parametri del modello (1.4.4).

1.12 - La condizione sufficiente consistente nella

Osservazione ′

definitezza positiva della matrice corrisponde al fatto che

X X

β − β ′ ′ β − β > β − β ≠

per un qualsiasi , cioè alla

ˆ ˆ ˆ

( ) X X ( ) 0 0 β

disuguaglianza utilizzata per mostrare che la devianza ( ) è minima

S

β = β

nella (1.4.23) quando .

ˆ

Nelle due uguaglianze seguenti sono utilizzate le proprietà dell’operazione di

8

trasposizione di una matrice, per le quali si veda il paragrafo XIX-1.3. 1-17

Modulo II – Minimi quadrati

1.5 La scomposizione della devianza ed il coefficiente di

determinazione

Esiste una serie di indici che permettono di misurare la capacità del modello

lineare (1.3.4) di adattarsi ai dati del campione. Per definire il primo di questi

indici supponiamo, ovviamente senza perdere in generalità, che il modello contenga

l’intercetta (che, stimata, può anche valere zero) e scomponiamo la devianza delle y

t

nel seguente modo

n n

∑ ∑

− = − + − =

2 2

ˆ ˆ

( y y ) ( y y y y )

t t t t (1.5.1)

= =

t 1 t 1

n n n

∑ ∑ ∑

= − + − + − −

2 2

ˆ ˆ ˆ ˆ

( y y ) ( y y ) 2 ( y y )( y y )

t t t t t t

= = =

t 1 t 1 t 1

n

1 ∑

=

dove come nelle (1.3.8). Il termine misto è nullo poiché

y y

t

n =

t 1  

n n n n k n

∑ ∑ ∑ ∑ ∑ ∑

− − = − = β − =

 

ˆ

( y y

ˆ )( y

ˆ y ) u

ˆ y

ˆ y u

ˆ u

ˆ x y u

ˆ

t t t t t t t i it t

 

= = = = = =

t 1 t 1 t 1 t 1 i 1 t 1

k n n

∑ ∑ ∑

= β − =

ˆ ˆ ˆ

x u y u 0

i it t t

= = =

i 1 t 1 t 1

avendo applicato le (1.4.18) e (1.4.20), per cui vale la scomposizione della devianza

(totale) di nella ed in quella , essendo per la

devianza di regressione residua 9

y y

t

(1.4.19) il valor medio campionario sia di che di ,

y ŷ t

t

∑ ∑ ∑ (1.5.2)

− = − + −

2 2 2

ˆ ˆ

( y y ) ( y y ) ( y y )

t t t t

t t t

Dev. totale Dev. di regress. Dev. residua

Se dividiamo i due membri della (1.5.2) e per la devianza totale otteniamo

=

1 (Dev. di regressione)/(Dev. totale) + (Dev. residua)/(Dev. totale)

per mezzo della quale definiamo il coefficiente di determinazione

Dev. di regression e Dev. residua

= = − (1.5.3)

2

R 1

Dev. totale Dev. totale

pari al quadrato del tra e l’insieme delle

coefficiente di correlazione multipla y

t

variabili esplicative.

In lingua inglese: Dev. totale = (TSS); Dev. di regressione =

Total Sum of Squares

9 (ESS); Dev. residua = (RSS).

Explained Sum of Squares Residual Sum of Squares 1-18

Modulo II – Minimi quadrati

Quando tutta la variabilità totale è spiegata da quella di regressione si ha che

=

l’andamento del modello è perfetto, la devianza residua è nulla ed 1; nel caso

2

R

opposto la parte sistematica del modello non spiega niente e la variabilità totale

=

coincide con quella residua, per cui 0. In generale dunque, si ha

2

R

≤ ≤

0 1 (1.5.4)

2

R

Il coefficiente di determinazione in termini matriciali

Dal punto di vista computazionale è talvolta utile calcolare il coefficiente per

2

R

β̂

mezzo dei dati campionari e delle stime ; per arrivare a questo, osserviamo che la

devianza totale è

n n n

∑ ∑ ∑

′ ′ (1.5.5)

− = + − = −

2 2 2

( y y ) y y y 2 y y y y n y

t t

= = =

t 1 t 1 t 1

e quella residua

n

∑ ′ ′ ′ ′ ′ ′ ′ ′

− = = − β − β = − β − β + β β =

ˆ ˆ ˆ ˆ ˆ ˆ

2

ˆ ˆ ˆ

( y y ) u u ( y X ) ( y X ) y y y X X y X X

t t (1.5.6)

=

t 1 ′ ′ ′ ′ ′ ′ ′ ′

= − β + β β = − β

ˆ ˆ ˆ ˆ

y y 2 X y ( X X ) y y X y

β̂ ′ ′

dove si è nuovamente sfruttato il fatto che è uno scalare e quindi uguale al

X y

suo trasposto, e si è utilizzata la (1.4.12). Sostituendo queste relazioni nella (1.5.3)

si ottiene ′ ′ ′ ′ ′ ′

− β β −

ˆ ˆ 2 ˆ ˆ

y y X y X y n y u u (1.5.7)

= − = = −

2

R 1 1

′ ′ ′

− − −

2 2 2

y y n y y y n y y y n y

β̂

in funzione del campione, di e di . Il coefficiente di determinazione (1.5.7) è

y

detto Se si elimina si ottiene il coefficiente di determinazione

centrato. n non

2

y

centrato: ′ ′ ′ ′ ′

β β β

ˆ ˆ ˆ

X X X y u

ˆ ' u

ˆ (1.5.8)

= = = −

2

R 1

′ ′

u y y y y y ' y

dove il pedice sta per che significa appunto, in lingua inglese, non

uncentered,

u

centrato.

Si noti che la (1.5.8) deriva dalla scomposizione (1.4.17) della somma dei

della variabile dipendente, mentre la (1.5.7) deriva dalla scomposizione

quadrati

(1.5.2) della cioè della somma dei quadrati della variabile

devianza, degli scarti

dipendente dalla propria media campionaria. In altre parole, la differenza fra i due

coefficienti risiede nel fatto che la (1.5.7) confronta due devianze, mentre la (1.5.8)

due somme di quadrati. Ne consegue che il coefficiente non centrato (1.5.8) è

1-19

Modulo II – Minimi quadrati

sempre positivo, mentre quello espresso dalla (1.5.7) può essere negativo se dal

modello viene omessa l’intercetta, perché in tal caso l’ortogonalità (1.4.16) non

implica più il risultato (1.4.18) e quindi il termine misto nella scomposizione (1.5.1)

non si annulla.

Il coefficiente non centrato riveste particolare importanza nella costruzione

2

R

u

di test diagnostici sul modello, come si vedrà in seguito nei moduli III e VIII.

Viceversa, per quanto attiene alla valutazione della del

bontà di adattamento

10

modello ai dati, e quindi alla scelta delle variabili da considerare nel modello

stesso, si fa riferimento al coefficiente centrato o alla sua versione corretta, che

2

R

passiamo a descrivere.

Il coefficiente di determinazione corretto

Se si dividono per le due devianze nella (1.5.3) si ottiene

n n n

1 1

∑ ∑

− 2 2

( y y

ˆ ) u

ˆ

t t t

n n (1.5.9)

= =

= − = −

2 t 1 t 1

R 1 1

n n

∑ ∑

1 1

− −

2 2

( y y ) ( y y )

t t

n n

= =

t 1 t 1

che mostra chiaramente come l’ misuri la proporzione di varianza totale spiegata

2

R

dal modello di regressione. Tuttavia nella (1.5.9) si utilizzano gli stimatori costituiti

dalle varianze campionarie, che sono distorti. Se a tali stimatori distorti si

sostituiscono quelli non distorti si ottiene un coefficiente di determinazione

leggermente diverso dall’(1.5.9), detto rispetto ai gradi di libertà,

corretto 11

n

1 ∑ 2

u

ˆ

− t

n k (1.5.10)

=

= −

2 t 1

R 1

c n

1 − 2

( y y )

− t

n 1 =

t 1

Siamo così passati dal rapporto fra somme di quadrati (1.5.8) e dal rapporto fra

devianze (1.5.7) al rapporto fra varianze (1.5.10), nell’ultimo dei quali si tiene

esplicito conto del numero di variabili esplicative .

k

Se, dato un modello, gli si aggiunge una variabile esplicativa qualsiasi,

assolutamente non significativa, cioè non legata da alcuna effettiva relazione con la

variabile dipendente, l’ comunque aumenterà. Al limite, inserendo nel modello

2

R n

variabili esplicative (cioè tante quante sono le osservazioni disponibili) si otterrà un

In lingua inglese: goodness of fit.

10 Il coefficiente corretto è stato introdotto da Theil [1961].

11 1-20

Modulo II – Minimi quadrati

adattamento perfetto ai dati ( , in conseguenza del fatto che una nuvola di

2

R = 1) n

punti può essere interpolata esattamente da un iperpiano a dimensioni. L’ 2

n R c

invece diminuisce, poiché a parità di devianze è < come si può ricavare

2

2 R

R c

comparando la (1.5.9) con la (1.5.10). In questa maniera il confronto tra due modelli

con un diverso numero di variabili esplicative, effettuato ricercando quale dei due

possiede un coefficiente di determinazione maggiore, diventa più significativo in

quanto al modello con più grande si attribuisce uno svantaggio, funzione appunto

k

della sua maggiore dimensione. Talvo lta è indicato mediante una

2

R c

soprallineatura: .

2

R

La relazione esistente tra ed è presto trovata

2

2

R R c

− − −

n 1 1 k n 1

= − − = + (1.5.11)

2 2 2

R 1 (

1 R ) R

− − −

c n k n k n k

La (1.5.11) mostra che quando si avvicina molto a il coefficiente corretto 2

k n R

diventa negativo tendendo a meno infinito.

Si noti che nonostante questa penalizzazione possa apparire molto severa, in

realtà è possibile dimostrare che anche il coefficiente può aumentare (anche se

2

R c

non aumenta necessariamente) quando al modello vengono aggiunte variabili

irrilevanti. Di conseguenza le misure di bontà dell’interpolazione, anche se

12

costituiscono un utile indicatore sintetico della bontà complessiva del modello, non

possono essere considerate come unica guida nella strategia di specificazione

econometrica.

Il coefficiente di determinazione per il modello con le variabili scarto

Il coefficiente di determinazione definito dalla (1.5.3), o, in modo equivalente, dalla

(1.5.7), può essere calcolato anche attraverso le variabili espresse come scarti dai

rispettivi valori medi. Se nell’equazione (1.3.4) si pone , per cui il coefficiente

x 1

kt

β diventa l’intercetta della nostra funzione di regressione, e si stimano i parametri

k

coi minimi quadrati, sommando i due membri dell’equazione per tutti i tempi e

dividendo per si ottiene

n n

1 ∑ (1.5.12)

= β + β + + β + β +

ˆ ˆ ˆ ˆ ˆ

y x x ... x u

− −

1 1 2 2 k 1 k 1 k t

n =

t 1

β̂

dove è la stima del termine noto e le soprallineature denotano i valori medi

k

campionari delle variabili; considerando poi che per la (1.4.18) la somma dei residui

Una descrizione più rigorosa di questo fenomeno verrà fornita nel paragrafo 2.3 dopo aver

12

introdotto i test di significatività dei coefficienti. 1-21

Modulo II – Minimi quadrati

stimati è nulla, facendo la differenza tra la (1.3.4) stimata e la (1.5.12) si ottiene il

modello degli scarti rispetto ai valori medi (1.5.13)

− = β − + β − + + β − +

ˆ ˆ ˆ ˆ

y y ( x x ) ( x x ) ... ( x x ) u

− − −

t 1 1 t 1 2 2 t 2 k 1 k 1

t k 1 t

nella quale il termine noto non è più presente. Il coefficiente di determinazione per

la (1.5.13) è allora calcolato semplicemente applicando la (1.5.7) all’equazione

(1.5.13): questo può essere effettuato partizionando la matrice originale in modo

X

da isolare l’ultima colonna formata da tutti uno ed indicata con 13

i

| ]

X X i

=[ 1 β = β β

considerando il nuovo vettore dei parametri [β … ]’, ed effettuando le

1 1 2 k

seguenti sostituzioni, derivate dall’uso del modello (1.5.12):

al posto di si considera

− = −

y y y y i y / n

t t

t − = − ′ =

y y i

y y i

i y / n Cy

y y y′ Cy

− = − =

x i

x x i

i x / n Cx

x i i i i i i

CX

X 1

′ X C

X 1

0

y

dove si è utilizzata la matrice di centraggio definita dalla XIX-(1.10.5) come

C

1 ′

= −

C I i

i

n n

e le sue proprietà di simmetria e idempotenza dimostrate dalla (XIX-1.10.6). Si ha

allora ′

β̂ X Cy

= (1.5.14)

2 1 1

R ′

y Cy ′

β = β β β

ˆ ˆ ˆ ˆ

dove si è ancora fatto uso dell’idempotenza di e .

[ ... ]

C −

1 1 2 k 1

1.13 - Dalle (1.5.12) e (1.5.13) si trae che i residui stimati

Osservazione

con il modello degli scarti sono uguali a quelli stimati con il modello

(1.3.4) quando quest’ultimo contenga l’intercetta. In altre parole,

l’introduzione dell’intercetta vale a depurare i residui del modello

La barra verticale nella (1.5.13) indica semplicemente che la è partizionata in e

13 X X i.

1 1-22

Modulo II – Minimi quadrati

dall’influsso delle medie delle variabili, qualora queste siano diverse da

zero (come sono, invece, per costruzione se il modello è costruito con

variabili scarto). D’altra parte, abbiamo visto che la presenza

dell’intercetta assicura il risultato (1.4.18). Segue che anche le devianza

residue dei due modelli sono le stesse.

Per l’osservazione 1.13 il coefficiente di determinazione centrato è anche

esprimibile tramite l’espressione seguente ′

u

ˆ u

ˆ

= −

2

R 1 ′

y Cy

dalla quale è possibile derivare il corrispondente coefficiente di determinazione

centrato corretto per mezzo della correzione rispetto ai gradi di libertà analoga a

quella effettuata nella (1.5.10).

Scarsa significatività economica si ha quando nell’equazione di regressione

(1.3.4) sussiste una forte tendenza sia nella endogena che in una o più variabili

esplicative. In questo caso un alto può significare semplicemente un buon

2

R

adattamento della tendenza di a quella delle esplicative, e non necessariamente

y

t

una buona capacità esplicativa della componente sistematica del modello a

prescindere dall’andamento tendenziale. 1-23

Modulo II – Minimi quadrati

1.6 I residui come enti aleatori: le ipotesi deboli

Finora i residui sono stati considerati come scarti tra i valori osservati e quelli

u t

teorici di una variabile , per ogni tempo : in sostanza, come entità

y t

t

deterministiche senza collegamenti intertemporali. È ora opportuno estendere

questa connotazione, supponendo che tali residui costituiscano realizzazioni di

~

variabili aleatorie , 1, 2, …, dotate di proprietà stocastiche (ipotesi) che

14

u t = n

t

mutano a seconda del grado di approfondimento con cui si vuole studiare il modello

(1.3.4) oppure della diversa conformazione dei dati campionari.

Supponendo sempre che l’equazione (1.3.4) rimanga inalterata nel periodo

campionario, l’insieme più semplice di ipotesi stocastiche che possono essere

formulate rispetto ad essa è dato da ∀i,

valori noti

(i) x t

it ~ = ∀t

(ii) E (

u ) 0

t (1.6.1)

0 t s

~ ~ = 

E (

u u )

(iii) σ =

t s 2

 t s

La prima ipotesi indica che le variabili esplicative sono conosciute. In particolare,

x i

quindi, essa comporta che le , a differenza delle , siano misurate senza errori.

x y

it t ~ = µ ≠ ∀

La seconda ipotesi non è affatto restrittiva in quanto se fosse 0, ,

E (

u ) t

t

ci si potrebbe sempre ricondurre al caso di valor medio nullo semplicemente

µ

aggiungendo al termine noto dell’equazione (1.3.4). L’osservazione 1.13 ci ricorda

che l’introduzione dell’intercetta garantisce che i residui stimati abbiano media

campionaria nulla, proprietà che è appunto il corrispettivo campionario della

seconda delle (1.6.1).

La terza ipotesi delle (1.6.1) è, viceversa, restrittiva in quanto presuppone sia

che i residui siano non correlati tra di loro quando sono associati a tempi diversi sia

σ

che abbiano tutti la stessa varianza . Ambedue queste sottoipotesi sono

2

raramente verificate nella realtà, ma sono molto utili nell’introduzione didattica

della (1.3.4) in ambiente stocastico.

Le ipotesi (1.6.1)-(ii) e (iii) vengono talora sintetizzate dicendo che il residuo

della (1.3.4) è un dove per rumore bianco si intende appunto una

rumore bianco,

Indichiamo con una tilde una variabile aleatoria. Tale simbolo è utilizzato soltanto

14

quando la variabile è considerata in una contesto dichiaratamente stocastico (ad esempio

sotto il simbolo di valor medio In contesti più generali (ad esempio in un modello) è

E).

solitamente omesso. 1-24

Modulo II – Minimi quadrati

successione temporale di variabili aleatorie incorrelate con valor medio nullo e

varianza costante. ~ ∀i,t

Si noti anche che le prime due delle (1.6.1) implicano che sia ,

u

E( x ) = 0

t it

~ ~

poiché .

15

u u

E( x ) = x E( ) = 0

t it it t

L’ipotesi che alcune variabili aleatorie abbiano la stessa varianza è detta di

, mentre quella alternativa di varianze diverse è chiamata di

omoschedasticità 16

.

eteroschedasticità

Poiché le ipotesi (1.6.1) non presuppongono alcuna forma per la distribuzione

~

delle , sono dette nel caso contrario, che esamineremo nel prossimo

deboli;

u t

capitolo, di assunzione di una specifica distribuzione, si ipotizzeranno ipotesi forti

~

per .

u t

L’immersione del modello (1.3.4) nell’ambiente stocastico produce come

~

risultato che deve essere considerato come una variabile aleatoria. Si è detto,

y t

infatti, in precedenza, che le caratteristiche del membro a destra nell’equazione

(1.3.4) devono essere rispecchiate in quello a sinistra: se la parte di destra è

~

stocastica (a causa di ), così deve essere quella a sinistra, per cui l’equazione

u t

(1.3.4) diventa ~ ~

= β + β + + β + (1.6.2)

y x x ... x u

t 1 1 t 2 2 t k kt t ~

che indica chiaramente come la variabile endogena sia rappresentata da un

y t

modello scisso in una data dalla combinazione lineare

componente sistematica

k

∑ ~

β delle esplicative, ed in una formata dal residuo .

componente aleatoria u

x t

i it

=

i 1

La prima componente è detta sistematica in quanto rappresenta la struttura di y

t

in funzione dei parametri considerati, invariabili nel tempo in virtù dell’omogeneità

(nel senso illustrato nel paragrafo 1.2) del campione, e delle esplicative, supposte

note per la prima delle (1.6.1). La componente sistematica quindi non contiene

alcun elemento aleatorio.

Questa considerazione è importante anche perché mette in luce che le ipotesi

stocastiche (1.6.1), che per motivi didattici e storici vengono spesso esposte in

~

termini dei residui non osservabili , in effetti possono essere viste come ipotesi

u t

Si tratta di una conseguenza della proprietà di linearità dell’operatore di valor medio o

15

speranza matematica, definita dalla XXI-1.3.6

οµοιοσ, σκεδασι σ,

Dai termini greci uguale, e dispersione. Una definizione più rigorosa di

16

omoschedasticità richiede l’impiego delle distribuzioni di probabilità condizionate ed è

fornita nel par. XXI-2.4 1-25

Modulo II – Minimi quadrati

sulle variabili osservabili , considerate come realizzazioni di una variabile

y

t

~ ~

aleatoria . In particolare, dalle (1.6.1) scaturiscono le seguenti ipotesi per

y y

t t

 

( ) ∑ ∑

 

~ ~

= β + = β

E y E x u x

 

t j jt t j jt

 

j j

[ ] ( )

( ) ( ( )

)

~ ~ ~ ~

= − = = σ

2 2 2

V y E y E y E u

t t t t

[ ]

( ) ( ( )

)

( ( )

) ( )

~ ~ ~ ~ ~ ~ ~ ~

= − − = = ∀ ≠

Cov y , y E y E y y E y E u u 0 t s

t s t t s s t s ~

In altre parole, la struttura di covarianza ipotizzata per la si applica

u t

~

ugualmente alla , il che, visto che le due variabili aleatorie differiscono per una

y t

costante additiva (la parte sistematica del modello), discende immediatamente da

note proprietà della varianza. Questo risultato non ha un mero interesse teorico,

17

ma ha anche una rilevante importanza pratica perché ci permette di valutare

immediatamente, almeno in modo informale, la plausibilità delle ipotesi (1.6.1).

Retribuzioni lorde

Italia 1970-1996

250000

200000

150000

100000

50000

0

1970.1 1974.1 1978.1 1982.1 1986.1 1990.1 1994.1

Figura 1.2 Le retribuzioni lorde complessive in Italia, dati trimestrali grezzi dal 1970 al

1996 (fonte ISTAT).

Ad esempio, se la nostra variabile dipendente avesse un andamento analogo a

quello della variabile rappresentata nella figura 1.2 (le retribuzioni lorde in Italia

dal 1970 al 1996) l’ipotesi di costanza delle varianza nel tempo sarebbe poco

Una costante additiva può essere eliminata dall’operatore di varianza: ) = ),

~ ~

V( a+ V(

17 x x

dato che la traslazione determinata dall’aggiunta della costante influenza la locazione (e

quindi la media) ma non la dispersione (e quindi la varianza) della .

~

x 1-26

Modulo II – Minimi quadrati

plausibile, visto che la variabile in questione manifesta variabilità crescente col

passare del tempo. Quindi se fra le esplicative non figurano variabili caratterizzate

anch’esse da una simile variabilità crescente, questa si scaricherà sul residuo

dell’equazione, determinando la violazione delle ipotesi stocastiche deboli.

Lo stimatore dei minimi quadrati per il modello lineare semplice

Un secondo risultato dell’approccio stocastico riguarda le stime dei minimi quadrati

dei parametri che, nel caso della regressione semplice, possono essere ancora

calcolate mediante le (1.3.10) e (1.3.11) ma che se sono interpretate in termini

aleatori, in funzione delle definite dalla

y ~ ~

= β + β + (1.6.3)

y x u

t 1 2 t t

diventano 18 ( ) n ( )

1 1 1 ∑

β = − = − =

ˆ m y x x x y

− −

2 xy t t

2 2 n

m x m x =

t 1

xx xx

n ( )( )

1 1 ∑ ~

= − β + β + =

x x x u

− t 1 2 t t

2

m x n =

t 1 (1.6.4)

xx n n

( )( ) ( )

1 1 1 1

∑ ∑ ~

= − β + β + − =

x x x x x u

− −

t 1 2 t t t

2 2

m x n m x n

= =

t 1 t 1

xx xx

n ( )

1 1 ~

= β + −

x x u

2 t t

2

m x n =

t 1

xx n ( )

1 ∑ ~

β = − β = β + β + − β =

ˆ ˆ ˆ

y x x u x

1 2 1 2 t t 2

n (1.6.5)

=

t 1 ( )

n n

1 1

∑ ∑

~ ~

= β + β − β + = β + β − β +

ˆ ˆ

x x u x u

1 2 2 t 1 2 2 t

n n

= =

t 1 t 1 β β

β̂ β̂

Le e in ambito stocastico sono dunque per e , rispettivamente.

stimatori 1 2

1 2

I loro valori medi sono, in virtù delle ipotesi (stocastiche) deboli,

 

n

1 1 ∑ ~

β = β + − = β

ˆ (1.6.6)

 

E ( ) E ( x x ) u

2 2 t 2

2

 

m x n =

t 1

xx

β̂ β̂

Le e seguenti sono variabili aleatorie e, seguendo la nostra convenzione,

18 1 2

dovrebbero essere indicate con una tilde, sovrapposta al cappello. Per semplicità di

β̂ β̂

notazione omettiamo la tilde, per cui e possono indicare, in funzione del contesto, sia

1 2

le stime (1.3.10) e (1.3.11) sia le variabili aleatorie (stimatori) (1.6.4) e (1.6.5). Così nel

β̂

seguito per quanto riguarda le generiche .

j 1-27

Modulo II – Minimi quadrati

n

1 ∑ ~

β = β + β − β + = β

ˆ ˆ (1.6.7)

E ( ) x

E ( ) E (

u )

1 1 2 2 1

n =

t 1

β̂ β̂

per cui gli stimatori e sono non distorti. 19

1 2

Calcoliamo ora le loro varianze: 2

 

n

1 1 ∑ ~

β = β − β = − =

ˆ ˆ 2  

Var ( ) E [( ) ] E ( x x ) u

2 2 2 t t

2

 

m x n =

t 1

xx (1.6.8)

n

σ −

2 2

( x x ) σ

t 2 1

= =

=

t 1 − −

2 2 2 2

n (

m x ) n m x

xx xx

avendo utilizzato la relazione

n

∑ − = −

2 2

( x x ) n ( m x )

t xx

=

t 1

Inoltre  

2

 

 

n

1 ∑ ~

β = β − β = β − β + =

ˆ ˆ ˆ

2  

Var ( ) E [( ) ] E x ( ) u

 

1 1 1 2 2 t

   

n =

t 1

 

n n

1 2

∑ ∑

~ ~

= β − β + + β − β =

ˆ ˆ

2 2 2

 

E x ( ) ( u ) x ( ) u

2 2 t 2 2 t (1.6.9)

2

 

n n

= =

t 1 t 1

n n

1 2 x

∑ ∑

~ ~

= β − β + + β − β × =

ˆ ˆ

2 2 2

x E [( ) ] E [( u ) ] E ( ) E ( u )

2 2 t 2 2 t

2

n n

= =

t 1 t 1

 

σ σ σ

2 2 2 2 2

x x

= + = +

 

1

− −

2 2

 

n n n

m x m x

xx xx

dove nel quarto passaggio si è utilizzata la non correlazione dei due fattori

n

∑ ~

β − β e . Infatti la loro covarianza è nulla

ˆ

( ) u t

2 2 =

t 1 ~ ~

θ θ θ.

Uno stimatore del parametro è detto se = La non distorsione è

non distorto

19 E (θ

)

una buona proprietà di uno stimatore se, come avviene di solito, la distribuzione di

~

θ

probabilità di è concentrata intorno al suo valor medio. In questo caso le stime,

θ

realizzazioni dello stimatore, hanno alta probabilità di trovarsi vicino al valore del

parametro. 1-28

Modulo II – Minimi quadrati

 

 

 

n n n n

1 1

∑ ∑ ∑ ∑

~ ~ ~ ~

β − β = β − β ⋅ = −

ˆ ˆ  

  =

Cov

[( ), u ] E

[( ) u ] E ( x x )

u u

2 2 t 2 2 t t t t

 

2

 

m x n 

= = = =

t 1 t 1 t 1 t 1

xx

 

 

    

n n n

1 1 ∑ ∑ ∑

~ ~ ~

  −  

 

 

= =

E x u u x

E u

− t t t t

 

2    

 

m x n = = =

t 1 t 1 t 1

xx  

n

1 1 ∑

σ − σ

2 2

 

= x n x

− t

2  

m x n =

t 1

xx ~

dove nel quarto passaggio è stata utilizzata la non correlazione delle per indici

u t

diversi.

Lo stimatore dei minimi quadrati per il modello lineare multiplo

Se le equazioni (1.3.4) sono sintetizzate nella forma matriciale (1.4.4) è conveniente

riscrivere le ipotesi (1.6.1) nel modo seguente

 X matrice di costanti

 ~ =

 (1.6.10)

E (

u ) 0

 ~ ~ ~

= ′ = σ 2

 Cov ( u ) E ( u u ) I n

~ ~ ~ ~ ~ ~

= ′

con e dove la indica la (o

matrice di dispersione di

u [

u u ... u ] E (

u u )

1 2 n ~

o del vettore di residui , essendo così

covarianza, di varianze e covarianze) u

formata ~ ~ ~ ~ ~

   

σ

2 2

E (

u ) E (

u u ) ... E (

u u ) 0 ... 0

1 1 2 1 n

   

~ ~ ~ ~ ~ σ

2 2

 

E ( u u ) E ( u ) ... E ( u u ) 0 ... 0

 

~ ~ ′ = = = σ (1.6.11)

2

2 1 2 2 n

E (

u u ) I

    n

... ... ... ... ... ... ... ...

   

~ ~ ~ ~ ~ σ

   

2 2

   

E (

u u ) E ( u u ) ... E (

u ) 0 0 ...

n 1 n 2 n

1.14 - Gli elementi della diagonale principale della matrice

Osservazione

di dispersione costituiscono le varianze delle variabili aleatorie del

~

vettore ; gli elementi fuori di tale diagonale ne formano le covarianze.

u

La scrittura delle varianze e delle covarianze nella (1.6.11) tiene conto

~

del fatto che i valori medi delle sono nulli.

u t

1.15 - La matrice di dispersione (1.6.11) può essere

Osservazione

indicata mediante il suo elemento generico

{ ( )

}

~ ~ (1.6.12)

E u u

i j 1-29

Modulo II – Minimi quadrati

( ) ( )

~ ~ ~ ~

=

e poiché , essa è simmetrica. Questa proprietà di

E u u E u u

i j j i

simmetria vale per qualsiasi matrice di dispersione (si veda la XXI-

2.3.6). ~ ~

Le prime due ipotesi implicano che sia . In altre parole, le

u u

E(X′ ) = X′E( ) = 0

ipotesi deboli implicano che le colonne della matrice siano ortogonali rispetto ai

20

X

~

residui . Si noti che questa condizione equivale di fatto a imporre sui momenti

u

della popolazione una condizione che abbiamo già visto essere verificata dai

momenti campionari (si veda la (1.4.15)).

In termini stocastici il modello matriciale (1.4.4) è scritto

~ ~

= β + (1.6.13)

y X u

~ ~ ~ ~

=

dove , con valor medio vettoriale

y [ y y ... y ]

1 2 n ~ = β (1.6.14)

E ( y ) X

e matrice di dispersione

~ ~ ~

= − β = = σ (1.6.15)

2

Cov ( y ) Cov ( y X ) Cov (

u ) I n

β̂

La stima dei minimi quadrati può ancora essere calcolata mediante la

(1.4.10) ma se è interpretata in termini aleatori, in funzione della (1.6.13), diventa

~ ~

− −

′ ′ ′ ′

β = = β + =

ˆ 1 1

( X X ) X y ( X X ) X ( X u ) (1.6.16)

′ ′ ′ ′ ′ ′

~ ~

− − −

= β + = β +

1 1 1

(

X X ) X X ( X X

) X u ( X X ) X u β.

e rappresenta quindi uno (quello dei minimi quadrati) di

stimatore

1.16 - Evidenziamo che la validità dello stimatore (1.6.16)

Osservazione

è subordinata all’assunzione congiunta delle ipotesi deboli (1.6.10) e

delle altre (1.4.11).

1.17 - Rimarchiamo la differenza (di interpretazione) tra la

Osservazione

β̂

stima (1.4.10), funzione delle variabili osservate ( , ), e lo stimatore

y X

~

β̂ (1.6.16), funzione del vettore aleatorio oltre che delle .

X

y β̂

Dalla (1.6.16) si ricava il valor medio vettoriale dello stimatore 21 (1.6.17)

~ ~

− −

β = β + ′ ′ = β + ′ ′ = β

ˆ 1 1

E ( ) E [( X X

) X u ] ( X X ) X E

[ u ]

che indica che lo stimatore dei minimi quadrati è (o

non distorto corretto).

Ci riferiamo qui alla nozione di ortogonalità in senso stocastico definita dalla XXI-

20

(2.3.11).

I passaggi seguenti sfruttano la proprietà di linearità dell’operatore discussa nel

E

21

paragrafo XXI-2.3 (si veda la XXI-(2.3.13)). 1-30

Modulo II – Minimi quadrati β̂

Sempre tramite la (1.6.16) si calcola facilmente la matrice di dispersione di

′ ′ ′ ′ ′

~ ~

− −

β = β − β β − β = =

ˆ ˆ ˆ 1 1

Cov ( ) E [( )( ) ] E

[( X X ) X u u X ( X X ) ] (1.6.18)

′ ′ ′ ′

− − −

= σ = σ

1 2 1 2 1

( X X

) X ( I ) X ( X X ) ( X X )

n

dove si è impiegata la terza delle ipotesi (1.6.10).

1.18 - La matrice di dispersione (1.6.18), tenendo anche

Osservazione

conto dell’Osservazione 1.14 è formata nel modo seguente

β = β − β β − β =

ˆ ˆ ˆ

Cov ( ) E [( )( ) ]

 

β β β β β

ˆ ˆ ˆ ˆ ˆ

Var ( ) Cov ( , ) ... Cov ( , )

 

1 1 2 1 k

β β β β β

ˆ ˆ ˆ ˆ ˆ

 

Cov ( , ) Var ( ) ... Cov ( , )

= =

2 1 2 2 k

 

... ... ... ...

 

β β β β

ˆ ˆ ˆ ˆ ˆ

 

 

Cov ( , ) Cov ( , ) ... Var (

b )

k 1 k 2 k

 

β − β β − β β − β β − β β − β

ˆ ˆ ˆ ˆ ˆ

2

E [( ) ] E

[( )( )] ... E [( )( )]

 

1 1 1 1 2 2 1 1 k k

β − β β − β β − β β − β β − β

ˆ ˆ ˆ ˆ ˆ

2

 

E [( )( )] E

[( ) ] ... E [( )( )]

= 2 2 1 1 2 2 2 2 k k

 

... ... ... ...

 

β − β β − β β − β β − β β − β

ˆ ˆ ˆ ˆ ˆ

 

2

 

E

[( )( )] E [( )( )] ... E [( ) ]

k k 1 1 k k 2 2 k k

dove si è sfruttato il risultato (1.6.17) per la notazione dei valori medi

β

ˆ .

E ( )

i 1-31

Modulo II – Minimi quadrati

1.7 La stima della varianza dei residui

Dalla (1.6.18) si nota che se la varianza dei residui è conosciuta, lo è anche la

β̂ σ

matrice di dispersione di ; altrimenti deve essere stimata tramite uno

2

stimatore che generalmente ha una delle due forme

n

1 ∑ ′

σ = =

2 2 (1.7.1)

ˆ ˆ ˆ ˆ

u u u / n

t

n =

t 1

n

1 ∑ ′

σ = = −

2 2 (1.7.2)

ˆ ˆ ˆ

u u u /( n k )

− t

n k =

t 1

che discendono in maniera “naturale” dalla definizione di varianza. Il primo di

questi stimatori costituisce la ed è il secondo non lo

varianza campionaria distorto;

è, come si dimostra nel seguente teorema 1.1 che utilizza alcune proprietà della

di una matrice quadrata.

traccia

La radice quadrata della stima della varianza dei residui (1.7.2) è chiamata

’equazione (o .

errore standard dell della regressione)

22

Per la piena comprensione delle (1.7.1) e (1.7.2) considerate come stimatori è

necessario considerare che anche il vettore è aleatorio quando è espresso in

β̂

funzione dello stimatore tramite la (1.4.13). Dunque anche le posseggono la

û t

doppia fisionomia di stime e di stimatori dei residui.

La distorsione della varianza campionaria

Vale, dunque, il seguente

1.1 - (1.7.2)

Teorema Lo stimatore è non distorto.

Infatti, in virtù delle (1.4.13) e (1.4.10) si ha

′ ′ ′ ′

− −

= − β = − = β + − β + =

ˆ 1 1

u

ˆ y X y X ( X X ) X y X u X ( X X ) X ( X u ) (1.7.3)

′ ′ ′ ′

− −

= β + − β − = − =

1 1

X u X X

( X X

) X u [

I X ( X X ) X ]

u Mu

n

dove si è posto = − ′ ′

( ) (1.7.4)

-1

M I X X X X

n

matrice quadrata di ordine . La è simmetrica, come il lettore verifica

n M =

facilmente, e idempotente, cioè tale che ; infatti

MM M

In inglese: (SEE) oppure

Standard Error of the Equation Standard Error of the

22 (SER).

Regression 1-32

Modulo II – Minimi quadrati

=[ − ′ ′][ − ′ ′]=

( ) ( )

- 1 -1

MM I X X X X I X X X X

n n (1.7.5)

= − ′ ′− ′ ′+ ′ ′ ′ ′ =

( ) ( ) ( ) ( )

-1 -1 -1 - 1

I X X X X X X X X X X X X X X X X

n

= − ′ ′=

( ) -1

I X X X X M

n

(si veda anche il paragrafo XIX -1.11)

Allora, adoperando questa proprietà della e la (1.7.3) si ha

M

′ˆ ′ ′ ′ ′

= = = (1.7.6)

ˆ

u u u M Mu u MMu u Mu

per cui, sfruttando i risultati (1.10.1)-(1.10.3) del modulo XIX,

[ ] [ ]

( ) ( )

′ ′ ′ ′

~ ~ ~ ~ ~ ~

= = = = σ =

2

ˆ ˆ

E (

u u ) E (

u M

u ) E tr u M

u E tr M u u tr

M

{ }

′ ′ ′ ′

− −

= σ − = σ − = (1.7.7)

2 1 2 1

tr

[ I X ( X X ) X ] tr

I tr

[ X ( X X ) X ]

n n

{ }

′ ′

= σ − = σ − = σ −

2 1 2 2

n tr

[( X X

) X X

] ( n tr

I ) ( n k )

k

essendo una matrice quadrata di ordine . Dunque

X X k

σ = − = σ

2 2

E ( ) E (

u

ˆ u

ˆ ) /( n k )

e lo stimatore (1.7.2) è non distorto.

Il denominatore nella (1.7.2) definisce il del

numero dei gradi di libertà

23

n k

modello lineare (1.3.4) . 1.19 – È utile studiare la dimostrazione del teorema 1.1 in

Osservazione

primo luogo perché costituisce una semplice esercitazione di calcolo

matriciale; inoltre è un esempio di come in molte dimostrazioni di

statistica matematica si usi la tecnica di eseguire dapprima dei passaggi

matriciali [la (1.7.3)] e di effettuare poi operazioni stocastiche che

utilizzano le espressioni trovate [la (1.7.7)]. Questa stessa tecnica è

β̂

stata usata più sopra per mostrare la correttezza dello stimatore . Nel

teorema 1.1 si definisce inoltre la matrice e si sfrutta l’operatore

M

traccia, la proprietà di simmetria e quella definita dalla (1.7.5),

chiamata sono definizioni e proprietà che ritroveremo di

idempotenza;

frequente nel seguito. Si noti, infine che dato dalla (1.7.3) è una

di , tramite .

trasformazione lineare u M

Per mezzo del teorema 1.1 si calcola facilmente la distorsione della varianza

campionaria (1.7.1); infatti

In lingua inglese: (DF).

number of Degrees of Freedom

23 1-33

Modulo II – Minimi quadrati

 

n k k

σ = σ − σ = σ − σ = σ

 

2 2 2 2 2 2 (1.7.8)

ˆ ˆ

Dist ( ) E ( ) E  

n n

→ ∞

che tende a zero per ; lo stimatore varianza campionaria è detto allora

n e non si differenzia molto da quello non distorto (1.7.2)

asintoticamente non distorto

se è grande rispetto a .

n k β̂

Come già accennato, una stima della matrice di dispersione (1.6.18) di è

σ̂ σ

σ

ottenuta sostituendo al una sua stima, ad esempio o date dalle (1.7.1) e

2 2

2

(1.7.2), dalle quali si nota che le stime delle varianze e delle covarianze dei

parametri di regressione sono, , tanto meno disperse quanto più

ceteris paribus

grandi sono i valori o . Di fondamentale importanza, quindi, per avere stime

-

n n k

precise (con varianze piccole) e poco correlate tra loro (con covarianze piccole) è che

o la differenza siano sufficientemente grandi.

-

n n k

Questa indicazione, tuttavia, è di carattere statistico. Da un punto di vista

economico, invece, l’ingrandimento di , cioè dell’ampiezza del campione, può

n

comportare la violazione del principio di omogeneità della struttura dell’economia

del periodo campionario, necessaria affinché la componente sistematica del modello

(1.6.10) possa rappresentare tale struttura in modo adeguato. Per determinare (o

n

) è allora necessario trovare un compromesso tra un valore abbastanza grande

-

n k β

per avere stime delle varianze e covarianze dei parametri precise, ed uno

i

sufficientemente piccolo in modo tale che la struttura dell’economia non si

modifichi troppo nel periodo campionario. 1-34

Modulo II – Minimi quadrati

1.8 Il teorema di Gauss-Markov e gli stimatori BLU

Si è detto nel paragrafo 1.6 che la non distorsione è una buona proprietà per gli

β̂

stimatori; tra quelli lineari rispetto alle lo stimatore dei minimi quadrati non

y

t

soltanto gode di questa proprietà ma possiede variabilità minima nel senso del

teorema di Gauss-Markov che enunciamo e dimostriamo nel prosieguo, facendo uso

dell’espressione matriciale della varianza di una combinazione lineare con pesi

~ ~ ~ ~

=

= [ … ]′ delle variabili raccolte nel vettore aleatorio

c c c c z [ z z ... z ]

1 2 k 1 2 k

 

n k k

∑ ∑ ∑

′ ′

~ ~ ~ ~

=   = = (1.8.1)

Var (

c z ) Var c z c c Cov ( z z ) c Cov ( z )

c

i i i j i j

 

= = =

i 1 i 1 j 1

La (1.8.1) discende dal teorema sui momenti di una combinazione lineare di

variabili aleatorie enunciato dalla XXI-(2.3.13).

Vale dunque il ~

1.2 (di -

Teorema Gauss-Markov) Nella classe degli stimatori lineari rispetto alle y t

~

β̂ β

e non distorti, se è lo stimatore dei minimi quadrati definito dalla (1.6.16) e è

un qualsiasi altro stimatore, si ha ~

β ≤ ′ β (1.8.2)

ˆ

Var (

c ) Var (

c )

= [c … ]′

dove c c è un qualsiasi vettore di costanti reali non tutte nulle.

c 1 2 k

~ ~

~

β β

Poiché è uno stimatore lineare rispetto alle la sua combinazione lineare

y c′

t

~ =

può essere espressa come funzione lineare delle mediante i pesi [ … ]′

y h h h h

1 2 n

t

~ ~

′β = ′ (1.8.3)

c h y

per cui si ha, sfruttando la (1.6.14), ~

~ ~

′ β = ′ = ′ = ′ β = ′ β (1.8.4)

h X h E ( y ) E (

h y ) E ( c ) c ~

β

dove nell’ultimo passaggio è stata sfruttata la non distorsione di . Segue che

′ ′

= , per cui, in virtù delle (1.8.2), (1.6.18) e (1.8.4)

h X c − −

β = ′ β = σ ′ ′ = σ ′ ′ ′

ˆ ˆ 2 1 2 1

Var (

c ) c Cov ( ) c c ( X X

) c h X ( X X ) X h

D’altro canto dalla (1.6.15), ed ancora considerando la (1.8.2), si ha

~ ~ ~

′ β = ′ = ′ = σ ′

2

Var (

c ) Var ( h y ) h Cov ( y )

h h h

per cui la tesi è dimostrata se si dimostra che

~ (1.8.5)

′ ′ ′ ′ ′ ′

≤ β − β = σ − =

ˆ 2 1

0 Var ( c ) Var (

c ) [

h h h X ( X X ) X h ]

′ ′ ′ ′

= σ − = σ

2 1 2

h [

I X

( X X

) X ]

h h Mh

n 1-35

Modulo II – Minimi quadrati

dove è la matrice quadrata (1.7.4). Ma la matrice , essendo simmetrica e

M M

idempotente, è semidefinita positiva per il teorema XIX-1.12 e quindi vale la

σ

(1.8.5), essendo sempre non negativo.

2

Gli stimatori a varianza minima nel senso del teorema di Gauss-Markov sono

detti sinteticamente essi sono chiamati BLU, dalle iniziali dei termini

ottimi;

inglesi (ottimi), (lineari), (non distorti).

Best Linear Unbiased

L’uso della stima dei minimi quadrati è stato in precedenza giustificato sulla

base dell’interpretazione del relativo criterio, fornita nel paragrafo 1.2. Da un

punto di vista stocastico, l’uso dello stimatore (e quindi della stima) dei minimi

quadrati è motivato proprio dal fatto di essere BLU.

1.20 Il teorema di Gauss-Markov può essere dimostrato

Osservazione -

anche sotto ipotesi meno restrittive di quelle sopra utilizzate, in altre

parole le (1.4.8) e (1.6.10). Ad esempio, se si suppone che il rango di X

sia inferiore a non esiste lo stimatore unico (1.6.16) dei minimi

k

quadrati, ma il teorema di Gauss-Markov può ancora essere dimostrato

in virtù delle sole equazioni normali (1.4.8) che, ovviamente, continuano

a sussistere. 1-36


PAGINE

53

PESO

204.68 KB

PUBBLICATO

+1 anno fa


DESCRIZIONE APPUNTO

Appunti di Econometria per l'esame del professor Carlucci sui minimi quadrati. Gli argomenti trattati sono i seguenti: il criterio dei minimi quadrati, i minimi quadrati nel modello lineare semplice, i minimi quadrati nel modello lineare multiplo, la scomposizione della devianza ed il coefficiente di determinazione, i residui come enti aleatori, la stima della varianza dei residui, il teorema di Gauss-Markov.


DETTAGLI
Esame: Econometria
Corso di laurea: Corso di laurea in economia
SSD:
A.A.: 2013-2014

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher valeria0186 di informazioni apprese con la frequenza delle lezioni di Econometria e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università La Sapienza - Uniroma1 o del prof Carlucci Francesco.

Acquista con carta o conto PayPal

Scarica il file tutte le volte che vuoi

Paga con un conto PayPal per usufruire della garanzia Soddisfatto o rimborsato

Recensioni
Ti è piaciuto questo appunto? Valutalo!

Altri appunti di Econometria

Modelli autoregressivi vettoriali
Dispensa
VAR di cointegrazione
Dispensa
Inferenza statistica
Dispensa
Identificazione e VAR strutturali
Dispensa