Che materia stai cercando?

Econometria, prof. Bacchiocchi

Riassunto di "Econometria", prof. Bacchiocchi, A.A. 2015/2016. Unimi

Libro consigliato: "Introduzione all'econometria", Pearson (Stock, Watson)

Programma:
- Domande economiche e dati economici
- Richiami di probabilità (nozioni di base)
- Richiami di statistica
- Regressione lineare con un singolo regressore
- Regressione lineare con regressori multipli
-... Vedi di più

Esame di Econometria docente Prof. E. Bacchiocchi

Anteprima

ESTRATTO DOCUMENTO

distribuzione condizionata di ui diventa più dispersa al crescere di x, gli errori sono

eteroschedastici. Ad es., nel caso della differenza tra le retribuzioni dei laureati maschi

e femmine, la varianza dell’errore dipende dal regressore MALEi, dunque non è la

stessa per gli uomini e per le donne, in questo caso l’errore è eteroschedastico.

Implicazioni matematiche dell’omoschedasticità

Gli stimatori OLS rimangono non distorti e asintoticamente normali

Indipendentemente dal fatto che gli errori di regressione siano eteroschedastici o

omoschedastici, le tre assunzioni dei minimi quadrati devono essere valide e lo

stimatore OLS rimane corretto, consistente e asintoticamente normale (ha una

distribuzione campionaria normale in grandi campioni).

Efficienza dello stimatore OLS quando gli errori sono omoschedastici

Se valgono le assunzioni dei minimi quadrati e, in aggiunta, gli errori sono

omoschedastici, allora gli OLS sono efficienti tra tutti gli stimatori che sono lineari in

Y1,…,Yn. Questo risultato è noto come teorema di Gauss-Markov.

Formula della varianza in caso di omoschedasticità

Se l’errore è omo, allora le formule per le varianze degli OLS si semplificano. Gli

errori standard in questo caso sono detti errori standard per l’omo pura o errori

standard classici. Nel caso in cui, sotto omo, X sia una dummy, lo stimatore della

varianza di B1c è la varianza aggregata per la differenza tra le medie. Se gli errori

sono etero e si usa, erroneamente, il SE classico:

- La statistica t classica non ha una distribuzione Z, neanche in grandi campioni.

- Un intervallo di confidenza al 95% non contiene il vero valore del coefficiente il

95% delle volte, neanche in grandi campioni.

Poiché l’omo è un caso speciale dell’etero, i SE robusti all’etero producono inferenze

statistiche valide in entrambi i casi.

Che cosa significa tutto ciò in pratica?

E’ più realistica l’eteroschedasticità o l’omoschedasticità?

Ci vuole una certa familiarità con il caso da esaminare. Nel caso del differenziale di

genere nelle retribuzioni, la distribuzione delle retribuzioni tra le donne è più

concentrata rispetto a quella degli uomini, quindi la varianza dell’errore per le donne è

inferiore a quella per gli uomini. In generale, la teoria economica raramente offre

ragioni per credere che gli errori siano omo. E’ quindi prudente assumere che

essi possano essere etero, a meno che vi siano motivi convincenti per credere

altrimenti.

Implicazioni pratiche

La via più semplice è quella di usare sempre gli errori standard robusti

all’eteroschedasticità. Per ragioni storiche, molti pacchetti statistici usano i SE

classici come procedura normale e lasciano che sia l’utente a specificare la scelta dei

SE robusti. Tutti gli esempi empirici riportati in questo libro impiegano SE robusti, a

meno che non sia diversamente specificato.

Le condizioni di Gauss-Markov

Le assunzioni dei minimi quadrati + l’omo degli errori, implicano le condizioni di

Gauss-Markov. Il suo teorema afferma che, se valgono le condizioni, allora lo stimatore

OLS è il migliore (il più efficiente) stimatore lineare condizionatamente non distorto

(BLUE). (Condizionatamente non distorto -> legge delle aspettative iterate -> non

distorto). Le tre condizioni di Gauss-Markov sono: i disturbi hanno media nulla,

sono incorrelati e omoschedastici.

1) E(ui|Xi,…,Xn)=0. La media dei disturbi è nulla ed essi sono incorrelati;

2) Var(ui|Xi,…,Xn)=sigma^2u, il quale è compreso tra 0 e inf. I disturbi sono

omoschedastici;

3) E(uiuj|Xi,…,Xn)=0, i diverso da j.

Conclusioni

Il coefficiente stimato dello STR è statisticamente diverso da zero al livello di

significatività dell’1%. Il coefficiente vero della popolazione potrebbe essere nullo, e

potremmo aver stimato un coefficiente negativo semplicemente per effetto della

variabilità campionaria. Tuttavia, la probabilità che ciò accada puramente a causa di

deviazioni casuali da un campione a un altro è troppo piccola, approssimativamente lo

0,001%. Un intervallo di confidenza di livello 95% per B1 è -3,30<B1<-1,26. B1=-2,28.

La nostra analisi di regressione ha mostrato che c’è una relazione negativa tra il STR

e il TS: i distretti con classi più piccole tendono ad avere punteggi più alti. Distretti con

due studenti in meno per insegnante ottengono, in media, 4,6 punti in più. Questo

significa davvero che riducendo STR miglioreranno i risultati? C’è, in effetti,

una ragione per temere che non sia così. Assumere più insegnanti è costoso, sono

quindi i distretti scolastici più ricchi che possono permettersi l’onere di classi più

piccole. Gli studenti dei distretti più ricchi hanno però altri vantaggi rispetto ai

loro vicini più poveri, quali servizi migliori, libri più aggiornati, insegnanti meglio pagati

e una minore percentuale di studenti non madrelingua. La relazione negativa

stimata tra TS e STR potrebbe essere allora una conseguenza del fatto che

classi più grandi sono associate a molti fattori che sono, in realtà, la causa

vera dei punteggi più bassi. Questi altri fattori, o “variabili omesse”,

potrebbero far sì che l’analisi condotta finora abbia in realtà poco valore per il

provveditore. Essa potrebbe essere fuorviante: cambiando soltanto lo STR non si

modificherebbero infatti questi fattori che determinano la prestazione scolastica di uno

studente. Per affrontare questo problema, abbiamo bisogno di un metodo che ci

permetta di isolare l’effetto sul TS dello STR, tenendo costanti questi altri

fattori (legati allo STR e che influenzano TS): questo è il metodo dell’analisi di

regressione multipla.

Regressione lineare con regressori

multipli

Sebbene i distretti scolastici con classi piccole tendano ad avere un maggior punteggio

nei test, è plausibile ipotizzare che essi abbiano altre caratteristiche che li aiutano ad

avere migliori risultati nei test standardizzati. Ciò potrebbe aver prodotto risultati

fuorvianti. Fattori omessi, come le caratteristiche degli studenti, possono rendere

fuorviante, o più precisamente distorto, lo stimatore OLS dell’effetto della dimensione

delle classi sul punteggio nel test. Questo introduce una “distorsione da variabili

omesse”; un metodo che la può eliminare è la regressione multipla, la cui idea

chiave è che, se sono disponibili i dati sulle variabili omesse, possiamo aggiungere

queste variabili come regressori addizionali e perciò stimare l’effetto di STR

tenendo costanti le altre variabili (come le caratteristiche degli studenti”. Come

stimare i coefficienti di un modello di regressione lineare multipla? Dai dati, tramite gli

OLS. Molti aspetti della regressione multipla ricalcano quelli della regressione con un

singolo coefficiente.

Distorsione da variabili omesse

Focalizzando l’attenzione su STR, l’analisi empirica svolta finora ha ignorato alcune

determinanti potenzialmente importanti del TS raccogliendo tutta la loro influenza in

ui. Una di queste, a causa dell’ampia popolazione di immigrati in California, è la

prevalenza nel distretto scolastico di studenti che non sono di madrelingua inglese.

Ignorando la percentuale di studenti non madrelingua inglese (=NM) nel

distretto, l’OLS della pendenza della regressione del TS potrebbe essere

distorto; in altre parole, la media della distribuzione campionaria dell’OLS potrebbe

non essere uguale all’effetto vero di una variazione unitaria nel STR sul TS. Se i

distretti con classi grandi avessero un NM alto, allora la regressione OLS del TS sullo

STR potrebbe erroneamente trovare una correlazione e produrre un coefficiente

stimato elevato (in valore assoluto), quando il reale effetto causale della riduzione

dello STR sul TS è piccolo o nullo. Se il vero coefficiente fosse piccolo, la speranza del

provveditore di migliorare il TS assumendo insegnanti per ridurre STR di due unità

potrebbe non concretizzarsi. Corr(STR,NM)=0,19. Se lo STR non dipendesse dallo NM,

sarebbe legittimo ignorare NM nella regressione del TS sullo STR. Tuttavia, poiché lo

STR e il NM sono correlati, è possibile che il coefficiente OLS nella regressione del TS

sullo STR rifletta tale influenza. Dunque, se il regressore (STR) è correlato con

una variabile omessa dall’analisi (NM) che determina, in parte, la variabile

dipendente (TS), lo stimatore OLS subirà una distorsione da variabile

omessa. La distorsione da variabili omesse si verifica quando valgono due

condizioni:

1) La variabile omessa è correlata con il regressore incluso;

2) La variabile omessa contribuisce a determinare la variabile

dipendente.

Per illustrare queste condizioni, consideriamo tre esempi di variabili omesse dalla

regressione del TS sullo STR.

Esempio 1: percentuale di studenti non di madrelingua inglese. Vale sia la 1°

che la 2° condizione. NM è correlata con STR e contribuisce a determinare TS.

Esempio 2: ora del test. Non vale la 1°, vale la 2°. L’ora in cui si svolge il test varia

da un distretto a un altro in maniera indipendente dalla dimensione delle classi, quindi

l’ora e STR sono incorrelate. D’altro canto, l’ora potrebbe influenzare TS. Data

l’incorrelazione tra STR e l’ora, STR non cattura incorrettamente l’effetto “ora del

giorno”. Perciò, omettere l’ora non dà luogo a distorsione da variabili omesse.

Esempio 3: area di parcheggio auto per studente (P). Vale la 1°, non vale la 2°.

Le scuole con classi più piccole (cioè che, a parità di numero totale di studenti in ogni

scuola, hanno più classi e quindi più insegnanti) probabilmente hanno un P più alto,

soddisfacendo così la 1° condizione. Tuttavia, P non ha un effetto diretto su TS, e

quindi non è soddisfatta la 2° condizione, dunque omettere P dall’analisi non induce

distorsione da variabili omesse.

Distorsione da variabili omesse e prima ipotesi dei minimi quadrati

La distorsione da variabili omesse è dovuta al venir meno della prima ipotesi

dei minimi quadrati E(ui|Xi)=0. Si ricordi che ui rappresenta tutti gli altri

fattori, oltre a Xi, che contribuiscono a determinare Yi. Se uno di questi è

correlato con Xi, anche ui (che contiene tale fattore) è correlato con Xi e

dunque la media di ui condizionata a Xi è non nulla. Questa correlazione perciò viola la

prima ipotesi dei minimi quadrati, e la conseguenza è grave: lo stimatore OLS è

distorto. Questa distorsione non svanisce neanche in grandi campioni, e quindi lo

stimatore OLS, oltre che essere distorto, è anche inconsistente. La sua distorsione è

rappresentata da ro(sigmau, sigmaX). In pratica, l’entità di questa distorsione dipende

positivamente dalla correlazione tra X e u: più X e u sono correlati, più l’OLS è

distorto. Il segno della distorsione di B1c dipende dal fatto che X e u siano

positivamente o negativamente correlati. Per es., NM ha un effetto negativo su Y e

quindi su u. NM è positivamente correlata con STR. STR perciò negativamente

correlato con u e B1c è distorto dunque verso un numero negativo (il vero B1 sarebbe

più positivo). In altre parole, se NM è basso, STR è basso e TS è alto. Una ragione per

cui gli OLS suggeriscono che classi piccole contribuiscono ad aumentare TS potrebbe

essere che i distretti con classi piccole hanno un NM basso.

Affrontare la distorsione da variabili omesse dividendo i dati in gruppi

Ricordiamo che il provveditore è interessato all’effetto di STR sul TS tenendo costanti

gli altri fattori, incluso NM. Questo suggerisce che, invece di utilizzare dati per tutti i

distretti, dovremmo concentrarci sui distretti con simile NM. In questo sottogruppo di

distretti, quelli con STR più basso ottengono un TS più alto? Per un’analisi empirica, i

distretti sono divisi in 8 gruppi; prima sono ripartiti in 4 quartili della distribuzione di

NM, e poi, all’interno di ciascuna di queste 4 categorie, i distretti sono ulteriormente

suddivisi in 2 gruppi a seconda che STR sia basso o alto. La differenza totale nel

punteggio medio tra i distretti con STR basso e alto è 7,4, statisticamente diverso da 0

all’1%. Nei distretti con NM minore (<1,9%), TS è in media di 0,9 superiore nelle classi

grandi rispetto a quelle piccole. Se si tiene costante NM, la differenza di prestazioni tra

i distretti con STR alto e basso è circa 1/3 del totale stimato, pari a 7,4. [E’

esattamente 2,375 in media (non ponderata)] Questo è possibile perché i distretti con

NM alto tendono ad avere sia STR alto sia TS basso. La dimostrazione empirica che le

variabili STR e NM sono (positivamente) correlate e che ci sia distorsione da variabili

omesse nella regressione del TS su STR, è questa: distretti con NM basso sono

caratterizzati da STR bassi: il 74% dei distretti del 1° quartile ha classi piccole, mentre

solo il 42% dei distretti nell’ultimo quartile ha classi piccole. Perciò, i distretti con NM

più alto ha TS più basso e STR più alto rispetto agli altri distretti. Quest’analisi però

non fornisce ancora al provveditore una stima utile dell’effetto su TS della

variazione di STR, tenendo costante NM. Tale stima può essere ottenuta

utilizzando il metodo della regressione multipla.

Modello di regressione multipla

Estende il modello di regressione con una singola variabile includendo come regressori

una serie di variabili addizionali. Questo modello permette di stimare l’effetto su

Yi di una variazione in un regressore (X1i), tenendo costanti gli altri (X2i, X3i

ecc.). Nel problema della dimensione delle classi, il modello di regressione multipla

fornisce un modo per isolare l’effetto su TS di una variazione di STR, tenendo costante

NM.

Retta di regressione della popolazione

(6.2) E(Yi|X1i=x1, X2=x2)= Bo +B1x1 + B2x2

La (6.2) è la retta/funzione di regressione della popolazione nel modello di

regressione multipla. Bo= intercetta. B1= coefficiente associato a X1i o coefficiente.

B2= coefficiente di X2i. Le variabili dipendenti dal regressore X1i (X1i= il

regressore la cui variazione mi interessa) sono talvolta dette variabili di controllo.

L’interpretazione di B1 nella (6.2) è diversa rispetto al caso in cui X1i è il solo

regressore: nella (6.2), B1 è l’effetto/la variazione attesa su Y di una variazione

unitaria di X1, tenendo costante/controllando per/lasciando fisso X2. B1 è dunque la

derivata di Y rispetto a X1, tenendo costante X2. B1 è anche l’effetto parziale di X1 su

Y (sempre tenendo X2 fisso). I coefficienti delle altre X si interpretano in

maniera simile. Bo è il valore atteso di Yi quando X1i e X2i sono nulli, o

semplicemente è l’intercetta che determina il punto dell’asse delle ordinate per cui

passa la retta di regressione della popolazione.

Modello di regressione multipla della popolazione

La retta di regressione (6.2) è la relazione tra la Y e le X che vale in media nella

popolazione, non è esatta perché molti altri fattori influenzano la variabile

dipendente, la (6.2) deve perciò essere modificata per incorporare questi fattori

aggiuntivi. Questi altri fattori che determinano Yi oltre a X1i e X2i sono incorporati in

ui, che è la deviazione di una particolare osservazione dalla relazione che esprime la

media della popolazione. Di conseguenza, otteniamo

(6.5) Yi= Bo +B1X1i +B2X2i +ui, i=1,…,n

La (6.5) è il modello di regressione multipla della popolazione quando ci sono due

regressori X1i e X2i. Si pensi a Bo come il coefficiente di X0i, dove X0i=1 per i=1…n.

Di conseguenza, la (6.5) può essere alternativamente scritta come

(6.6) Yi= BoX0i +B1X1i +B2X2i +ui, dove X0i=1, i=1…n

La variabile X0i talvolta è detta regressore costante poiché assume lo stesso

valore, 1, per tutte le osservazioni. Allo stesso modo, l’intercetta Bo è talvolta detta

termine costante nella regressione. La (6.5) e la (6.6) sono equivalenti. La

discussione si è concentrata finora sul caso di una singola variabile aggiuntiva, X2. In

pratica, tuttavia, potrebbero esservi più fattori omessi dal modello con un singolo

regressore. Per esempio, ignorare la condizione economica degli studenti potrebbe

causare distorsione da variabili omesse, proprio come è accaduto ignorando NM.

Questo ragionamento ci induce a considerare un modello con k regressori:

(6.7) Yi= Bo X0i +B1 X1i+…Bk Xki +ui, i=1..n

L’errore ui nel modello di regressione multipla è omoschedastico se la varianza della

distribuzione di ui condizionata a X1i…Xki è costante per i=1…n, e perciò non dipende

dai valori X1i…Xki. Altrimenti, l’errore è eteroschedastico. Il modello di regressione

multipla soddisfa la promessa di svelare proprio ciò che il provveditore vuole sapere:

l’effetto della variazione di STR, tenendo costanti altri fattori. Questi fattori includono

non soltanto NM, ma altri fattori misurabili come ad esempio le condizioni economiche

degli studenti. Per dare al provveditore un aiuto pratico, dobbiamo però fornirgli le

stime dei coefficienti ignoti Bo…Bk del modello di regressione utilizzando un

campione di dati. Fortunatamente, questi coefficienti possono essere stimati tramite

gli OLS.

Stimatore OLS della regressione multipla

Come stimare i coefficienti del modello di regressione multipla tramite gli OLS?

Stimatore OLS

Questi coefficienti possono essere stimati minimizzando la somma dei quadrati

degli errori di predizione, ovvero scegliendo gli stimatori b0 e b1 così da

minimizzare somma di (Yi –bo –b1Xi)^2; gli stimatori risultanti sono gli OLS. Il metodo

degli OLS può anche essere usato per stimare i coefficienti B0…Bk nel modello di

regressione multipla. Perciò basterà minimizzare

(6.8) Somma di (Yi –b0 –b1X1i - … -bk Xki)^2

Termine in parentesi= ui. Gli OLS, come sempre, sono indicati col cappuccio sopra. La

terminologia è analoga al modello di regressione lineare con un singolo regressore. La

retta di regressione OLS è Boc +B1cX1+ …+Bkc Xk. Il valore predetto di Yi date X1i…

Xki basato sulla retta di regressione OLS è Yic= retta di regressione OLS. Il residuo OLS

è uic, cioè la differenza tra Yi e il suo predittore OLS. Gli OLS potrebbero essere

calcolati attraverso un processo per tentativi ed errori , provando cioè ripetutamente

valori diversi di b0…bk finché non siamo convinti di aver minimizzato la (6.8), cioè la

somma totale dei quadrati. E’ molto più semplice, però, usare le formule per gli OLS

derivate utilizzando il calcolo infinitesimale. Le formule per gli OLS nel modello di

regressione multipla sono simili a quelle per il modello con un singolo regressore e

sono incorporate nei moderni pacchetti statistici ed econometrici. Nel modello di

regressione multipla, le formule sono meglio espresse e discusse usando la notazione

matriciale, di cui se ne rinvia la presentazione.

Applicazione ai dati della California

La stima OLS di questa regressione multipla è

(6.12) TSc= 686 - 1,10 STR - 0,65 NM

R^2= 0,426, R^2c= 0,424, SER= 14,5

Quest’equazione riporta la retta di regressione stimata per la regressione multipla che

mette in relazione il TS con STR e NM. NM=PctEL è la percentuale di studenti non di

madrelingua nel distretto. Nella regressione multipla, l’effetto stimato sul TS di una

variazione di STR è circa la metà rispetto a quando STR era l’unico regressore. Questa

differenza sorge perché il coefficiente di STR nella regressione multipla è l’effetto di

una variazione di STR tenendo costante NM, mentre nella regressione con un singolo

regressore, NM non è mantenuto costante. Abbiamo visto che distretti con alto NM

tendono ad avere non solo un basso TS, ma anche un alto STR. Se NM è omessa dalla

regressione, si stima che una riduzione di STR abbia un effetto maggiore (in valore

assoluto) sul TS, ma questa stima riflette sia l’effetto di una riduzione di STR sia

l’effetto omesso, conseguente, di avere nel distretto un NM più basso. La regressione

multipla fornisce una stima quantitativa dell’effetto di una riduzione unitaria nello STR

e si adatta facilmente al caso di più regressori. Ora vedremo di comprendere meglio gli

OLS e il loro uso nel modello di regressione multipla. La maggior parte di quanto

appreso circa lo stimatore OLS con un singolo regressore si estende alla regressione

multipla, ci concentreremo dunque sulle novità.

Misure di bontà dell’adattamento nella regressione multipla

Tre statistiche descrittive comunemente usate nella regressione multipla sono l’errore

standard della regressione, l’R^2 e l’R^2 corretto (=R^2s). Tutte e tre le statistiche

misurano la bontà con cui la stima OLS della retta di regressione multipla

descrive (/si adatta) ai dati.

Errore standard della regressione (SER)

Esso stima la SD di ui, pertanto è una misura della dispersione della

distribuzione di Y attorno alla retta di regressione. SER= radice di [SSR/(n-k-1)]

dove SSR=somma di uic^2. La sola differenza tra questo SER e quello per il modello

con un solo regressore è il divisore n-k-1, invece di n-2; il divisore n-k-1 vale in

generale, n-2 sarebbe il caso particolare in cui k (n. di regressori)=1. Il -1 dopo –k

sarebbe riferito alla stima dell’intercetta. L’uso di n-k-1 invece di n è detto

correzione per i gradi di libertà.

R^2

L’R2 della regressione è la frazione della varianza campionaria di Yi spiegata (o

predetta) (=ESS) dai regressori, oppure è 1 – la frazione della varianza di Yi non

spiegata (=SSR) dai regressori. La definizione matematica dell’R2 è la stessa della

regressione con un singolo regressore. R2=ESS/TSS=1-SSR/TSS. Nella regressione

multipla, l’R2 cresce (e mai decresce) ogni volta che si aggiunge un

regressore perché l’SSR diminuisce (perché il valore predetto sarà più vicino a quello

vero e quindi l’errore diminuisce), a meno che il coefficiente del regressore aggiunto

sia esattamente pari a 0 (raro).

“R^2 corretto”

Poiché l’R2 aumenta aggiungendo una nuova variabile, questo non vuol dire che

aggiungere una nuova variabile migliori realmente l’adattamento del modello. In

questo senso, l’R2 fornisce una stima in eccesso della bontà della regressione.

Un modo per correggere questo effetto è quello di deflazionare/ridurre l’R2. L’R2

corretto è una versione modificata dell’R2 che non aumenta necessariamente quando

si aggiunge un nuovo regressore, R2c aumenta solo se l’aggiunta ha realmente

migliorato l’adattamento/la bontà di adattamento del modello. L’R2c è un R2 il cui

SSR è moltiplicato per (n-1)/(n-k-1), questo fattore è sempre >1, perciò R2c è sempre

minore di R2. L’R2c può essere negativo: questo accade quando i regressori

riducono la somma dei quadrati dei residui di un ammontare così piccolo da non

bilanciare il fattore (n-1)/(n-k-1)

Applicazioni ai punteggi ottenuti nei test

Nella (6.12), R2= 0,426, R2c= 0,424, SER= 14,5. Includere NM fa aumentare R2 da

0,051 a 0,426. Dunque quando l’unico regressore è STR, si riesce a spiegare solo una

piccola frazione della variazione in TS, mentre quando si aggiunge NM alla

regressione si spiegano più di 2/5 (42,6%) della variazione nei punteggi. In

questo senso, includere NM migliora sostanzialmente l’adattamento della regressione.

Poiché n è grande e ci sono solo due regressori, la differenza tra l’R2 e l’R2c

è molto piccola (=0,002). Il SER per la regressione che esclude NM è 18,6; questo

valore scende a 14,5 quando si include NM. (il SER si misura in numero dei punti nel

test) La riduzione del SER indica che il modello che include NM spiega meglio

i dati e li predice con più precisione.

Uso dell’R^2 e dell’R^2 corretto

L’R2c misura anche quanto il regressore descrive/spiega la variazione di TS, cioè

quanta variazione di TS è dovuta al fatto che è variato STR. Tuttavia, affidarsi troppo

all’R2c/R2 può essere una trappola. Nelle applicazioni, non è importante

massimizzare l’R2c. Decisioni circa l’inclusione di una variabile nella

regressione multipla dovrebbero basarsi sul fatto che tale inclusione permetta

di stimare meglio l’effetto causale di interesse. Prima di trattare questo

argomento, è necessario sviluppare metodi per quantificare l’incertezza campionaria

dell’OLS. Prima di tutto, bisogna estendere le assunzioni dei minimi quadrati al caso di

regressori multipli.

Assunzioni dei minimi quadrati per la regressione multipla

Le assunzioni degli OLS per il modello di regressione multipla sono quattro. Le prime

tre sono uguali a quelle del modello di regressione univariata, adattate al fine di

consentire una molteplicità di regressori. La 4° assunzione è nuova.

Assunzione 1: la distribuzione di ui condizionata a X1i, X2i,…,Xki ha media

nulla

Implica che Yi può essere talvolta al di sopra della retta di regressione della

popolazione e talvolta al di sotto, ma in media giace su tale retta. Quindi, per ogni

valore dei regressori, il valore atteso di ui è pari a zero. Questa è l’assunzione che

rende non distorto l’OLS.

Assunzione 2: (X1i, X2i…Xki, Yi), i=1…n sono i.i.d.

X1i…Xki, Yi sono variabili casuali i.i.d., ovvero estrazioni i.i.d. dalla propria

distribuzione congiunta. Questa assunzione vale automaticamente se i dati sono

raccolti tramite campionamento casuale semplice.

Assunzione 3: outlier sono improbabili

Quest’assunzione serve per ricordare che l’OLS può essere sensibile agli outlier.

Matematicamente, l’assunzione è tradotta in: assumiamo che X1i…Xki e Yi abbiano

momenti quarti finiti non nulli, ovvero abbiano curtosi finita non nulla. Questa

assunzione è utilizzata per derivare le proprietà degli OLS in grandi campioni.

Assunzione 4: assenza di collinearità perfetta

La collinearità perfetta è una situazione poco gradevole, nella quale è impossibile

calcolare l’OLS. I regressori mostrano collinearità perfetta (/sono perfettamente

collineari) se uno di loro è una funzione lineare esatta di un altro. Perché la

collinearità perfetta rende impossibile il calcolo dell’OLS? Si supponga di aver

commesso un errore di battitura e di voler dunque effettuare una regressione di TS su

STR e STR (errore nella digitazione). Questo è un caso di collinearità perfetta perché

il 1° STR è una funzione lineare perfetta del 2° STR. A seconda di come il pacchetto

informatico tratta la collinearità, se si cerca di stimare questa regressione il software

procederà uno dei due modi seguenti: eliminerà una delle occorrenze di STR, oppure si

rifiuterà di calcolare le stime OLS, mostrando un messaggio di errore. Nella

regressione multipla, il coefficiente di uno dei regressori è l’effetto di una variazione

nel regressore stesso, tenendo gli altri regressori costanti. Nella regressione ipotetica

di TS su STR e STR, il 1° STR è l’effetto su TS di una variazione in STR, tenendo

costante il 2° STR. Ciò non ha senso, e gli OLS non possono stimare questo effetto

parziale privo di senso. In generale, la soluzione alla collinearità perfetta è quella di

modificare i regressori per eliminare il problema. Altro es. di collinearità perfetta

sarebbe aggiungere alla regressione la percentuale di studenti madrelingua: questo

regressore e “percentuale di studenti NON madrelingua” sarebbero perfettamente

collineari.

Distribuzione degli stimatori OLS nella regressione multipla

Come già sappiamo, i dati differiscono da un campione a un altro, quindi campioni

differenti producono valori diversi degli OLS. La variazione tra possibili campioni

genera l’incertezza riguardo i veri coefficienti di regressione. Questa variazione

è riassunta dalla distribuzione campionaria degli OLS.

Sotto le assunzioni dei minimi quadrati, per la regressione univariata, l’OLS è uno

stimatore corretto e consistente del coefficiente ignoto;

+ Se il campione è grande, l’OLS ha una distribuzione campionaria ben

approssimata dalla normale bivariata;

+ Se vale l’omoschedasticità, l’OLS è anche efficiente in una certa classe di

stimatori corretti.

Questi risultati si estendono al caso della regressione multipla. Quindi, ad es., per

grandi campioni, la distribuzione campionaria congiunta degli OLS B0c, B1c,

…,Bkc è ben approssimata da una distribuzione normale multivariata. Il TLC si

applica anche nel modello di regressione multipla perché gli OLS sono medie di dati

campionati casualmente e, se n è grande, la distribuzione campionaria di quelle medie

diviene normale. La distribuzione normale multivariata può essere trattata più

agevolmente con l’algebra matriciale, più avanti tratteremo le espressioni per la

distribuzione congiunta degli OLS. In generale, gli stimatori OLS sono correlati; questa

correlazione deriva dalla correlazione tra i regressori.

Conclusioni

Se una variabile omessa è una determinante della variabile dipendente ed è correlata

con il regressore, allora lo stimatore OLS della pendenza sarà distorto e rifletterà sia

l’effetto del regressore sia quello della variabile omessa. La regressione multipla

consente di includere la variabile omessa nella regressione. Il coefficiente di un

regressore X1, nella regressione multipla, è l’effetto parziale di una variazione di X1

mantenendo costanti gli altri regressori inclusi. Nell’esempio del TS, l’inserimento di

NM come regressore ha reso possibile la stima dell’effetto su TS di una variazione nel

STR, mantenendo costante NM. Ciò ha ridotto a metà l’effetto stimato sul TS nel STR.

La teoria statistica della regressione multipla sviluppa la teoria statistica della

regressione con un singolo regressore. Le assunzioni dei minimi quadrati sono le

stesse più una quarta assunzione che esclude la collinearità perfetta. Poiché i

coefficienti di regressione sono stimati usando un singolo campione, gli OLS hanno una

distribuzione campionaria e sono quindi soggetti a incertezza campionaria.

Quest’ultima deve essere quantificata e i modi per farlo nel modello di regressione

multipla li vedremo in seguito.

Verifica di ipotesi e intervalli di

confidenza

Come appena discusso, l’analisi di regressione multipla fornisce un modo per

ridurre il problema della distorsione da variabili omesse includendo regressori

aggiuntivi, controllando così per gli effetti di questi. Questo capitolo presenta vari

metodi per quantificare la variabilità campionaria dell’OLS attraverso l’uso di SE, test

di ipotesi statistiche e intervalli di confidenza. Con la regressione multipla sorge una

nuova possibilità: che un’ipotesi comprenda simultaneamente due o più

coefficienti di regressione. L’approccio generale per verificare tali ipotesi

“congiunte” utilizza la statistica test F. Vedremo come verificare le ipotesi che

comprendono due o più coefficienti di regressione.

Verifica di ipotesi e intervalli di confidenza per un singolo coefficiente

Questo paragrafo descrive come calcolare lo SE, verificare ipotesi e costruire intervalli

di confidenza per un singolo coefficiente in una regressione multipla

Errori standard degli stimatori OLS

Sotto le assunzioni dei minimi quadrati, la legge dei grandi numeri implica che lo

stimatore OLS converga al vero coefficiente dalla popolazione, così come il suo errore

standard converge alla sua deviazione standard. Tutto ciò si estende direttamente alla

regressione multipla. La formula dello SE è espressa più facilmente in termini

matriciali. Per quanto riguarda gli SE, non ci sono differenze concettuali tra il caso di

un singolo regressore e quello di regressori multipli. Le idee chiave – la normalità

degli stimatori in grandi campioni e la capacità di stimare consistentemente la

deviazione standard – sono le stesse che sia abbiano uno, due o k regressori.

Verifica di ipotesi su un singolo coefficiente

Si supponga di voler verificare l’ipotesi che una variazione nel STR non abbia alcun

effetto su TS, tenendo costante NM. Questo corrisponde all’ipotesi che il vero

coefficiente B1 relativo a STR sia nullo nella regressione di TS su STR e NM. Più in

generale, potremmo voler verificare l’ipotesi che il vero coefficiente Bj assuma un

valore specifico Bj,0. Il fondamento teorico della procedura solita di verifica di un

test d’ipotesi è il fatto che, in grandi campioni, l’OLS ha una distribuzione

normale la cui media, sotto l’ipotesi nulla, è pari al valore ipotizzato, e la cui varianza

può essere stimata in modo consistente (è unitaria). Questo fondamento teorico è

presente anche nel caso della regressione multipla. Per verificare l’ipotesi nulla

possiamo semplicemente seguire la stessa procedura utilizzata nel caso di un singolo

regressore. Lo SE, la statistica t e il p-value, per l’ipotesi nulla che Bj=0, sono calcolati

automaticamente dai software di regressione.

Intervalli di confidenza per un singolo coefficiente

Anche il metodo per costruire un intervallo di confidenza per il modello di regressione

multipla è lo stesso che per il modello con un singolo regressore. Questi metodi per

effettuare test d’ipotesi e costruire intervalli di confidenza si fondano

sull’approssimazione normale alla distribuzione dello stimatore OLS Bjc, valida per

grandi campioni. Di conseguenza, occorre sempre ricordare che questi metodi per

quantificare la variabilità campionaria danno garanzia di funzionamento solo in

grandi campioni.

Applicazione ai punteggi ottenuti nei test e al rapporto studenti/insegnanti

La regressione di TS su STR e NM è:

(7.5) TSc= 686 – 1,10 STR – 0,65 NM

(8,7) (0,43) (0,031)

Ho: B1=0. P-value= 1,1%, cioè il più piccolo livello di significatività al quale possiamo

rifiutare l’ipotesi nulla è l’1,1%. L’ipotesi nulla può essere rifiutata dunque al livello di

significatività del 5%, ma non a quello dell’1%. Il valore critico per un livello di

significatività del 10% è 1,64. L’intervallo di confidenza di livello 95% per il coefficiente

di STR nella popolazione è (-1,95; -0,26). L’intervallo di confidenza di livello 95% per

l’effetto sul TS di una riduzione di 2 unità di STR è (-3,9; -0,52).

Aggiungere le spese per studente all’equazione

Il provveditore si chiede: qual è l’effetto su TS di una riduzione di STR, tenendo

costanti le spese per studente (e NM)? Questa domanda può trovare risposta tramite

una regressione di TS su STR, NM e SS (spesa totale per studente, in migliaia di

dollari). La retta di regressione OLS è

(7.6) TSc= 649,6 – 0,29 STR + 3,87 SS – 0,656 NM

(15,5) (0,48) (1,59) (0,032)

Tenendo costante SS e NM, la variazione di STR ha un effetto ridottissimo su TS: il

coefficiente stimato di STR è diventato solo -0,29. L’ipotesi che questo

coefficiente sia effettivamente pari a zero non può essere rifiutata neanche al livello di

significatività del 10%, poiché il valore critico è -1,645 e la statistica t è -0,6. La (7.6)

non fornisce quindi alcuna evidenza del fatto che assumere più insegnanti faccia

aumentare i punteggi nei test, se la spesa totale per studente è tenuta costante.

Un’interpretazione di un coefficiente così alto per SS è che la spesa pubblica destinata

agli studenti è davvero utile per aumentare la performance scolastica. Il coefficiente

piccolo di STR indica che i distretti stanno già allocando i loro fondi in modo efficiente.

Si noti che l’errore standard di B1c è cresciuto da 0,43 a 0,48, aggiungendo SS. Ciò è

dovuto alla correlazione tra i regressori STR e SS (=-0,62), che può rendere meno

precisi gli OLS. Arriva tutt’a un tratto un contribuente arrabbiato che sostiene che sia il

coefficiente di STR che quello di SS sono nulli, cioè ipotizza che B1=0 e B2=0.

Sebbene sembri possibile rifiutare tale ipotesi, perché la statistica t per la verifica di

B2=0 è 2,43, questo ragionamento è viziato. Quella del contribuente è un’ipotesi

congiunta, e per verificarla occorre la statistica F.

Verifica di ipotesi congiunte

Questo paragrafo descrive come formulare ipotesi congiunte circa i coefficienti di una

regressione multipla e come verificarle tramite una statistica F.

Verifica di ipotesi su due o più coefficienti

Ipotesi nulle congiunte

Si consideri la (7.6). Il nostro contribuente arrabbiato ipotizza che né STR né SS

abbiano alcun effetto su TS, dopo aver controllato per NM. Ho: B1=0 e B2=0. In

generale, un’ipotesi congiunta è un’ipotesi che impone due o più restrizioni

sui coefficienti di regressione. L’ipotesi alternativa è che almeno una delle

uguaglianze di Ho non valga.

Perché non sottoporre a verifica i coefficienti singolarmente?

Qual è la probabilità di rifiutare l’ipotesi nulla quando questa è vera,

applicando questo metodo errato? Più del 5%. Possiamo sapere con esattezza la

probabilità di rifiuto erroneo dell’ipotesi nulla con questo metodo, solo se i regressori

(e quindi statistiche t) sono indipendenti. P (|t1|<1,96 e (=intersecato) |t2|<1,96) = P

(|t1|<1,96)*P (|t2|<1,96)=0,095^2= 0,09025= 90,25%. Perciò la probabilità di

rifiutare l’ipotesi nulla quando essa è vera è (100-90,25)%= 9,75%. Il metodo

“coefficiente per coefficiente” rifiuta l’ipotesi nulla troppo spesso. Questo se i

regressori sono indipendenti. Se i regressori sono correlati, la situazione è ancora più

complicata. Il livello minimo della procedura “coefficiente per coefficiente” non è più

9,75, ma dipende dal valore della correlazione tra i regressori. Poiché l’approccio alla

verifica “coefficiente per coefficiente” ha un livello minimo errato – ovvero il suo tasso

di rifiuto sotto Ho (cioè supponendo che sia vera Ho) non è uguale al livello di

significatività desiderato – è necessario un nuovo approccio.

- Un possibile approccio, applicabile sono se i regressori sono indipendenti, è

quello di modificare il metodo “coefficiente per coefficiente” usando

valori critici che assicurino l’uguaglianza tra il livello minimo del test e il

livello di significatività desiderato (metodo di Bonferroni). Questo

metodo ha una vasta applicabilità, ma può avere scarsa potenza:

frequentemente non riesce a rifiutare la nulla quando, in realtà, è vera

l’alternativa.

- Fortunatamente esiste un altro approccio per verificare le ipotesi congiunte che

ha potenza maggiore, specialmente quando i regressori sono altamente

correlati. Tale approccio è basato sulla statistica F.

Statistica F

E’ usata per verificare ipotesi congiunte sui coefficienti di regressione. Le formule per

la statistica F sono integrate nei moderni pacchetti di regressione.

Statistica F con q=2 restrizioni

Che le statistiche t siano correlate o meno, in grandi campioni, sotto Ho, la statistica F

avrà distribuzione F di 2,inf. Se le statistiche t sono incorrelate, la formula per la

statistica F si semplifica.

Statistica F con q restrizioni

La formula della statistica F robusta all’eteroschedasticità per verificare le q

restrizioni dell’ipotesi nulla congiunta si riporta in forma matriciale ed è incorporata

nei pacchetti di regressione. Sotto Ho, la statistica F ha una distribuzione

campionaria che, per grandi campioni, è ben approssimata dalla F di q,inf. I

valori critici perciò possono essere ottenuti da questa distribuzione. Una statistica F

classica verrà discussa in seguito.

Calcolo del p-value usando la statistica F

Il valore-p della statistica F può essere calcolato usando l’approssimazione per grandi

campioni F di q,inf alla sua distribuzione. E’ l’area che sta a destra del valore

osservato, nella coda della balena.

Statistica F per l’”intera” regressione

La statistica F per l’”intera” regressione verifica l’ipotesi congiunta che tutti i

coefficienti tranne l’intercetta siano nulli. Sotto questa Ho, nessuno dei regressori

spiega alcunché della variazione in Yi. In grandi campioni, questa statistica F ha

distribuzione F di k,inf quando l’ipotesi nulla è vera.

Statistica F quando q=1

L’ipotesi nulla congiunta si riduce all’ipotesi nulla su un singolo coefficiente di

regressione.

Applicazione al punteggio nei test e al rapporto studenti/insegnanti

Per verificare l’ipotesi nulla che i coefficienti di STR e SS siano entrambi nulli, è

necessario calcolare la statistica F robusta del test che B1=0 e B2=0. Questa statistica

F è pari a 5,43. Sotto l’ipotesi nulla, in grandi campioni, tale statistica ha distribuzione

F di 2,inf. Il valore critico al 5% della distribuzione F di 2,inf è 3,00 e il valore critico

all’1% è 4,61. Ho può essere dunque rifiutata al livello dell’1%. Sarebbe estremamente

inverosimile (probabilità dello 0,5%) aver estratto il campione che ha prodotto un

valore della statistica F pari a 5,43 se l’ipotesi nulla fosse effettivamente vera

(appunto, p-value=0,005). Basandoci su questa evidenza, possiamo rifiutare l’ipotesi

del contribuente secondo cui né STR né SS hanno effetto su TS (tenendo costante NM).

Statistica F classica

Una statistica F grande dovrebbe essere associata a un R^2 grande, in più, se ui è

omo, la statistica F può essere scritta in termini di miglioramento nell’adattamento

della regressione, misurato da R^2. La statistica F risultante è nota come statistica F

classica, la sua formula semplice chiarisce cosa la statistica F stia facendo. Tale

formula può essere calcolata usando il risultato standard di una regressione, se include

gli R2 della regressione ma non le statistiche F. Se SSR è sufficientemente più piccolo

nella regressione non vincolata rispetto a quella vincolata, il test rifiuta l’ipotesi nulla.

Esiste anche un’altra formula per la statistica F classica, basata sugli R2 delle

regressioni. Le formule per la statistica F classica sono semplici da calcolare e

danno un’interpretazione intuitiva della misura di quanto bene la

regressione non vincolata e quella vincolata approssimano i dati ma,

sfortunatamente, esse valgono solo se gli errori sono omo. Nelle scienze sociali, l’omo

è rara. La statistica F classica non è un sostituto soddisfacente della statistica F

robusta.

Uso della statistica F classica quando n è piccolo

La statistica F classica si distribuisce sotto Ho come un F di q, n - kunrestricted – 1

(se n è piccolo). Questa distribuzione converge alla distribuzione F di q, inf (se n è

grande) al crescere di n (ovvio).

Applicazione ai punteggi ottenuti nei test e al rapporto studenti/insegnanti

La statistica F è 8,01>4,61 (=F di 2,inf, all’1%), dunque Ho è rifiutata al livello 1%

usando questo approccio. La statistica F classica ha il vantaggio di poter essere

calcolata usando una semplice calcolatrice, ma lo svantaggio che il suo valore può

essere molto diverso da quello della statistica F robusta: nel nostro caso, la

statistica F robusta è 5,43, un valore abbastanza diverso dal meno affidabile 8,01.

Verifica di restrizioni singole che coinvolgono coefficienti multipli

Talvolta la teoria economica suggerisce una singola restrizione q che coinvolge due o

più coefficienti di regressione (es. B1 e B2), per esempio un’Ho potrebbe essere del

tipo B1=B2, l’alternativa è che differiscano. E’ necessario modificare il metodo

presentato finora per verificare questa ipotesi. Ci sono due approcci e, a seconda del

pacchetto statistico utilizzato, uno dei due risulta più semplice.

Approccio 1: verificare direttamente la restrizione

Alcuni pacchetti statistici hanno un comando specificamente concepito per verificare

restrizioni come B1=B2 e il risultato è una statistica F che ha una distribuzione F di

1,inf sotto Ho. (Si ricordi che il quadrato di una v.c. Z ha distribuzione F di 1,inf e che il

95-esimo percentile della distribuzione F di 1,inf è 1,96^2= 3,84)

Approccio 2: trasformare la regressione

Se il pacchetto statistico non è in grado di verificare la restrizione direttamente,

l’ipotesi B1=B2 può essere verificata riscrivendo l’equazione di regressione originale al

fine di trasformare la restrizione B1=B2 in una restrizione su un singolo coefficiente.

Questo nuovo coefficiente è dato da B1-B2, e lo si porrà nell’ipotesi nulla =0. Una

volta fatto questo, Ho può essere verificata usando il metodo della statistica t. I due

approcci sono equivalenti, nel senso che la statistica F del primo metodo è uguale al

quadrato della statistica t del secondo.

Estensione al caso q>1

In generale, è possibile avere q restrizioni sotto Ho, di cui almeno una coinvolge più

coefficienti. L’approccio migliore dipende dal pacchetto di regressione utilizzato.

Analisi dei dati sul punteggio nei test

Analisi dell’effetto sul TS di STR. Il principale proposito è quello di fornire un esempio in

cui l’analisi di regressione multipla è utilizzata per mitigare la distorsione da variabili

omesse. L’obiettivo secondario è quello di mostrare come utilizzare una tabella per

riassumere i risultati delle regressioni.

Discussione delle specificazioni di base e di quelle alternative

La nostra analisi si concentra sulla stima dell’effetto sul TS di una variazione di STR,

tenendo costanti le caratteristiche degli studenti. Molti fattori possono potenzialmente

influenzare TS; alcuni sono correlati con STR e quindi ometterli dalla regressione

determina distorsione da variabili omesse. Poiché questi fattori, quali le opportunità

di apprendimento esterno, non possono essere misurati direttamente, includiamo

variabili di controllo con essi correlate (ad es. reddito medio nel distretto delle le

famiglie composte anche da studenti). Questo viene fatto perché il coefficiente di STR

possa misurare l’effetto di una sua variazione tenendo costanti questi altri fattori. Si

considerino ora tre variabili che potrebbero influenzare TS: 1) NM (=non madrelingua),

2) percentuale di studenti che hanno diritto a un sussidio mensa (=PG=pasto

gratuito), 3) percentuale di studenti la cui famiglia riceve sussidi dallo Stato

(S=sussidio). Gli ultimi due indicatori sono due diverse misure della frazione di

bambini economicamente svantaggiati (il loro coefficiente di correlazione è 0,74). Per

la nostra specificazione di base utilizziamo la percentuale di aventi diritto alla mensa,

per la specificazione alternativa utilizziamo la frazione idonea per i sussidi. Ciascuna

di queste variabili mostra una correlazione negativa con il punteggio nei test.

Corr(TS, NM)= -0,64 Corr(TS, PG)= -0,87 Corr(TS, S)= -0,63

Quale scala usare per i regressori?

Sul libro, nei grafici, le unità di misura delle variabili sono misurate come percentuali, e

quindi variano da 0 a 100, ma si poteva anche misurarle in frazione decimale, che

variano da 0 a 1. Come si dovrebbe scegliere la scala, o le unità di misura, delle

variabili? Si dovrebbe scegliere facendo in modo che la regressione risulti facile da

leggere e da interpretare. Ad es. se un regressore è misurato in $ e ha un coefficiente

di 0,00000356, risulta di più facile lettura convertirlo in milioni di dollari e riportare il

coefficiente 3,56. L’unità di misura di TS è il punteggio stesso. Nella (7.5) il coefficiente

di NM è -0,65. Se questo regressore fosse stato misurato in frazione invece che in

percentuale (FNM), R2 e SER sarebbero stati identici, ma il coefficiente di FNM sarebbe

stato -65. Nella specificazione con NM, il coefficiente è la variazione predetta nel TS

corrispondente all’aumento di 1 punto nella percentuale di studenti non di

madrelingua inglese, mantenendo STR costante; nella specificazione con FNM, il

coefficiente è la variazione predetta nel TS corrispondente all’aumento di 1 nella

frazione di studenti non di madrelingua – cioè un aumento di 100 punti percentuali,

mantenendo STR costante. Nonostante queste due specificazioni siano

matematicamente equivalenti, quella con NM ci sembra più naturale per scopi

interpretativi.

Presentazione tabulare dei risultati

Finora abbiamo presentato i risultati delle regressioni riportando le equazioni di

regressione stimate. Questo approccio può generare confusione se ci sono molti

regressori e molte equazioni. Un modo migliore di presentare i risultati delle

regressioni è la forma tabellare. Ogni colonna rappresenta una regressione separata.

Gli asterischi indicano se la statistica t per verificare l’ipotesi (bilaterale) che il

coefficiente rilevante sia nullo è significativa al livello del 5% (*) o dell’1% (**). Le tre

righe finali contengono statistiche sintetiche della regressione (SER, R2 e R2c) e la

dimensione campionaria. L’intercetta si può trovare talvolta indicata come “costante”.

Discussione dei risultati empirici

Questi risultati suggeriscono tre conclusioni.

1. Controllare per queste caratteristiche degli studenti riduce l’effetto di STR

su TS di circa la metà. In tutti i casi, il coefficiente del STR rimane

statisticamente significativo al livello del 5%. Nelle quattro specificazioni con

variabili di controllo, si stima che ridurre STR di uno studente per insegnante

faccia aumentare TS di un punto, tenendo costanti le caratteristiche dello

studente.

2. Le variabili che rappresentano le caratteristiche dello studente sono

predittori molto utili dei punteggi. STR da solo spiega una frazione piccola della

variazione di TS: R2c della prima colonna è 0,049. R2c aumenta in modo sostanziale

quando vengono aggiunte le caratteristiche dello studente. R2c della terza colonna (3)

è infatti 0,773. I distretti con NM alto e molti bambini poveri ottengono punteggi più

bassi nel test.

3. Le variabili di controllo non sono sempre statisticamente significative:

nella specificazione (5), l’ipotesi che il coefficiente di S sia nulla non è rifiutata al

livello del 5% (statistica t= -0,82). Per questa ragione, e poiché aggiungere S alla

(3) ha un effetto trascurabile sul coefficiente stimato di STR e il suo SE, S è

ridondante in questo caso.

Conclusioni

Per mitigare la potenziale distorsione da variabili omesse, abbiamo incluso nella

regressione una serie di variabili al fine di controllare per varie caratteristiche degli

studenti (NM e due misure della condizione economica degli studenti). In questo modo,

l’effetto stimato di una variazione unitaria di STR si riduce della metà, sebbene

rimanga possibile rifiutare al 5% l’ipotesi che l’effetto su TS, tenendo costanti queste

variabili di controllo, sia nullo. Poiché queste variabili di controllo eliminano la

distorsione da variabili omesse, queste stime basate sulla regressione multipla sono

molto più utili delle stime con un solo coefficiente.

Valutazione di studi basati sulla

regressione multipla

Finora abbiamo visto come usare la regressione multipla per analizzare la relazione tra

le variabili in un insieme di dati. Adesso facciamo un passo indietro e ci chiediamo che

cosa renda affidabile o inaffidabile uno studio statistico, ad es. basato sulla

regressione multipla. Quando una regressione multipla fornisce una stima utile

dell’effetto causale e quando non ci riesce? Questo capitolo presenta uno schema di

riferimento generale per valutare studi statistici, indipendentemente dal fatto che

utilizzino o meno l’analisi di regressione. Questo schema di riferimento si basa sui

concetti di validità interna ed esterna. Uno studio è internamento valido se le sue

inferenze statistiche che esso trae circa gli effetti causali sono valide per la

popolazione e il contesto studiati; è esternamente valido se le inferenze che esso trae

possono essere generalizzate ad altre popolazioni e altri contesti. Discuteremo la

validità interna ed esterna, alcune delle loro possibili minacce e come identificarle

nelle applicazioni.

Validità interna ed esterna

I concetti di validità interna ed esterna forniscono uno schema di riferimento per

valutare se uno studio statistico o econometrico sia utili per rispondere a una specifica

domanda di interesse. La validità esterna si basa sulla distinzione tra popolazione e

contesto oggetto di studio e popolazione e contesto ai quali si generalizzano i risultati.

La popolazione studiata è quella delle unità cui è stato estratto il campione; la

popolazione alla quale si generalizzano i risultati, o popolazione d’interesse, è la

popolazione delle unità a cui si applicano le inferenze causali derivate dallo studio. Per

esempio, il preside di una scuola superiore potrebbe voler generalizzare i risultati

riguardanti le scuole elementari della California (popolazione studiata) alla

popolazione delle scuole superiori della California (popolazione d’interesse). Per

“contesto” intendiamo l’ambiente istituzionale, legale, sociale ed economico. Per es.

potrebbe essere importante sapere se i metodi biologici che funzionano in laboratorio

sono validi anche nel contesto del mondo reale, nelle coltivazioni in pieno campo.

Minacce alla validità interna

La validità interna ha due componenti. 1) Lo stimatore dell’effetto causale deve

essere corretto e consistente. 2) Gli SE devono essere calcolati in modo tale che i

test d’ipotesi devono avere il livello di significatività desiderato (il tasso di rifiuto

effettivo del test sotto Ho deve essere uguale al livello di significatività desiderato) e

gli intervalli di confidenza devono avere il livello di confidenza desiderato. Questi

requisiti potrebbero non essere soddisfatti per varie ragioni, che costituiscono le

minacce alla validità interna. Queste minacce portano alla violazione di una o più

ipotesi dei minimi quadrati. Per es. la distorsione da variabili omesse, dovuta

alla correlazione di uno o più regressori e l’errore, che viola la 1° ipotesi dei minimi

quadrati. Se sono disponibili dati sulla variabile omessa o su una variabile di controllo

adeguata, il problema può essere evitato includendo tale variabile come regressore

aggiuntivo. Più avanti vedremo quali sono le diverse minacce alla validità interna

nell’analisi di regressione multipla e come mitigarle.

Minacce alla validità esterna

Esse derivano dalle differenze tra la popolazione e il contesto studiati e la popolazione

e il contesto d’interesse.

Applicazione al punteggio nei test e al rapporto studenti/insegnanti

Supponiamo che i risultati dall’analisi dei dati della California siano validi

internamente. A quali altre popolazioni e contesti potrebbero essere generalizzati? Più

la popolazione e l’ambiente di studio sono simili a quelli della popolazione studiata, più

forte è l’argomento a favore della validità esterna. Per es. gli studenti e l’istruzione

universitari sono molto diversi da quelli elementari, perciò è poco plausibile che

questi risultati si possano estendere alle università. D’altro canto, gli studenti di una

scuola elementare, i programmi e l’organizzazione sono grosso modo simili in tutti gli

USA; quindi, è plausibile estendere i risultati alle altre scuole elementari degli

USA.

Minacce alla validità interna dell’analisi di regressione multipla

Gli studi basati sull’analisi di regressione sono internamente validi se i coefficienti

di regressione stimati sono corretti e consistenti e se i loro SE producono

intervalli di confidenza con il livello desiderato. Ci sono 5 ragioni per cui l’OLS

potrebbe essere distorto, anche in grandi campioni:

1) Variabili omesse

2) Incorretta specificazione della forma funzionale della regressione

3) Misura imprecisa della variabile indipendente (“errori nelle variabili”)

4) Selezione del campione

5) Causalità simultanea

5)Causalità simultanea

Finora abbiamo ipotizzato che la causalità andasse dal regressore alla v.d. (X causa Y).

Cosa accade, invece, se la causalità va dalla v.d. a uno o più regressori (Y causa X)? In

questo caso, la causalità va in “entrambe le direzioni”, ovvero c’è causalità

simultanea. Se c’è causalità simultanea (CS), una regressione OLS cattura entrambi gli

effetti, rendendo l’OLS distorto (e di conseguenza inconsistente). Dunque, la

distorsione da CS si verifica in una regressione di Y su X, quando, in aggiunta al

legame causale d’interesse da X a Y, c’è un legame causale da Y a X. Questa causalità

inversa rende X correlata con l’errore. Supponiamo che un’iniziativa del governo

porti a sussidiare l’assunzione di insegnanti nei distretti scolastici con basso TS. In

questo caso, ci sarebbe CS: bassi STR portano di solito ad alti TS, ma a causa del

programma del governo, bassi TS portano a bassi STR. STR sarà positivamente

correlato con u. Anche TS sarà correlato a u. Le due v. sono correlate a u perché sia

una che l’altra, variando, possono determinare variazioni di u. Matematicamente, ci

sono due equazioni: una in cui X causa Y e una in cui Y causa X.

(9.3) Yi= Bo +B1Xi +ui

(9.4) Xi= go +g1Yi +vi

La (9.3) rappresenta l’effetto di STR su TS, mentre la (9.4) rappresenta l’effetto

causale inverso, di TS su STR, indotto dal programma governativo. Poiché questo

problema può essere espresso matematicamente usando due equazioni simultanee, la

distorsione da causalità simultanea è talvolta detta distorsione da equazioni

simultanee.

Soluzioni alla distorsione da causalità simultanea

Due modi per mitigarla: 1) uso della regressione IV; 2) progettare e realizzare un

esperimento controllato casualizzato dove il canale di causalità inversa sia

neutralizzato.

Regressione con variabile dipendente

binaria

In genere, un prestito viene negato se la rata proposta assorbe gran parte del reddito

mensile del richiedente. Molti studi sulla discriminazione, ricercano l’evidenza

statistica di discriminazione razziale, cioè la prova, in grandi insiemi di dati, del fatto

che bianchi e minoranze etniche siano trattati diversamente. Un punto di partenza è

quello di confrontare la frazione di richiedenti neri e quella di richiedenti bianchi ai

quali viene negato il mutuo. Nei dati esaminati in questo capitolo, tratti dalle domande

di mutuo presentate nell’area metropolitana di Boston, in Massachusetts, il mutuo è

stato rifiutato al 28% dei richiedenti neri, ma soltanto al 9% dei richiedenti bianchi.

Tuttavia, questo confronto non risponde esattamente alla domanda che ci siamo

appena posti, perché richiedenti neri e bianchi non sono necessariamente “identici a

parte l’etnia”. Abbiamo invece bisogno di un metodo per confrontare i tassi di rifiuto

tenendo costanti le altre caratteristiche dei richiedenti. Questo sembrerebbe un

compito adatto per l’analisi di regressione multipla, e in effetti lo è, ma con una

particolarità: che la variabile dipendente – che indica se il mutuo è stato o meno

negato – è binaria. In precedenza avevamo usato a volte variabili binarie come

regressori, senza problemi particolari. Quando però è binaria la variabile dipendente,

le cose sono più complicate: che cosa significa adattare una retta a una variabile

dipendente che può assumere solo due valori? La risposta a questa domanda sta

nell’interpretare la funzione di regressione come una probabilità predetta, solo

in tal modo si possono applicare i modelli di regressione multipla al caso di variabili

dipendenti binarie. Tuttavia, forme funzionali alternative possono modellare meglio

simili probabilità, come suggerito dall’interpretazione della funzione di regressione

come probabilità predetta. Metodi di questo tipo sono chiamati regressioni “probit” e

“logit”. Vedremo poi come applicare questi metodi ai dati sulla richiesta di mutui

nell’area di Boston, per scoprire se vi sia evidenza di distorsione razziale nella

concessione di mutui. La variabile dipendente binaria considerata in questo capitolo è

un esempio di v. dipendente con dominio limitato, ovvero di variabile dipendente

limitata.

Variabili dipendenti binarie e modello lineare di probabilità

Il fatto che una richiesta di mutuo venga o meno accettata è un esempio di variabile

binaria. Molte altre questioni importanti coinvolgono risultati di interesse binari, ad es.

qual è l’effetto di una borsa di studio sulla decisione di un individuo di frequentare

l’università? Che cosa induce un adolescente a fumare? Che cosa determina il

successo in una ricerca di lavoro? Vedremo prima cosa distingue le regressioni con una

v.d. binaria da quelle con una v.d. continua, poi vedremo il modello lineare di

probabilità, cioè il modello più semplice utilizzabile quando la v.d. è binaria.

Variabili dipendenti binarie

Il problema esaminato in questo capitolo è se l’etnia sia un fattore determinante del

rifiuto di una richiesta di mutuo. I dati sono tratti da un’ampia raccolta realizzata dai

ricercatori della Federal Reserve Bank of Boston sulla base dell’Home Mortgage

Disclosure Act (HMDA) e riguardano le domande per la concessione di mutui registrate

nell’area urbana di Boston, in Massachusetts, nel 1990. Il processo attraverso cui il

funzionario bancario addetto ai prestiti prende una decisione è complesso. Questi deve

infatti prevedere se il richiedente pagherà le rate del prestito. Un importante elemento

di informazione è dato dall’entità della rata rispetto al reddito del richiedente.

Cominciamo, quindi, considerando la relazione tra due v.: la v.d. binaria deny, che è

pari a uno se la richiesta di mutuo è stata negata e a zero se è stata accettata, e la v.

continua P/I ratio, che è il rapporto tra la rata mensile prevista del prestito e il reddito

mensile del richiedente. Con la v.d. binaria il diagramma a nuvola appare

sostanzialmente diverso. Vi è una relazione positiva tra deny e P/I ratio. Usando le 127

osservazioni del grafico, si può stimare un retta di regressione OLS. Il modello di

probabilità lineare utilizza questa retta per modellare la probabilità di rifiuto, dato P/I

ratio. Come al solito, la retta rappresenta il valore predetto di deny come funzione di

P/I ratio. Per es. quando P/I ratio (=R) è 0,3, il valore predetto di deny è 0,2, cioè la

probabilità di vedere rifiutata la propria richiesta è del 20%, cioè se ci fossero molte

richieste con R= 0,3, il 20% di queste sarebbe rifiutato. La regressione si interpreta

così come un modello di probabilità che la variabile dipendente sia uguale a uno.

Sappiamo che la funzione di regressione della popolazione è il valore atteso di Y dati i

regressori, E(Y|X1…Xi). Sappiamo che se Y è una variabile binaria 0-1, allora il suo

valore atteso è la probabilità che Y=1, condizionato al valore assunto dai regressori. In

breve, per una v. binaria il valore predetto della regressione è la probabilità che Y=1,

data X. Il modello di regressione lineare multipla quando la variabile

dipendente è binaria è detto modello lineare di probabilità: “lineare” perché è

una retta e “modello di probabilità” perché modella la probabilità che la variabile

dipendente sia uguale a uno.

Modello lineare di probabilità

Il termine modello lineare di probabilità indica il modello di regressione multipla

nel caso in cui la v.d. sia binaria anziché continua. Poiché la v.d. Y è binaria, la funzione

di regressione della popolazione corrisponde alla probabilità che la v.d. sia uguale a

uno, data X. Il coefficiente B1 associato a un regressore X è la variazione nella

probabilità che Y=1 associata a una variazione unitaria in X. Quasi tutti gli strumenti

visti finora si estendono al modello lineare di probabilità: i coefficienti possono essere

stimati con gli OLS; gli intervalli di confidenza e gli SE possono essere costruiti come

sempre; le ipotesi su più coefficienti possono essere verificate usando la statistica F.

Gli errori del modello lineare di probabilità sono sempre etero. Uno strumento che

non è possibile estendere è l’R2. Quando la v.d. è binaria, è impossibile che l’R2

sia uguale a uno perché è impossibile che tutti i dati giacciono esattamente sulla

retta di regressione, a meno che non siano binari anche i regressori. Di conseguenza,

l’R2 non è una statistica particolarmente utile in questo contesto. Più avanti vedremo

quali sono le misure di bontà dell’adattamento utilizzate.

Applicazione ai dati del Boston HMDA

(11.1) denyc= - 0,08 + 0,604 R

(0,032) (0,098)

Il coefficiente stimato di R è statisticamente diverso da zero all’1% (statistica t= 6,13).

Se ad es. R cresce di 0,1, la probabilità di rifiuto cresce di 0,604*0,1= 0,06, ovvero del

6%. Per es. se R= 0,3, denyc è 0,101 (diversa de denyc che sembrerebbe essere 0,2

se guardiamo il grafico che utilizza solo 127 delle 2380 osservazioni). Qual è l’effetto

dell’etnia sulla probabilità di rifiuto, tenendo costante R? Per quanto riguarda l’etnia,

per semplicità, focalizziamoci solo su neri e bianchi. Per stimare l’effetto della razza,

tenendo costante R, aggiungiamo un regressore binario, che è uguale a uno se il

richiedente è nero ed è uguale a zero se il richiedente è bianco. Il modello di

probabilità stimato diventa: (B= black)

(11.3) denyc= - 0,091 + 0,559 R + 0,177 B

(0,029) (0,089) (0,025)

Il coefficiente di B, 0,177 indiche che un richiedente afro-americano ha una

probabilità più alta del 17,7% di vedere rifiutata la propria richiesta rispetto a uno

bianco, tenendo costante il rapporto rata/reddito. Questo coefficiente è significativo al

livello dell’1% (statistica t= 7,11). Questa stima suggerisce che potrebbe esserci un

pregiudizio razziale nella decisione di concedere un mutuo, ma una simile conclusione

potrebbe essere ancora prematura. Sebbene R abbia un ruolo importante, nella

decisione del funzionario bancario addetto ai prestiti, entrano in gioco molti altri

fattori, come il reddito potenziale del richiedente e la storia debitoria dell’individuo. Se

ognuna di queste variabili fosse correlata con i regressori B o R, allora l’omissione

dalla (11.3) causerebbe distorsione da variabili omesse. Occorre pertanto rimandare

ogni conclusione sull’esistenza di discriminazione fino a quando non sarà stata

completata l’analisi.

Limiti del modello lineare di probabilità

La linearità che rende il modello lineare di probabilità facile da usare è anche il suo

maggior difetto. Quando R è così grande che denyc è già molto alto, un

ulteriore incremento in R avrà scarso effetto (così dovrebbe essere in

realtà). Al contrario, nel modello di probabilità lineare, l’effetto di una

variazione data in R è costante, il che porta alle probabilità predette della Figura

11.1 (n=127), che sono inferiori a zero per valori molto piccoli di R e maggiori di uno

per valori molto grandi! Ma una probabilità non può essere <0 o >1. Tale

controsenso è conseguenza inevitabile della regressione lineare. Per affrontare questo

problema, introduciamo nuovi modelli non lineari specificatamente disegnati per v.d.

binarie: i modelli di regressione probit e logit.

Regressioni probit e logit

Le regressioni probit e logit/logistica sono modelli di regressione non lineari

specificatamente disegnati per v.d. binarie. Poiché una regressione con una v.d. Y

binaria modella la probabilità che Y= 1, è ragionevole adottare una formulazione

non lineare che costringa i valori predetti ad assumere valori compresi tra 0

e 1. Nelle regressioni logit e probit si utilizzano pertanto le funzioni di ripartizione,

poiché producono probabilità tra 0 e 1: la c.d.f. normale standard per la

regressione probit e la c.d.f. “logistica” per la regressione logit.

Regressione probit

Regressione probit con un singolo regressore

Il modello di regressione probit con un singolo regressore X è

(11.4) P(Y=1|X)= fi(Bo +B1X)

Dove fi è la funzione di ripartizione normale standard. Supponiamo che la regressione

sia denyc= - 2 + 3 R. Se R= 0,4. In base alla (11.4) denyc= fi(-2+3*0,4)= fi(-0,8)=

21,2%. Nel modello probit, il termine Bo+B1X gioca il ruolo della “z”. Il coefficiente

probit B1 è la variazione del valore-z associata a una variazione unitaria in X,

mantenendo costanti X2…Xk. Più grande è B1, più grande sarà il valore-z, più sarà la

probabilità che Y=1. Secondo il modello probit stimato, per i richiedenti con alto R, la

probabilità di rifiuto è prossima a uno. Dunque, diversamente dal modello di

probabilità lineare, le probabilità condizionate probit giacciono sempre tra zero e uno.

Regressione probit con regressori multipli

Sappiamo che tralasciare una determinante di Y correlata con i regressori inclusi dà

luogo a distorsione da variabile omessa. Questo accade anche nella regressione

probit: anche qui la soluzione sarà includere la variabile aggiuntiva come regressore.

Si aggiungono così altri regressori nel calcolo del valore di z. I coefficienti probit

B0,B1,…,Bk non hanno un’interpretazione immediata. Il calcolo delle probabilità

predette e dell’effetto di una variazione in un regressore permette di interpretare

meglio il modello.

Effetto di una variazione in X

L’effetto sulla probabilità predetta di una variazione in un regressore si ottiene:

1. Calcolando la probabilità predetta in corrispondenza del valore iniziale del

regressore;

2. Calcolando la probabilità predetta in corrispondenza del valore variato del

regressore;

3. Prendendone la differenza.

Non importa quanto sia complicato il modello, questo metodo per calcolare gli effetti

predetti di una variazione in X funzione sempre.

Applicazione ai dati sui mutui

(11.7) Denyc= fi ( - 2,19 + 2,97 R)

(0,16) (0,47)

I coefficienti stimati -2,19 e 2,97 sono difficilmente interpretabili, dal momento che

influenzano la probabilità di rifiuto attraverso il valore-z. In effetti, dalla (11.7) è

possibile concludere soltanto che R è positivamente legato alla probabilità di rifiuto e

che questa relazione è statisticamente significativa (t= 6,32). Qual è la variazione

nella probabilità predetta che una richiesta sia rifiutata quando R cresce da 0,3 a 0,4?

Per rispondere, seguiamo i tre punti elencati in precedenza: calcoliamo la probabilità di

rifiuto per R= 0,3, poi per R= 0,4 e infine calcoliamo la differenza. Un incremento di R

da 0,3 a 0,4 è associato a un incremento nella probabilità di rifiuto del 6,2%: da 9,7%

a 15,9%. Poiché la funzione di regressione probit è non lineare, l’effetto di

una variazione in X dipende dal valore stesso di X. Per esempio, un aumento di

R da 0,4 a 0,5 provoca un incremento dell’8% di denyc, dal 15,9% al 23,9%. Mentre un

incremento di R di 0,1 nel modello lineare di probabilità sarebbe associato sempre a

un aumento del 6% di denyc. Ma torniamo alla nostra domanda di partenza: qual è

l’effetto dell’etnia sulla probabilità di rifiuto del prestito, tenendo costante R? Stimiamo

una regressione probit avente sia R sia B come regressori:

(11.8) denyc= fi ( - 2,26 + 2,74 R + 0,71 B)

(0,16) (0,44) (0,083)

Di nuovo, i valori dei coefficienti hanno un’interpretazione complessa, ma non così il

loro segno e la loro significatività statistica. Il coefficiente di B è positivo, a indicare

che un nero ha denyc (probabilità di rifiuto) più alta rispetto a un bianco, tenendo

costante R. Questo coefficiente è significativo all’1% (t= 8,55). Per un richiedente

bianco con R= 0,3, denyc= 7,5%, per uno nero con lo stesso R, denyc= 23,3%; la

differenza nei denyc tra questi due richiedenti ipotetici è del 15,8%, diversa appunto

da quella fissa del 17,7% che avevamo notato nel modello lineare (il coefficiente di B

era appunto 0,177).

Stima dei coefficienti probit

I coefficienti probit qui riportati sono stati stimati usando il metodo della massima

verosimiglianza, il quale produce stimatori efficienti in un’ampia varietà di

applicazioni, tra cui la regressione con v.d. binaria. Lo stimatore di massima

verosimiglianza è consistente e si distribuisce normalmente in grandi campioni,

cosicché la statistica t e gli intervalli di confidenza per i coefficienti possono essere

costruiti nel modo usuale, la statistica F può essere usata per verificare ipotesi

congiunte.

Regressione logit

Il modello di regressione logit

Il modello di regressione logit è simile al modello di regressione probit, eccetto che la

funzione di ripartizione usata è diversa: la c.d.f. Z “fi” è rimpiazzata dalla funzione di

ripartizione logistica standard, indicata con F (che non è la f di Snedecor). La

funzione di ripartizione logistica ha una forma funzionale specifica. Come per il

modello probit: i coefficienti del modello logit si interpretano meglio calcolando le

probabilità predette e le differenze nelle probabilità predette; i coefficienti logit

possono essere stimati con il metodo della massima verosimiglianza (MV). Le funzioni

di regressione logit e probit sono simili. Nel grafico 11.3 sul libro, è mostrato come su

n= 127 i modelli probit e logit producono stime pressoché identiche di denyc,

dato R. Questi modelli sono stati introdotti circa 30 anni fa. Storicamente, la principale

motivazione per l’uso della regressione logit è che la funzione logistica può essere

calcolata più velocemente rispetto alla funzione di ripartizione normale. Con l’avvento

di computer più efficienti, questa distinzione non è più rilevante.

Applicazione ai dati del Boston HMDA

Una regressione logit di deny su R e B fornisce la funzione di regressione stimata

(11.10) denyc= F( - 4,13 + 5,37 R + 1,27 B)

(0,35) (0,96) (0,15)

Il coefficiente di B è significativo all’1% (t= 8,47). Denyc (la probabilità predetta di

rifiuto) con B=0 e R=0,3 è 7,4% (nella probit era 7,5%). Denyc con B=1 e R=0,3 è

22,2% (probit: 23,3%). La differenza tra le due probabilità è quindi del 14,8% (probit:

15,8%)

Confronto tra i modelli lineare di probabilità, probit e logit

I tre modelli sono solo approssimazioni della funzione di regressione ignota della

popolazione E(Y|X)= P(Y=1|X). Il modello lineare di probabilità è il più facile da

usare e da interpretare, ma non riesce a catturare la natura non lineare della

vera funzione di regressione della popolazione. La regressione probit e logit

modellano tale non linearità nella probabilità, ma i loro coefficienti di

regressione sono più difficili da interpretare. Quale dovremmo usare in pratica?

Ricercatori diversi usano modelli diversi. Le regressioni probit e logit producono

frequentemente risultati simili. Un modo di decidere tra i modelli logit e probit è quello

di scegliere il metodo che è più facile usare dato il software statistico disponibile, ad

es. Gretl è capace di usare entrambi. Il modello lineare di probabilità fornisce

l’approssimazione meno adatta alla funzione di regressione non lineare della

popolazione. Esso potrebbe produrre un’adeguata approssimazione quando i dati

contengono pochi valori estremi dei regressori. La differenza tra neri e bianchi stimata

dal modello lineare di probabilità è del 17,7%, più alta rispetto alle stime probit e logit,

ma ancora qualitativamente simile.

Applicazione ai dati del Boston HMDA

Le regressioni appena viste indicavano tassi di rifiuto più alti per i richiedenti neri

rispetto a quelli bianchi, tenendo costante R. I funzionari bancari, tuttavia, soppesano

legittimamente molti fattori nel decidere la concessione di un mutuo; se qualcuno di

questi fattori differisce sistematicamente a seconda dell’etnia, allora gli stimatori

considerati finora sono distorti a causa dell’omissione di variabili rilevanti. Ricordiamo

che il nostro obiettivo è quello di stimare l’effetto dell’etnia sulla probabilità di rifiuto,

tenendo costanti quelle caratteristiche dei richiedenti che un funzionario può per legge

tenere in considerazione quando decide su una domanda di mutuo. Le variabili, in

totale, sono dunque:

Variabili finanziarie:

- Rapporto tra rata e reddito;

- Rapporto tra spese relative all’abitazione e reddito;

- *Rapporto tra valore del prestito e valore stimato dell’abitazione;

- Scoperto sulla carta di credito;

- Rimborso di mutui precedenti;

- Problemi creditori tanto gravi, come la bancarotta, da apparire in un registro

giudiziario pubblico.

- *Negazione o meno della richiesta di un’assicurazione privata sui mutui (se

necessaria);

Altre caratteristiche del richiedente:

- Stato occupazionale;

- Stato civile;

- Livello di istruzione scolastica;

- *Caratteristiche della proprietà (es. appartamento condominiale);

- Bianco o nero;

- Richiesta accettata o meno.

*Se il rapporto prestito/valore della casa tende a 1 (da sinistra, ovviamente) allora la

banca potrebbe avere problemi nel recuperare l’intero ammontare del prestito, qualora

il richiedente non restituisse il prestito e la banca agisse in via esecutiva.

*Talvolta il richiedente deve anche fare richiesta di un’assicurazione privata sui mutui,

in base alla quale l’assicurazione provvede al pagamento mensile alla banca, se il

mutuatario non lo fa. Al tempo di questo studio, se R eccedeva l’80%, al richiedente

veniva solitamente richiesto di stipulare questa polizza. Il funzionario sa se quella

domanda è stata negata, e quel rifiuto dovrebbe pesare negativamente nella sua

decisione.

*In caso di pignoramento, sono rilevanti anche le caratteristiche della proprietà.

Il fatto che l’assicurazione privata sui mutui venga negata sembra essere decisivo: il

coefficiente stimato di 0,702 indica che il rifiuto di un’assicurazione sul mutuo fa

aumentare la probabilità che il mutuo venga negato del 70,2%. Delle nove variabili

incluse nella regressione (oltre alla razza), i coefficienti di 7/9 variabili sono significativi

al 5%, il che è consistente con la pratica del funzionario bancario di considerare molti

fattori nel prendere le proprie decisioni. Il coefficiente di B nella regressione (1), cioè

nel LPM (modello lineare di probabilità) è 0,084, il che indica che la differenza nelle

probabilità di rifiuto per richiedenti neri e bianchi è dell’8,4%, tenendo costanti le altre

variabili nella regressione. Questo coefficiente è significativo all’1% (t= 3,65).

Le stime logit (2) e probit (3) portano a conclusioni simili. Nelle logit e probit, 8/9

coefficienti sono individualmente diversi da zero al livello del 5%, e anche lì il

coefficiente di B è significativo all’1%. Come discusso in precedenza, siccome questi

modelli sono non lineari, debbono essere attribuiti valori specifici a tutti i regressori

per calcolare la differenza tra le probabilità predette per i richiedenti bianchi e neri. Un

modo convenzionale per effettuare questa scelta è considerare un richiedente

“medio”, ovvero un richiedente che abbia valori campionari medi per tutti i regressori

diversi dalla razza. I differenziali razziali stimati sono simili tra loro: 8,4% LPM, 6%

logit, 7,1% probit. Questi effetti razza stimati e i coefficienti di B sono minori

rispetto alle regressioni in cui i soli regressori erano R e B, a indicare che

quelle prime stime erano distorte a causa di variabili omesse. La differenza

stimata di denyc varia da 6 a 8,4 punti percentuali. Ma questa differenza è grande o

piccola? Supponiamo che due individui richiedono un mutuo, uno bianco e uno nero,

che abbiano gli stessi valori per le altre v. indipendenti della regressione pari ai valori

medi campionari dei dati HMDA. Il richiedente bianco ha davanti a sé una probabilità

di rifiuto del 7,4%, mentre il richiedente nero del 14,5%. In questo caso, il

richiedente nero ha una probabilità di rifiuto quasi doppia rispetto al

richiedente bianco. I risultati di questa analisi forniscono un’evidenza

statistica di una componente etnica nel rifiuto dei mutui che, per legge, non

dovrebbe sussistere. La stima di altre specificazioni – forme funzionali diverse e/o

regressori aggiuntivi rispetto a quelli della tabella sul libro – producono anch’esse

stime dei differenziali etnici paragonabili a quelle della tabella. Alcuni hanno messo in

discussione la validità esterna: anche se ci fosse stata discriminazione razziale a

Boston nel 1990, sarebbe sbagliato coinvolgere coloro che oggi concedono prestiti

altrove: il solo modo per risolvere la questione è quello di considerare dati relativi ad

altre località e ad altri anni.


PAGINE

54

PESO

91.61 KB

PUBBLICATO

7 mesi fa


DESCRIZIONE APPUNTO

Riassunto di "Econometria", prof. Bacchiocchi, A.A. 2015/2016. Unimi

Libro consigliato: "Introduzione all'econometria", Pearson (Stock, Watson)

Programma:
- Domande economiche e dati economici
- Richiami di probabilità (nozioni di base)
- Richiami di statistica
- Regressione lineare con un singolo regressore
- Regressione lineare con regressori multipli
- Valutazione di studi basati sulla regressione multipla
- Regressione con variabili strumentali
- Introduzione a regressioni temporali e previsioni


DETTAGLI
Esame: Econometria
Corso di laurea: Corso di laurea in economia e management
SSD:
Università: Milano - Unimi
A.A.: 2016-2017

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher blueice19 di informazioni apprese con la frequenza delle lezioni di Econometria e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Milano - Unimi o del prof Bacchiocchi Emanuele.

Acquista con carta o conto PayPal

Scarica il file tutte le volte che vuoi

Paga con un conto PayPal per usufruire della garanzia Soddisfatto o rimborsato

Recensioni
Ti è piaciuto questo appunto? Valutalo!

Altri appunti di Corso di laurea in economia e management

Economia degli Intermediari Finanziari, prof.ssa Vandone
Appunto
Analisi Costi-Benefici, prof.ssa Vignetti
Appunto