Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
Errore standard della regressione
Lo R di regressione misura la frazione di varianza di Y che viene spiegata dalla X; non ha una unità di misura e varia tra zero (nofit) and uno (fit perfetto)
L'errore standard della regressione misura l'errore del fit - la dimensione dell'errore - nelle unità di Y.
Si scriva Y come somma del valore previsto dagli OLS prediction + il residuo OLS:
Y = Ŷ + u
Lo R rappresenta la frazione della varianza campionaria di Y "spiegata" dalla regressione, cioè da:
R² = ESS / TSS
dove:
ESS = ∑(Y - Ŷ)²
SSR = ∑u²
TSS = ESS + SSR
Lo R:
- R² = 0 significa ESS = 0, cioè (SSR = TSS), quindi X non spiega nulla della variazione di Y
- R² = 1 significa ESS = TSS (SSR = 0), quindi Y = Ŷ e quindi X spiega tutta la variazione di Y
- 0 ≤ R² ≤ 1
Per la regressione con un unico
regressore (il nostro caso qui), R è il quadrato del coefficiente di correlazione tra X e Y
Lo Standard Error of the Regression (SER)
L’errore standard della regressione è quasi uguale all’errore standard dei residui campionari OLS:
SER = √∑ (ui - & divisione per n–1 quando si calcola . Qui laY differenza è costituita dal fatto che nel calcolo dello SER della regressione sono stati stimati due parametri: and , da parte di0 1ˆ ˆ 2s Ye ), mentre nella stima di ne è stato stimato solo uno ( , da parte di ).YY0 1 Quando n è grande non c’è molta differenza tra n, n–1, o n–2 – anche se la formula con n–2 si usa quando c’e’ un solo repressore.2Esempio di R e SER (errore standard della regressione) 4-32·TestScore 2= 698.9 – 2.28STR, R = .05, SER = 18.6(10.4) (0.52)Il messaggio di base di questa regressione è che il coefficiente angolare è statisticamente significativo ed abbastanza largo in termini di“policy”, anche se STR spiega solo una piccola frazione della variazione nei punteggi tra i distretti scolastici. 4-33Regressione Multipla(SW Capitolo 5)Stima OLS della relazione tra Punteggio dei L'omissione di Z dia luogo ad una distorsione da variabile omessa. Nel caso dell'esempio del test score: Quindi è biased (distorto) Omitted variable bias formula: + .1 σXu1 / X Se un fattore omesso Z è, allo stesso tempo: (cioè è finito inconsapevolmente in u); e(2) correlato con X, ≤allora 0 e quindi lo stimatore OLS è biased.Xu 1La formula sopra rende precisamente l'idea che i distretti con pochi studenti ESL (English as Second Language): (1) fanno meglio coitest standardizzati: 4-35(2) hanno classi più piccole (e budget scolastici più alti), di modo che, ignorando il fattore ESL si causa un overstating (unrafforzamento artificiale) del peso nella regressione della dimensione della classe, STR.Cosa si può fare ? Se possibile, usare la variabile PctEL, di modo che la variabile rilevante non è più omessa.La Regressione Multipla Relativa alla PopolazioneSi consideri il caso di due regressori: β β βY = β0 + β1X1 + β2X2 + u , i = 1,…,ni 0 1 1i 2 2i iX1 , X2 sono le due variabili indipendenti (regressori) yi , Xi1 , Xi2 denotano la i-esima osservazione su Y, X1, e X2. β0 = la intercetta sconosciuta della popolazione Interpretazione dei coefficienti della regressione multipla, sempre relativa alla popolazione Y = β0 + β1X1 + β2X2 + u, i = 1,...,ni Si consideri di variare X per un ammontare tenendo costante X: Retta di regressione prima della variazione: E(Y) = β0 + β1X1 + β2X2 Retta di regressione dopo la variazione: E(Y) + E(Y) = β0 + (β1 + Δβ1)X1 + β2X2 ΔX Prima: E(Y) = β0 + (β1 + Δβ1)X1 + β2X2 ΔX Dopo: E(Y) + E(Y) = β0 + (β1 + Δβ1)X1 + β2X2 ΔX Differenza: E(Y) = ΔY/ΔX Cioè, ΔYβ1 = ΔY/ΔX, tenendo X costante ΔX1 also, ΔYβ2 = ΔY/ΔX, tenendo X costante ΔX2 Quanto all'intercetta della regressione: β0 = valore previsto della variabile dipendente Y quando X = X = 0.0 1 2 4-37 Lo Stimatore OLS nella Regressione Multipla Con due regressori, gli stimatori OLS si ottengono minimizzando la seguente espressione: n 2min [Y ( b b X b X )]b ,b ,b i 0 1 1i 2 2 i0 1 2 i 1 Gli stimatori OLS – b , b , b - minimizzano la differenza al quadrato tra i valori effettivi Y e I valori previsti dalla retta di0 1 2 iregressione. Questo problema di minimizzazione è risolto usando l’analisi matematica. Il risultato è lo stimatore OLS di , e .0 1 2 Esempio: I dati dei punteggi scolastici dei distretti della California Regressione dei TestScore contro STR: TestScore = 698.9 – 2.28STR Ora si includa la variabile sulla percentuale degli studenti che studiano l’Inglese come seconda lingua nei 420 distretti scolastici(PctEL): TestScore = 696.0 – 1.10STR – 0.65PctEL Cosa succede al coefficiente di STR? 4-38 Perché ? (Nota: corr(STR, PctEL) = Y = β0 + β1X1 + β2X2 + … + βkXk + u , i = 1,…,ni 1. La distribuzione condizionale delle u, date le X’, ha media zero, cioè, E(u|X1,…, Xk) = 0. 2. (X1,…,Xk,Y), i =1,…,n, sono i.i.d. 3. X1,…, Xk, and u hanno varianza finita. 4. Non vi è multicollinearità perfetta (ma anche quella più bassa disturba molto). Assunto #1: la media condizionale di u, date le X incluse nel modello è pari a zero. è quella di includere la variabile omessa nella regressione. Assunto #2: (X ,…,X ,Y ), i =1,…,n, sono i.i.d.1i ki i Questo assunto è soddisfatto I dati sono stati raccolti in modo casuale o se l’esperimento è stato formulato in modo correttocon dati rappresentativi della popolazione. Assunto #3: hanno varianza finita Questo è un assunto sempre soddisfatto da dati generate da fenomeni delle scienze sociali Assunto #4: Non vi è perfetta multicollinearità La multicollinearità perfetta si ha quando uno dei regressori è una funzione lineare perfetta degli altri regressori. L’esempio perfetto si ha quando si introduce accidentalmente la stessa variabile nella regressione, ma anche in molti altri casinelle scienze sociali. 4-40 Un esempio classico di multicollinearità perfetta si ha con un uso incauto delle variabili dummy. Vediamo sotto.