vuoi
o PayPal
tutte le volte che vuoi
Valore atteso
Il valore di Y è E(Y) = y1P1 + y2P2 + ... + ykPk
Varianza e deviazione standard
Var(x) = σx2 = E [x - E(x)]2 =
= E[x - μx]2
= Σ(xi - μx)2 • pi
Varianza di un Bernoulli
σx = √p(1-p)
Curtoosi
La curtoosi di una distribuzione è una misura di quanto sistemo nelle due code e pertanto è una misura di quanto delle varianze di valori dei valori estremi, cioè degli out-lier.
Curtoosi = E[(y - μy)4] / σy4
La curtoosi di una variabile casuale che si distribuisca normalmente è per m = 3. Una distribuzione con curtoosi superiore a 3, e cioè con più masse nella coda, è detta leptocurtica.
Distribuzione congiunta
La distribuzione di probabilità congiunta di due variabili casuali X e Y, fornisce le probabilità che tali variabili assumano simultaneamente certi valori x e y
Pr(Xx, Yy)
Distribuzione condizionata
La distribuzione condizionata di Y dato X è la distribuzione delle variabili Y condizionatamente al fatto che un'altra variabile casuale X assuma uno specifico valore.
Pr(Y=y | X=x) = Pr(X=x, Y=y) / Pr(X=x)
Congiunto / marginale
Indipendenza
X e Y sono indipendenti se le distribuzioni condizionate di Y dato X è uguale alla distribuzione marginale di Y
Covarianza
La covarianza tra X e Y è il valore della E[(X-μx)(Y-μy)]
= ΣΣ(xi - μx)(yj - μy)Pr(X=xi, Y=yj)
Essa misura precisamente come e quanta due variabili casuali X e Y fluttuano insieme.
Se X e Y sono indipendenti, la loro covarianza è zero. Se X e Y tendono a muoversi in direzioni opposte, la loro covarianza è negativa.
Correlazione
La correlazione è una misura alternativa di dipendenza tra X e Y che risente il modo uno dalle unità di misura.
Le variabili casuali X e Y sono incorrelate se corr(X,Y) = 0
Distribuzione normale
La distribuzione normale standard è la distribuzione normale con media μ=0 e varianza s²=1, N(0,1). Per determinare le probabilità nel caso di una variabile normale con media e varianza generiche, è necessario standardizzarla →
Teorema del limite centrale
Secondo il teorema del limite centrale, per n grande, la distribuzione (Yn - μ) / sn è ben appassim di una normale.
Estrazioni i.i.d.
Nel campionamento casuale semplice, campioni sono estratti assolutamente da una popolazione e ogni campione ha la stessa probabilità di essere estratto, le variabili Y1, Yn sono compostamente e identicamente distribuite.
Consistenza
Lo stimatore vera valore del parametro p grande si trova un parametro μY con probabilità, incremento a crescere consistenza
Non distorsione
Quando la media della distribuzione di uno stimatore è uguale a μY, si dice che lo stimatore è non distorto o correto.
Efficienza
Tra due stimatori, entrambi non distorti, il più efficiente quello che presenta una varianza minore.
Infine in secondo luogo, sebbene vediamo le condizioni del teorema, a volte
possono esserci stimatori alternativi che non sono lineari e completamente
meno distorti più efficienti degli OLS.
Distorsione da variabili omesse
Se il regressore X è correlato con una variabile omessa dall’analisi
ma che determina in parte le variabili dipendenti, lo stimatore OLS
subisce una distorsione da variabile omessa. Affinché vi sia distorsione
devono verificarsi due condizioni: X è correlato con la variabile omessa,
e variabile omessa contribuisce a determinare la variabile dipendente Y.
La distorsione da variabile omessa è dovuta al venir meno della prima
ipotesi dei minimi quadrati che dirà E(ux|X)=0.
Se una variabile omessa è un determinante di Y, essa è inclusa nell’
errore u, se è correlata con Y, anche l’errore è correlato con X, e
quindi la media di μ x condizionata e X, e non nulla.
SER
SER =
- ∑m-k-1
R2 corretto
Poiché il R2 aumenta aggiungendo una nuova variabile, un aumento dell’
R2 non significa che aggiungere una variabile migliori realmente l’adatt.
del modello. In questo senso il R2 fornisce una stima in eccesso della
bontà della regressione. Un modo per correggere questo effetto è calcolare
l R2 corretto.
Reassunzioni dei minimi quadrati per la regressione
- Le distribuzioni di μ x condizionate a X1 …Xk è ames nulle.
- Le (x1…, xk) sono come suano casuali indipendentemente identicamente
3) CAUSALITÀ SIMULTANEA
La distorsione da causalità simultanea si verifica in una regressione
quando in aggiunta al legame causale d'interesse da Yr e X vi è un le-
game causale da Yi a X. Questa causalità inversa rende X correlato con
l’errore nella regressione d’interesse.
Una soluzione al problema potrebbe essere l’uso della regressione con
variabili strumentali:
Yr = β0 + β1 Xi + ui
Xi = γ0 + γ1 Vi + vi
Ognuna di queste condizioni rende invalida la prima assunzione dei minimi
quadrati E(ui | X1 … XK) ≠ 0 e ciò a sua volta implica che lo stimatore
OLS è distorto e inconsistente.
✖ Se gli errori sono eteroschedastici allora gli OLS non sono BLUE.
È possibile costruire uno stimatore che ha varianza minore rispetto
allo stimatore OLS, attraverso il metodo dei minimi quadrati
ponderati.
Stimatore TSLS
Quando vi è un solo Xi e un solo strumento Zi esiste una formula semplice
per lo stimatore TSLS
β1TSLS = Cov(Z, Yi) / Cov(Z, Xi)
Il modello generale di regressione IV
Il modello generale di regressione IV prevede i seguenti tipi di variabili:
- Variabili dipendenti Y
- Regressori endogeni che causano problemi
- Regressori aggiuntivi che non sono correlati con l’errore, chiamati VARIABILI
- ESOGENE INNOCUE W
- Variabili strumentali Z
Poiché sia possibile effettuare una regressione IV, devono essere almeno tante
variabili strumentali quante sono i regressori endogeni.
I coefficienti di regressione sono detti ESATTAMENTE IDENTIFICATI se il numero
di strumenti (m) è uguale al numero di regressori endogeni (k).
I coefficienti sono SOVRAIDENTIFICATI se il numero di strumenti è maggiore del
numero di regressori endogeni.
I coefficienti sono SOTTOIDENTIFICATI se il numero di strumenti è minore
del numero di regressori endogeni.
Minimi quadrati a due stadi (TSLS)
Lo stimatore TSLS per il modello generale di regressione IV con più
variabili strumentali si calcola in due stadi:
- REGRESSIONE DEL PRIMO STADIO. Si effettua una regressione di Xi sulle
variabili strumentali (Z) e sulle variabili esogene (W) tramite gli OLS
si calcolano i valori predetti da questa regressione, indicati da X^.
- REGRESSIONE DEL SECONDO STADIO. Si effettua una regressione di Yi
su valori predetti delle variabili endogene Xi e sulle variabili esogene
W tramite gli OLS. Gli stimatori TSLS βTSLS sono gli stimatori
ottenuti dalla regressione del secondo stadio.