Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
Modelli statistici per le analisi socioeconomiche
Un po' di Ripasso!
- Variabile casuale - è una funzione di eventi a valori reali (definita sullo spazio degli eventi elementari associati ad un esperimento fissato), le cui modalità hanno una probabilità associata che misura la possibilità del fatto che si verifichino.
- es. Gaussiana, Bernoulli
Faccio un esperimento estraendo a caso un individuo dalla popolazione tra giovane, intermedio e vecchio e assegno un numero reale a ciascuno (v.c.) che misura la plausibilità che tale evento si verifichi p(xi).
- Variabile statistica - un esempio può essere l'età e sarà esposta rispetto all'osservazione di un intero collettivo (prima è v.c. ma dopo questa osservata diventa v.s.)
- Stimatore - Lo stimatore di θ (parametro ignoto) è una funzione campionaria che serve a stimare θ, quindi serve a produrre valori plausibili per θ e può farlo commettendo errori di stima misurabili.
- Proprietà:
- 1) Correttezza -> E(tn)=θ non distorsione
- 2) Efficienza -> MSE(t1) < MSE(t2) relativa
- 3) Consistenza -> limn→∞Var(tn)=0 limn→∞E(tn)=θ
- Proprietà:
- Stima - è il valore assunto da uno stimatore.
- Variabile aleatoria - è una funzione che per ogni evento appartenente allo spazio campionario (insieme di tutti i possibili esiti di un esperimento casuale) assume un unico valore reale.
- Variabile discreta - è data se l'insieme finito o infinito numerabile di numeri reali (es. la Bernoulli con media e varianza 1/2).
È nota se esiste una funzione F(x)
- Variabile continua → Assume tutti i valori compresi in un intervallo di R (es. l'uniforme continua in (a,b) che ha media a+b⁄2 e varianza (b-a)2⁄12.
- Gradi di libertà → Sono il n° di osservazioni indipendenti e quindi sono gli n parametri da stimare preliminarmente.
- Intervallo di confidenza → Nel caso della stima puntuale si usa uno stimatore per inferire sul valore di θ e il risultato è un singolo numero, che generalmente non corrisponde al θ. La stima per intervallo invece restituisce un intervallo di θ che garantisce, con un certo livello di confidenza, di contenere θ. Le stime intervallari hanno un estremo superiore e uno inferiore.
- Statistica test → È una funzione campionaria usata per verificare le ipotesi statistiche.
- Errori → Ci sono 2 tipi di errori, di 1a specie quando io rifiuto un'ipotesi vera (è il più grave) e di 2a specie quando io accetto un'ipotesi falsa.
Domanda delle slide 5 o 6
- Quanto vi aspettate che sia l’utile di un uomo che guadagna 1000 $ e ha un livello educativo misurato in 18 anni di scolarizzazione?
- Quanto vi aspettate che sia l’utile di una donna che guadagna 1000 $ e ha un livello educativo misurato in 18 anni di scolarizzazione?
- Qual è la differenza tra R quadro ed R quadro aggiustato?
- Quali sono le osservazioni tratte da questa analisi?
- Ritenete che la differenza tra le risposte fornite ad a) e b) sia statisticamente significativa oppure dovuta al caso?
- dataset "Prestige":
La rappresentazione matriciale sarebbe:
Dopo aver visto le matrici graficamente, adesso possiamo riscrivere lo schema del modello lineare (LM) in forma matriciale, ovvero:
LM → yi = β0 + β4 xi4 +...+ β1 xi1,n-4 + εi
yi = x'iβ + εi
Yi ~ N(τi, σ2)
Noi però ci dobbiamo occupare degli GLM, ovvero dei modelli lineari generalizzati. Qui la Yi non sarà distribuita secondo una Normale, ma secondo... Sarà una distribuzione qualsiasi della famiglia esponenziale.
Yi ~ EF(ε, φ)
g(τi) = x'iβ
g dev'essere monotona, derivabile, e invertibile (sono le 3 proprietà di g).
Valore atteso della generica osservazione εi dove εi ~ EYi... parametro di dispersione...
Distribuzione Geometrica o v.c. geometrica
Sarà discreta e avremo la possibilità di ottenere un successo o un insuccesso. Questo tipo di distribuzione ripete un esperimento Bernoulliano (due soli risultati ovvero successo o insuccesso) fino a quando non si osserva il 1o successo. Le prove o esperimenti Bernoulliani sottostanti saranno indipendenti.
- Y1=1 P{Y=1}=r
- Y2=2 P{Y=2}=(1-r)r
- Y3=3 P{Y=3}=(1-r)(1-r)r
Quindi una distribuzione geometrica sarà:
- Yrf(y;r) = (1-r)y-1r dove y=1,2,3...
probabilità del successo della singola prova Bernoulliana ∈(0,1).
Vi è inoltre un'altra interpretazione di Y, ovvero quella della Y che contra il numero degli insuccessi realizzati prima di osservare il 1o successo, quindi il tempo di attesa misurato nel discreto prima di ottenere il 1o successo. Quindi avremo che quando:
- Y1=0 → r (estraggo subito successo)
- Y2=1 → (1-r)r (estraggo successo dopo aver estratto un insuccesso)
- Y3=2 → (1-r)(1-r)r (estraggo successo dopo aver estratto due insuccessi)
- Y4=3 → (1-r)(1-r)(1-r)r (estraggo successo dopo aver estratto tre insuccessi)
In questa nuova interpretazione avremo:
Quando invece siamo in presenza di una variabile continua, dobbiamo distinguere il caso di una continua per intervalli e di una continua. Quella continua per intervalli sarà una spezzata, ovvero:
FX(x) = FI{X ≤ x2}
Ricapitoliamo: che la funzione di densità è l’inclinazione della funzione di ripartizione
È invertibile perché ad ogni x corrisponde una y non si derivabile nei punti angolosi, perché la derivata destra sarà uguale a quella sinistra.
Quando invece è continua la raffigureremo così:
FX(x)
In questo caso sarà sia monotona, che derivante, che invertibile.
Questa sarà quella che utilizzeremo per la nostra g che sarà monotona, derivabile e invertibile o la (0,1) a ℝ {−∞;+∞}
FX−1(x)
Funzione Logistica
L'abbiamo introdotta quando abbiamo parlato della Bernoulli, in particolare della media e della varianza Bernoulliana appartenente alla famiglia esponenziale. Se ci pensiamo, abbiamo che:
E(Y|x) = μ(x) = a + bx
Siccome questo pezzettino varia in ℝ ma sappiamo che la Bernoulli è presente soltanto con valori a allora questo pezzettino è un po' insensato
Pr {Y = 1|X = x>j}(0,1)
CASO 2
x livello di istruzione
E(Ŷi|xi) =
- β0 + β1 0 + β2 0 se i è scuola o obbligo
- β0 + β1 1 + β2 0 se i è diploma
- β0 + β1 0 + β2 1 se i è laurea o più
L'interpretazione dei parametri sarà la seguente:
- β0 sarà il reddito medio di chi ha e a x=sc.obbligo
- β0 + β1 sarà il reddito medio di chi ha e a x=diploma
- β0 + β2 sarà il reddito medio di chi ha e a x=laurea o più
dove β0 è il reddito medio se e a x=scuola dell'obbligo, β1 è l'incremento/decremento del reddito medio rispetto alla scuola dell'obbligo per chi ha x=diploma e β2 rappresenta l'incremento/decremento del reddito medio rispetto alla scuola dell'obbligo se x=laurea o più.
X =
matrice disegno associata alla corner point parametrisation
1 0 0
1 1 0
1 0 1
→ in R specifico il modello con y~x
X =
matrice disegno associata alla group parametrisation
1 1 0 0
1 0 1 0
1 0 0 1
→ in R specifico il modello con y~ -1+x