Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
INFINITE COMBINAZIONI (INFINITI MODELLI EQUIVALENTI), BISOGNA FISSARE O
1
Xβ
SPECIFICARE UN MODELLO SENZA L’INTERCETTA IN . OLTRE A UNA DI QUESTE DUE
ε
RESTRIZIONI, NE VA AGGIUNTA UN’ALTRA SULLA VARIANZA DI , IN MODO DA NON AVERE
UN ULTERIORE PARAMETRO DA STIMARE. IN PARTICOLARE NEL CASO DELL’ORDERED
2
π
Var (ε) = 1 Var (ε) =
PROBIT —> ; LOGIT —> .
NEL CASO DELL’ORDERED 3
β
TENENDO CONTO QUINDI DI QUESTE RESTRIZIONI SI PUO’ STIMARE E LE SOGLIE
α , α , α , α , . . .
1 2 3 4
- Ricorso alle probabilità cumulate. |
P(Y ≤ j x)
In questo caso invece si può fare riferimento alla probabilità cumulata ed
X
esprimerla come funzione delle esplicative . —> INVECE DI LAVORARE SULLE SINGOLE
| | |
P(Y = 1 X ); P(Y = 2 X ); P(Y = 3 X ); ecc . . .
PROBABILITA’ ( ), SI LAVORA CON LA
PROBABILITA' CUMULATA
| | | |
P(Y ≤ j X ) = P(Y = 1 X ) + P(Y = 2 X ) + ⋯ + P(Y = j X )P(Y ≤ j ∣ X ) = P(Y = 1 ∣ X ) + P(Y = 2 ∣ X ) + ⋯ + P(Y = j ∣ X )
|
P(Y ≤ 1 X ) → Prob . lieve;
|
P(Y ≤ 2 X ) → Prob . lieveom oderata;
ESEMPIO: |
P(Y ≤ 3 X ) → ( perdef inizione)
Tale funzione deve assumere valori compresi tra 0 e 1 essendo una probabilità e la funzione di
ripartizione che può rappresentare in modo adatto lo scopo è la seguente —>
|
P(Y ≤ j x) = F(α + xβ ) .
j
F
Nel caso in cui per si scelga la FUNZIONE DI RIPARTIZIONE LOGISTICA, si ha il così detto
( )
|
P(Y ≤ j X )
log = α − Xβ β
CUMULATIVE LOGIT MODEL —> , dove è costante per
j
|
P(Y > j X )
tutte le categorie(IPOTESI DEGLI ODDS PROPORZIONALI); nel caso invece si adotti la
CUMULATIVE PROBIT MODEL
FUNZIONE DI RIPARTIZIONE PROBIT, si avrà il (cioè quando
la F coincide con una funzione di ripartizione Normale standard cioè con media o e varianza 1).
Valutazione degli e etti netti - interpretazione dei parametri: Pagina 57 di 70
ff ff fi
I parametri NON si interpretano come nelle regressioni lineari, infatti, si ha
|
∂P(Y = j X ) [ ]
= β f (α − Xβ ) − f (α − Xβ ) f F
( è la densità cioè la derivata di ). La
k j−1 j
∂x
k J
somma delle probabilità di tutte le categorie è pari a 1.
β
Il segno degli stimatori dà indicazioni sulla direzione degli e etti solo per le due probabilità
| |
P(Y = 0 x) P(Y = J x) β > 0
e
estreme —> se si ha un signi ca che si preferiscono le
categorie superiori, al contrario invece categorie inferiori; per quanto riguarda invece le
β
categorie intermedie, è di cile l’interpretazione, in quanto oltre al segno di , bisogna anche
f (α − Xβ ) − f (α − Xβ )
tener conto della di erenza .
j−1 j
Bontà di adattamento:
Una volta stimato un modello ordered, rimane da VALUTARE LA BONTA’ DI ADATTAMENTO.
Si possono usare diversi strumenti, come CALCOLARE LA PERCENTUALE DELLE PREDIZIONI
Y
CORRETTE —> sia nel complesso che per ciascuna modalità di —> per ogni unità, il valore
y
stimato per l’osservazione corrisponde alla modalità con più elevata probabilità stimata (Per
i
ogni osservazione, si assegna la categoria con probabilità più alta (es. se
P(Y = 2) > P(Y = 1) > P(Y = 3) Y = 2
e , predici )), poi si confronta con il valore reale e
calcola la % di match.
Si ricorda che ci è il solito problema che se una categoria è molto presente si perde l'utilità del
modello, quindi si ricorre al calcolo delle percentuali separate (SENSIBILITA’ e SPECIFICITA’).
Per eventuali problemi di speci cazione, l’eteroschedasticità nella componente di errore del
modello a variabile latente modi ca la forma delle probabilità di risposta e ne comporta la
malspeci cazione.
Nel caso di problemi legati all’ETEROSCHEDASTICITA’, cioè se il modello presenta varianza
ε
degli errori non costante, e quindi le stime sono distorte (l’eteroschedasticità nella
componente dell’errore, nel modello a variabile latente modi ca la forma delle probabilità di
risposta e ne comporta malspeci cazione), se è possibile speci care la struttura
dell’eteroschedasticità, si procede a esplicitarla nel modello, ad esempio mediante la funzione
2
(ε) = exp(X γ) γ, β, α γ
Var , in modo da derivare le stime di e poter e ettuare test su (se
1
γ ≠ 0 c’è eteroschedasticità).
Per selezionare il modello più a dabile si può ricorrere agli indici AIC e BIC (si ricorda che più
bassi sono questi valori meglio è).
PARALLEL REGRESSION ASSUMPTION (nel modello logit è detta PROPORTIONAL ODDS
ASSUNTION):
Si ricorda che gli ODDS sono le probabilità relative/rapporti di probabilità.
Un’IPOTESI IMPLICITA nel MODELLO ORDERED è la proporzionalità degli ODDS, nel caso
essa non valesse, il modello sarebbe sbagliato X
Ciò che a erma l’assunzione è che UNA GENERICA ESPLICATIVA HA LO STESSO
h
EFFETTO SUGLI ODDS CUMULATIVI INDIPENDENTEMENTE DALLA MODALITA’ J
CONSIDERATA. β j
—> IL VETTORE NON VARIA AL VARIARE DI .
Gra camente si ha che le curve di probabilità cumulata risultano tra loro parallele.
INTERVAL CODED DATA:
Un caso particolare di ORDERED PROBIT si ha nel caso in cui le risposte siano quantitative e
raggruppate in intervalli di valori. —> i dativeli sono continui (ESEMPIO: reddito), ma sono
osservati in intervalli (ESEMPIO: 20.000-30.000)
Y*
In questo caso la variabile latente ha un signi cato quantitativo preciso e non è più un’entità
astratta. |
E(Y* X ) = Xβ
L’obiettivo in questo caso sarebbe stimare .
Per come sono stati codi cati i dati ciò che si osserva è se una variabile ricade all’interno di
uno dei diversi intervalli possibili (ESEMPIO: se il reddito ricade nell’intervallo 20k-30k o in
quello 40k-50k). Y*
In questo modello si ha che è la variabile latente ossia il vero valore (continuo
Pagina 58 di 70
fi fi ff ff fi ffi fi ffi fi fi fi fi ff fi fi ff
α a
NELL’ESEMPIO: reddito); le soglie che sono note e quindi sono sostituiti dalla notazione ,
j j
2
|
a Y* X ∼ N(Xβ, σ )
quindi sono le soglie note e l’IPOTESI DISTRIBUTIVA —> dove
j
2 |
σ = Var (Y* x) si assume indipendente da x.
2
β σ
Ora bisogna stimare e , mentre le soglie sono note.
β Y* X
Vantaggio: i si interpretano come in una regressione lineare (ESEMPIO: se è il reddito e
β = 0,1
è l’istruzione e si può dedurre che un anno in più di istruzione aumenta il reddito di 0,1
k
unità).
SCHEMA RIASSUNTIVO:
Ordered Response Models (Modelli per Risposta Ordinata)
Cos'è: Modelli per variabili categoriche ordinate (es.: "sfavorevole", "neutrale", "favorevole").
Y*
Fondamento: Si basa su una variabile latente continua (es.: "propensione a concordare")
Y α
legata alle categorie osservate tramite parametri soglia :
j
1 Y* ≤ α
se 1
2 α < Y* ≤ α
se 1 2
Y = ⋮
J Y* > α
se J−1
ESEMPIO: Sondaggi con scale Likert.
Sottocasi: ε ∼ N(0,1)
Ordered Probit: Assume 2
ε π /3
Ordered Logit: Assume con varianza
Cumulative Models (Modelli Cumulativi)
Relazione con gli Ordered Response Models:
Sono una speci cazione equivalente degli Ordered Response Models.
Non sono un modello separato, ma un modo alternativo (e matematicamente identico) di
formulare gli stessi modelli. Y*
Approccio: Invece di lavorare con , si modellano direttamente le probabilità cumulate:
P(Y ≤ j ∣ X ) = F(α − Xβ ) F
dove è la funzione di ripartizione (es.: logistica per il
j
Cumulative Logit, normale per il Cumulative Probit).
Vantaggio: Interpretazione diretta degli odds ratio (es.: nel Cumulative Logit):
( )
P(Y ≤ j ∣ X )
log = α + Xβ
j
P(Y > j ∣ X )
Interval Coded Data (Dati Raggruppati in Intervalli)
Relazione con gli altri modelli:
È un caso particolare dell'Ordered Probit (quindi rientra negli Ordered Response Models).
Contesto: Si applica quando i dati osservati sono intervalli di valori continui (es.: reddito in
classi "10k-20k", "20k-30k").
Speci cità: Y*
La variabile latente ha un signi cato quantitativo (es.: reddito e ettivo).
α
Le soglie sono note (sono i limiti degli intervalli ssati a priori).
j 2
E(Y* ∣ X ) = Xβ σ
Si stima la media e la varianza
Y* = [0,10k), [10k,20k) α
reddito
ESEMPIO: Se , e gli intervalli sono , etc., le soglie sono
j
10.000, 20.000, etc.
- MULTINOMIAL MODELS:
QUANDO NON ESISTE UN ORDINAMENTO NATURALE DELLE ALTERNATIVE TRA CUI
SCEGLIERE, LA CODIFICA DI QUESTE E’ DEL TUTTO ARBITRARIA E DLI STRUMENTI DI
ANALISI VISTO FINORA NON SONO ADEGUATI.
Y J J
si suppone che la variabile risposta possa assumere diverse determinazioni, con intero e
Y
positivo. Le varie determinazioni di non sono ordinabili, cioè non hanno una “gerarchia”.
Pagina 59 di 70
fi fi fi fi ff i j
L’obiettivo è spiegare la probabilità che l'unità statistica scelga la categoria in funzione di
regressori. π = P(Y = j ) i j
Si indica con la probabilità che la risposta dell’ -esima unità cada nella -esima
ij i
categoria. J
∑ π = 1
La somma di tutte le probabilità deve essere 1 —> .
ij
j=1
J − 1
Basta stimare probabilità, ciò perchè l’ultima probabilità è derivata per di erenza
π = 1 − π − π
( ).
i3 i1 i2 i y
Per ciascuna delle unità , una e solo una delle variabili indicatrici può assumere valore
i
unitario mentre le altre hanno valore 0.
ESEMPIO:
y = 1 i 0
se l'unità è "Sfavorevole", altrimenti .
i1
y = 1 i 0
se l'unità è "Neutrale", altrimenti .
i2
y = 1 i 0
se l'unità è "Favorevole",