Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
V(µ E(Y
ϕ ) + ) − µ ϕV (µ )
i i i i
= =
2 2
V(µ ) ϕ
i
V(µ 1
ϕ )
i .
=
= 2 2 V(µ
V(µ )ϕ
) ϕ i
i
Siccome la score function è la derivata della funzione di log-verosimiglianza si
Z
ha che µ i
, S(t, y ) dt
Q(µ y ) = i
i i y i
rappresenta l’i-esimo contributo alla quasi-verosimiglianza (più correttamente
quasi-log-verosimiglianza). Di conseguenza la funzione di quasi-verosimiglianza
è definita come X
n ,
y) Q(µ y ).
Q(µ, = i i
i=1
Si dimostra che lo stimatore di massima quasi-verosimiglianza coincide con
quello di massima verosimiglianza.
Osservazione Non esiste una legge di distribuzione DE che porti alla quasi-
3.3. 1
verosimiglianza.
Osservazione Non si può fare inferenza.
3.4.
Nella pratica, si stima il parametro di dispersione come se fosse diverso da
ϕ
cioè
1, 2
X .
ϕ̃ = m − k − 1
Determinato si aggiustano gli standard error degli stimatori come segue
B̂
ϕ̃, q con ,
SE( B̂ ) ϕ̃ j = 0, 1, . . . k
j 3.
CAPITOLO REGRESSIONE BINOMIALE
36
e si ricalcolano i test per la significatività dei coefficienti di regressione.
Tipicamente si trovano meno coefficienti di regressione significativi.
3.8 Modello di regressione binaria logistica semplice
binary logit model
Il modello di regressione binaria logistica o è un caso particola-
re del modello di regressione binomiale con logit canonico. Si ha la regressione
binaria quando il numero di ripetizioni è pari ad per ogni pattern delle
1
covariate, cioè per ,
n = 1 i = 1, 2, . . . m.
i
Di conseguenza, vale che il numero di pattern delle covariate coincide con il
numero di osservazioni, cioè m = n.
Il modello di regressione binaria prevede quindi che l’i-esima variabile risposta
sia distribuita come una Bernoulli di parametro , cioè
µ i
∼ Be(µ per ,
Y ) i = 1, 2, . . . n.
i i
La specificazione del modello di regressione binaria logistica è la seguente:
}
exp{θ
i
∼ DE ,
Y µ = µ(θ ) =
i 1 i i }
exp{θ
1 + i
V(µ ) = µ (1 − µ ),
i i i
h(ϕ) = 1
e µ i
log per ,
= η = β + β x i = 1, 2, . . . n.
i 0 1 i
1 − µ i
La funzione di verosimiglianza è Y
n y
L(µ, 1−y
i
y) µ (1 − µ ) i
i
i
i=1
3.8. MODELLO DI REGRESSIONE BINARIA LOGISTICA SEMPLICE 37
mentre la funzione di log-verosimiglianza è
L(µ,
log
y) y)
ℓ(µ, = =
X
n y 1−y
i
log
= µ (1 − µ ) =
i
i
i
i=1
X
n h i
log log(1
= y µ + (1 − y ) − µ ) =
i i i i
i=1
X
n µ i
h i log(1 .
log + − µ )
= y i
i 1 − µ i
i=1
Siccome è funzione di bisogna massimizzare Dato che
µ β, ℓ(β). µ =
i
}
exp{β +β x
0 1 i , vale che
}
1+exp{β +β x
0 1 i }).
log(1 log(1 exp{β
− µ ) = − + + β x
i 0 1 i
Allora si ha che X
n })]
log(1 exp{β .
y) [y
ℓ(µ, = (β + β x ) − + + β x
i 0 1 i 0 1 i
i=1
Il primo elemento della score function è
∂ℓ(β)
S (β) = =
1 ∂β 0
X X
n n }
exp{β + β x
0 1 i
= y −
i }
exp{β
1 + + β x
0 1 i
i=1 i=1
mentre il secondo è ∂ℓ(β) =
S (β) =
2 ∂β 1
X X
n n }
exp{β + β x
0 1 i .
= y x − x
i i i }
exp{β
1 + + β x
0 1 i
i=1 i=1
Il conseguente sistema di equazioni di verosimiglianza, cioè
P P
}
exp{β +β x
n n 0 1 i
y − = 0
}
i
i=1 i=1 1+exp{β +β x
0 1 i
P P
}
exp{β +β x
n n 0 1 i
y x − x = 0.
}
i i i
i=1 i=1 1+exp{β +β x
0 1 i
Questo sistema non ammette una soluzione analitica e perciò si utilizza l’IRLS.
3.
CAPITOLO REGRESSIONE BINOMIALE
38 Lo stimatore dei parametri di regressione gode delle proprietà degli
B̂
stimatori di massima verosimiglianza. Di conseguenza, vale che
d N −1
−
→
B̂ β, [I(β)]
2
dove indica la matrice di informazione attesa di Fisher, definita come
I(β) 2
∂ ℓ(β)
E .
I(β) = − ′
∂β∂β
Siccome X
n
2
∂ ℓ(β)
− = µ (1 − µ ),
i i
2
∂ β 0 i=1 X
n
2 2
∂ ℓ(β) ∂ ℓ(β)
− =− = x µ (1 − µ )
i i i
∂β ∂β ∂β ∂β
0 1 1 0 i=1
e X
n
2
∂ ℓ(β) 2
− = x µ (1 − µ ),
i i
i
2
∂ β 1 i=1
si ha che la matrice di informazione attesa di Fisher è
P P −1
" #
n n
µ (1 − µ ) x µ (1 − µ )
i i i i i
i=1 i=1
P P .
I(β) = n n 2
x µ (1 − µ ) x µ (1 − µ )
i i i i i
i=1 i=1 i
L’intervallo di confidenza di livello per con è
1 − α β j = 1, 2
j
± SE( B̂ ).
β̂ z α2 j
j 1−
q ˆ
dove SE( Var( L’intervallo di confidenza di livello per logit(µ
B̂ ) = B̂ ). 1 − α )
j j i
con , è
i = 1, 2, . . . n ±
logit( SE(logit(
µ̂ ) z µ̂ ))
α2
i i
1−
q ˆ ˆ ˆ
2
dove SE(logit( Var( Var( Cov( , L’intervallo di
µ̂ )) = B̂ ) + x B̂ ) + 2x B̂ B̂ ).
i 0 1 i 0 1
i
confidenza di livello per con , è
1 − α µ i = 1, 2, . . . n
i #
" exp{logit( SE(logit( exp{logit( SE(logit(
µ̂ ) − z µ̂ ))} µ̂ ) + z µ̂ ))}
α2
α2
i i i i
1− 1−
; .
exp{logit( SE(logit( exp{logit( SE(logit(
1 + µ̂ ) − z µ̂ ))} 1 + µ̂ ) + z µ̂ ))}
α2 α2
i i i i
1− 1−
3.8. MODELLO DI REGRESSIONE BINARIA LOGISTICA SEMPLICE 39
3.8.1 Verifica del modello
Per verificare la significatività del coefficiente di regressione si effettua
j-esimo
il test di Wald. Per confrontare due modelli annidati e , rispettivamente
M M
1 2
con e esplicative, si utilizza il teorema di Wilks. Data l’ipotesi nulla
k k > k
1 2 1 · · ·
H : β = = β = 0,
0 k +1 k
1 2
si ha che la statistica test si distribuisce approssimativamente come un
Λ
chi-quadro con gradi di libertà, cioè
k − k
2 1 L d
M 2
1 −→
log .
Λ = −2 χ
L k −k
2 1
H
M 0
2
Se (Λ > λ) < α,
p-value = P
H
0
si rifiuta l’ipotesi nulla e si tiene il modello più ricco M .
2
3.
CAPITOLO REGRESSIONE BINOMIALE
40 4
Capitolo
Regressione di Poisson
Poisson regression)
La regressione di Poisson (o si utilizza quando la variabile
risposta rappresenta un conteggio e il conteggio totale è aleatorio (non fisso)
oppure è fisso ma ignoto. Nel caso in cui il conteggio totale è fisso e noto, si
utilizza la regressione binomiale.
4.1 Specificazione di un modello di regressione di
Poisson
La specificazione del modello di regressione di Poisson è
∼ },
DE exp{θ
Y µ = µ(θ ) =
i 1 i i i
,
V(µ ) = µ
i i
h(ϕ) = 1
e ′
log con ,
x β
µ = η = i = 1, 2, . . . n.
i i i
4.2 Interpretazione dei coefficienti di regressione
Il generico coefficiente rappresenta la variazione del logaritmo della risposta
β̂ j
media all’aumento di di un’unità a parità di tutto il resto. Supponendo che
x
j µ̂ i
si ha che log . Segue che
x = x + 1, β̂ =
ij lj j µ̂ l µ̂ i
}
exp{ .
β̂ =
j µ̂ l
41 4.
CAPITOLO REGRESSIONE DI POISSON
42 }
incidence rate ratio
è detto e exp{ rappresenta la variazione percentuale nella
β̂ β̂
j j
risposta media all’aumentare di di un’unità a parità di tutto il resto.
x
j
4.3 Test di assenza di sovradispersione
Nella regressione di Poisson è possibile effettuare un test per verificare la
presenza di sovradispersione. Si vuole quindi testare l’ipotesi nulla
“assenza di sovradispersione” vs “presenza di sovradispersione”.
H : H :
0 1
La statistica test è X
n 2
(y − y) d
i 2n−1
2 −→ .
χ
X =
sov y
i=1
4.4 Riscrittura dei risultati generali per la regressio-
ne di Poisson
4.4.1 Matrice dei pesi ×
La matrice dei pesi di dimensione è
V n n
diag(v , ,
V = . . . v )
n
1
dove per ,
v = µ i = 1, . . . n.
i i
4.4.2 Pseudo-risposa
In caso di link canonico, le pseudo-risposte sono definite come
y − µ
i i .
z = η +
i i µ i
4.4.3 Addendi di devianza
L’i-esimo addendo di devianza diventa y
h i
i
log
d = 2 y − (y − µ̂ )
i i i i
µ̂ i
per ,
i = 1, 2, . . . n.
4.4. RISCRITTURA DEI RISULTATI GENERALI PER LA REGRESSIONE DI POISSON43
Osservazione La devianza misura la distanza tra il modello corrente e quello
4.1.
saturo tramite logaritmo di un rapporto e tramite differenza, infatti
X
n
y i
⋆ log .
y
D = D = 2 − (y − µ̂ )
i i i
µ̂ i
i=1
4.4.4 Residui di Pearson
I residui di Pearson diventano y − µ̂
i i
Pi √
e = µ̂ i
per ,
i = 1, 2, . . . n.
4.4.5 Poisson rate model
Poisson rate model
Il prevede che la variabile risposta rappresenti il n