Appunti Statistica III - Teoria

Appunti per l'esame di statistica III basate su appunti personali del publisher presi alle lezioni dell’università degli Studi di Pegaso - Unipegaso, della facoltà di …

Esame Statistica III

Facoltà Scienze statistiche

Dal corso del Prof. Migliorati Sonia

Università Università degli Studi di Milano - Bicocca

Publisher aina.belloni

A.A. 2019-2020

44 pagine

13 download

Appunto

Vota 5,0 / 5 (1)

Scarica

Estratto del documento

MODELLI LINEARI: LM

Y = X β + ε

ε ~ Nm (0, σ²I) - omoschedasticità
X - matrice del DISEGNO (fissa non stocastica)
β - matrice dei COEFFICIENTI

Yi = Xi β + εi = i-esima risposta (i = 1,..., m)

E(Yi) = μi = Xi β = μ

Yi ~ N(μi, σ²) - indipendenti (indipendente di variare di i)

LIMITI DEL MODELLO LM

Se non c'è normalità della risposta ⇒ TRASFORMANO (log,...) le volte la trasformata è normale, ma non funziona sempre. Il problema sta poi nell'INTERPRETARE i coefficienti.
Se non c'è omoschedasticità degli errori ⇒ vedi econometria
Se il supporto della risposta non coincide con IR (ad esempio se è DISCRETO come una risposta dicotomica)
Se non c'è linearità (Yi = f(Xi1,...,Xik, β) + εi)

MODELLI LINEARI GENERALIZZATI: GLM

Estendiamo gli LM in due direzioni:

f non è lineare ⇒ μi non è uguale al predittore m. ⇒ g(μi) = mi (link function NOTA, MONOTONA, DERIVABILE ≠ da E(h(Y)) = mi media della trasformata
Non c'è la normalità ⇒ Yi ~ DE1 DE1 = famiglia di dispersione esponenziale di ORDINE 1 (normale, binomiale, insieme poisson, gamma, beta)

OSSERVAZIONI

LM è GLM con link function = g identità e Y ~ N
Se Y DICOTOMICA ⇒ modelli di regressione logistica
Se Y CONTEGGIO ⇒ regressione poissoniana

REGRESSIONE LOGISTICA

Y DICOTOMICA ≤ 1

BORNOULLI Y ∼ Be(θ)

S_y = {0,1}, f(y,θ) = θ^y (1 - θ)^1-y

E(Y) = θ, Var(Y) = θ(1-θ)

Escluso di usare U.M. perchè:

DISTRIBUZIONE BERNOUILIANA (non normale) S_y ≠ R

E(Y) = μ_i = θ_i - M_i = X_iβ

θ ∈ (0,1) ∈ R, M_i non ha senso equiparare a M_i perchè hanno supporti diversi!

LINEAR PROBABILITY MODEL

θ_i

--------

–

________x

se k=1

Nei GUM, Y_i = M_i + ε_i

₁ ₂

μ_i~ N(0,σ² I)

Negli GUM: Var(Y_i) = θ_i (1 - θ_i) → θ (X_i, t α_ik)

→ dipende dalla MEDIA e quindi dalle covar

→ dipende quindi da t (i, m)

→≠ c’è ETEROSCHEDASICITA

La COMPONENTE ERRATICA e non ha più senso dato

che non c’è più separazione tra componente sistematica e quella erratica.

Dato Y_i = μ_i + ε

₁ _i

E(Y_i)

se Y_i = 0 → ε = -θ_i prob = 1-θ

se Y_i = 1 → ε = 1-θ prob = θ_i

⇒ ε_i: può assumere due valori, ma non possiamo sapere quale

⇒ NEI GUM NON C’E PIU’ ε ε discreta

VERIFICA DI IPOTESI

TEST DI WALD - TEST Z: significatività

H₀: β₁ = 0

STATISTICA TEST = β̂₁ / SE(β̂₁)

p-value = 2 P(Z > |Z VALUE|)

IC per β_i = β̂_i ± Z_1−α/2 SE(β̂_i)

IC per logit Θ = logit Θ̂ ± Z_1−α/2 SE(logit Θ̂)

logit Θ̂ = β̂₀ + β̂₁ χ_i

Var(logit Θ̂) = Var(β̂₀) + χ_i² Var(β̂₁) + 2 χ_i Cov(β̂₀, β̂₁)

SE(logit Θ̂) = √Var(logit Θ̂)

IC per logit Θ̂ = (logit Θ̂ ± Z_1−α/2 · SE(logit Θ̂))

IC per Θ = (^{e^{logit Θ̂ ± Z_1−α/2 · SE(logit Θ̂)}} / _{1 + e^{logit Θ̂ ± Z_1−α/2 · SE(logit Θ̂)}})

(da quello precedente)

se χ_i = 50 → logit Θ̂ = -5.309 + 0.111 · 50 = 0.24

0.24 ± 1.96 √(1.2851 + 50² · 0.000579 + 2 · 50 · (-0.026627))

IC per logit Θ̂ a livello di confidenza 1−α = 0.95

= (-0.26, 0.74)

IC per Θ = (^{e^-0.26} / _{1 + e^-0.26}, ^{e^0.74} / _{1 + e^0.74}) = (0.435, 0.677)

TEST PER IL MODELLO (TRV): modelli annidati

Dati M₁, C_M2 (M₁ restrizione di M₂) con K₁ ⩽ K₂

H₀: β̂_K1+1 = ... = β̂_K2 = 0

Dato L_M sup del logverosimiglianza di M e L_M2 sup logveros.:

Λ = 2 log ^L_M1/_{L_M2} ≈ χ²_{K₂ − K₁}

P-VALUE = P(χ²_{K₂ − K₁} > λ_os)

TEOREMA DI WILKS

FAMIGLIA ESPONENZIALE NATURALE di ordine 1

È una famiglia PARAMETRICA tale che:

EN₁ = { f(x, Θ) = exp{ x · Θ - C(Θ)} · d(x), x ∈ S_x, Θ ∈ Θ }

dove:

Θ: è il PARAMETRO NATURALE o CANONICO
X: è l'OSSERVAZIONE NATURALE
C(Θ): è una funzione nota che non dipende da X
d(x): è una funzione nota che non dipende da Θ
S_x: i vettori di X che garantiscono la funzione di densità POSITIVA (f > 0)

Alternativamente posso scrivere f(x, Θ) come:

f(x, Θ) = exp{ x · Θ - C(Θ) + D(x)} dove exp{ D(x)} = d(x)

OSSERVAZIONI

Data una EN₁ con Θ parametrico, posso dimostrare che:

C(Θ) è la FUNZIONE GENERATRICE DEI CUMULANTI (dei momenti)

Consente di calcolare i momenti di ogni ordine.

C'⁽¹⁾(Θ) = E(X)

C'⁽²⁾(Θ) = Var (X)

FAMIGLIA ESPONENZIALE di ordine 1

E₁ = { f(x, Θ) = exp { a(x) · b(Θ) - C(Θ)} · d(x), x ∈ S_x, Θ ∈ Θ }

dove:

a(x) e d(x) sono funzioni note ma dipendenti da Θ
b(Θ) e c(Θ) sono funzioni note non dipendenti da X
a(x): OSSERVAZIONE NATURALE
b(Θ): PARAMETRO CANONICO o NATURALE

TEOREMA

Se x → f(x, Θ) ∈ E₁, allora:

E[a(x)] = c'⁽¹⁾(Θ) / b'⁽¹⁾(Θ)
Var[a(x)] = c'⁽²⁾(Θ) b'⁽¹⁾(Θ) - [C'(Θ)b'⁽²⁾(Θ)] / [b'(Θ)]³

dimostrazione

∫_{S_x} f(x, Θ) = 1, o S_x f(x, Θ) = 1

∂/∂Θ ∫_{S_x} f(x, Θ) = ∂/∂Θ ∫_{S_x} exp{ a(x) b(Θ) - c(Θ)} d(x) dx = 0

E[a(x)] = c'⁽¹⁾(Θ) / b'⁽¹⁾(Θ) dato E[a(x)] = ∫_{S_x} a(x) f(x, Θ) dx

FAMIGLIA DI DISPERSIONE ESPONENZIALE

Famiglia i cui elementi sono caratterizzati da un parametro bidimensionale:

Θ - Θ(μ) → μ - μ(Θ)
φ parametro di dispersione

DE₁ = { f(x, Θ, φ) = exp[ x · Θ - C(Θ) / h(φ) + d(x, φ) ],

x ε X
Θ ε Ø
φ ε Φ

dove

Θ e φ sono parametri scalari ignoti
C(Θ) funzione nota che non dipende né da x né da φ
h(φ) funzione nota che non dipende né da x né da Θ
d(x, φ) funzione nota che non dipende da Θ

OSSERVAZIONI

Θ è il parametro canonico/naturale (di interesse inferenziale)
φ è il parametro di dispersione (distruttore, non oggetto di inferenza)
se (Θ, φ) entrambi ignoti → DE₁ ≠ E₂
se Θ ignoto e φ noto → DE₁ = E₂ con parametro canonico = Θ

FUNZIONE DELLA MEDIA E VARIANZA

E(X) = μ = μ(Θ) = C'(Θ)
Var(X) = V(μ) · h(φ) = C''(Θ) · h(φ) = μ'(Θ) · h(φ)
dimostrazione E(x)

DE₁ log f(x, Θ, φ) = x · Θ - C(Θ) / h(φ) + d(x, φ)

log verosimiglianza relativa ad una prova in x:

S(Θ, x) = ∂ log f(x, Θ, φ) - x · C'(Θ) / h(φ)

E(S(Θ, x)) - E[X - C'(Θ) / h(φ) ] = 0 → E[X] = E[C'(Θ)]

E(X) - C'(Θ)

d² log f

∂ E[ S²(ω, x) ] - E ^[ S²(ω) ∂Θ² ^] → dato C'(Θ) = E(X)

[E[X^{2 ] + C'(Θ) - 2 [E(X)²]}

C''(Θ) · h(φ) = E[X² ]

Anteprima

Vedrai una selezione di 10 pagine su 44