Anteprima
Vedrai una selezione di 10 pagine su 44
Appunti Statistica III - Teoria Pag. 1 Appunti Statistica III - Teoria Pag. 2
Anteprima di 10 pagg. su 44.
Scarica il documento per vederlo tutto.
Appunti Statistica III - Teoria Pag. 6
Anteprima di 10 pagg. su 44.
Scarica il documento per vederlo tutto.
Appunti Statistica III - Teoria Pag. 11
Anteprima di 10 pagg. su 44.
Scarica il documento per vederlo tutto.
Appunti Statistica III - Teoria Pag. 16
Anteprima di 10 pagg. su 44.
Scarica il documento per vederlo tutto.
Appunti Statistica III - Teoria Pag. 21
Anteprima di 10 pagg. su 44.
Scarica il documento per vederlo tutto.
Appunti Statistica III - Teoria Pag. 26
Anteprima di 10 pagg. su 44.
Scarica il documento per vederlo tutto.
Appunti Statistica III - Teoria Pag. 31
Anteprima di 10 pagg. su 44.
Scarica il documento per vederlo tutto.
Appunti Statistica III - Teoria Pag. 36
Anteprima di 10 pagg. su 44.
Scarica il documento per vederlo tutto.
Appunti Statistica III - Teoria Pag. 41
1 su 44
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

MODELLI LINEARI: LM

Y = X β + ε

  • ε ~ Nm (0, σ²I) - omoschedasticità
  • X - matrice del DISEGNO (fissa non stocastica)
  • β - matrice dei COEFFICIENTI

Yi = Xi β + εi = i-esima risposta (i = 1,..., m)

E(Yi) = μi = Xi β = μ

Yi ~ N(μi, σ²) - indipendenti (indipendente di variare di i)

LIMITI DEL MODELLO LM

  • Se non c'è normalità della risposta ⇒ TRASFORMANO (log,...) le volte la trasformata è normale, ma non funziona sempre. Il problema sta poi nell'INTERPRETARE i coefficienti.
  • Se non c'è omoschedasticità degli errori ⇒ vedi econometria
  • Se il supporto della risposta non coincide con IR (ad esempio se è DISCRETO come una risposta dicotomica)
  • Se non c'è linearità (Yi = f(Xi1,...,Xik, β) + εi)

MODELLI LINEARI GENERALIZZATI: GLM

Estendiamo gli LM in due direzioni:

  1. f non è lineare ⇒ μi non è uguale al predittore m. ⇒ g(μi) = mi (link function NOTA, MONOTONA, DERIVABILE ≠ da E(h(Y)) = mi media della trasformata
  2. Non c'è la normalità ⇒ Yi ~ DE1 DE1 = famiglia di dispersione esponenziale di ORDINE 1 (normale, binomiale, insieme poisson, gamma, beta)

OSSERVAZIONI

  • LM è GLM con link function = g identità e Y ~ N
  • Se Y DICOTOMICA ⇒ modelli di regressione logistica
  • Se Y CONTEGGIO ⇒ regressione poissoniana

REGRESSIONE LOGISTICA

  • Y DICOTOMICA ≤ 1

BORNOULLI Y ∼ Be(θ)

Sy = {0,1}, f(y,θ) = θy (1 - θ)1-y

E(Y) = θ, Var(Y) = θ(1-θ)

Escluso di usare U.M. perchè:

  • DISTRIBUZIONE BERNOUILIANA (non normale) Sy ≠ R

E(Y) = μi = θi - Mi = Xiβ

θ ∈ (0,1) ∈ R, Mi non ha senso equiparare a Mi perchè hanno supporti diversi!

LINEAR PROBABILITY MODEL

θi

--------

________x

se k=1

Nei GUM, Yi = Mi + εi

1 2

μi~ N(0,σ2 I)

Negli GUM: Var(Yi) = θi (1 - θi) → θ (Xi, t αik)

→ dipende dalla MEDIA e quindi dalle covar

→ dipende quindi da t (i, m)

→≠ c’è ETEROSCHEDASICITA

La COMPONENTE ERRATICA e non ha più senso dato

che non c’è più separazione tra componente sistematica e quella erratica.

Dato Yi = μi + ε

1 i

E(Yi)

se Yi = 0 → ε = -θi prob = 1-θ

se Yi = 1 → ε = 1-θ prob = θi

⇒ εi: può assumere due valori, ma non possiamo sapere quale

⇒ NEI GUM NON C’E PIU’ ε ε discreta

VERIFICA DI IPOTESI

TEST DI WALD - TEST Z: significatività

H0: β1 = 0

STATISTICA TEST = β̂1 / SE(β̂1)

p-value = 2 P(Z > |Z VALUE|)

IC per βi = β̂i ± Z1−α/2 SE(β̂i)

IC per logit Θ = logit Θ̂ ± Z1−α/2 SE(logit Θ̂)

logit Θ̂ = β̂0 + β̂1 χi

Var(logit Θ̂) = Var(β̂0) + χi2 Var(β̂1) + 2 χi Cov(β̂0, β̂1)

SE(logit Θ̂) = √Var(logit Θ̂)

IC per logit Θ̂ = (logit Θ̂ ± Z1−α/2 · SE(logit Θ̂))

IC per Θ = (elogit Θ̂ ± Z1−α/2 · SE(logit Θ̂) / 1 + elogit Θ̂ ± Z1−α/2 · SE(logit Θ̂))

(da quello precedente)

se χi = 50 → logit Θ̂ = -5.309 + 0.111 · 50 = 0.24

0.24 ± 1.96 √(1.2851 + 502 · 0.000579 + 2 · 50 · (-0.026627))

IC per logit Θ̂ a livello di confidenza 1−α = 0.95

= (-0.26, 0.74)

IC per Θ = (e-0.26 / 1 + e-0.26, e0.74 / 1 + e0.74) = (0.435, 0.677)

TEST PER IL MODELLO (TRV): modelli annidati

Dati M1, CM2 (M1 restrizione di M2) con K1 ⩽ K2

H0: β̂K1+1 = ... = β̂K2 = 0

Dato LM sup del logverosimiglianza di M e LM2 sup logveros.:

Λ = 2 log LM1/LM2 ≈ χ2K2 − K1

P-VALUE = P(χ2K2 − K1 > λos)

TEOREMA DI WILKS

FAMIGLIA ESPONENZIALE NATURALE di ordine 1

È una famiglia PARAMETRICA tale che:

EN1 = { f(x, Θ) = exp{ x · Θ - C(Θ)} · d(x), x ∈ Sx, Θ ∈ Θ }

dove:

  • Θ: è il PARAMETRO NATURALE o CANONICO
  • X: è l'OSSERVAZIONE NATURALE
  • C(Θ): è una funzione nota che non dipende da X
  • d(x): è una funzione nota che non dipende da Θ
  • Sx: i vettori di X che garantiscono la funzione di densità POSITIVA (f > 0)

Alternativamente posso scrivere f(x, Θ) come:

f(x, Θ) = exp{ x · Θ - C(Θ) + D(x)} dove exp{ D(x)} = d(x)

OSSERVAZIONI

Data una EN1 con Θ parametrico, posso dimostrare che:

  • C(Θ) è la FUNZIONE GENERATRICE DEI CUMULANTI (dei momenti)

Consente di calcolare i momenti di ogni ordine.

C'(1)(Θ) = E(X)

C'(2)(Θ) = Var (X)

FAMIGLIA ESPONENZIALE di ordine 1

E1 = { f(x, Θ) = exp { a(x) · b(Θ) - C(Θ)} · d(x), x ∈ Sx, Θ ∈ Θ }

dove:

  • a(x) e d(x) sono funzioni note ma dipendenti da Θ
  • b(Θ) e c(Θ) sono funzioni note non dipendenti da X
  • a(x): OSSERVAZIONE NATURALE
  • b(Θ): PARAMETRO CANONICO o NATURALE

TEOREMA

Se x → f(x, Θ) ∈ E1, allora:

  • E[a(x)] = c'(1)(Θ) / b'(1)(Θ)
  • Var[a(x)] = c'(2)(Θ) b'(1)(Θ) - [C'(Θ)b'(2)(Θ)] / [b'(Θ)]3

dimostrazione

Sx f(x, Θ) = 1, o Sx f(x, Θ) = 1

∂/∂Θ ∫Sx f(x, Θ) = ∂/∂Θ ∫Sx exp{ a(x) b(Θ) - c(Θ)} d(x) dx = 0

E[a(x)] = c'(1)(Θ) / b'(1)(Θ) dato E[a(x)] = ∫Sx a(x) f(x, Θ) dx

FAMIGLIA DI DISPERSIONE ESPONENZIALE

Famiglia i cui elementi sono caratterizzati da un parametro bidimensionale:

  • Θ - Θ(μ) → μ - μ(Θ)
  • φ parametro di dispersione

DE1 = { f(x, Θ, φ) = exp[ x · Θ - C(Θ) / h(φ) + d(x, φ) ],

  • x ε X
  • Θ ε Ø
  • φ ε Φ

dove

  • Θ e φ sono parametri scalari ignoti
  • C(Θ) funzione nota che non dipende né da x né da φ
  • h(φ) funzione nota che non dipende né da x né da Θ
  • d(x, φ) funzione nota che non dipende da Θ

OSSERVAZIONI

  • Θ è il parametro canonico/naturale (di interesse inferenziale)
  • φ è il parametro di dispersione (distruttore, non oggetto di inferenza)
  • se (Θ, φ) entrambi ignoti → DE1 ≠ E2
  • se Θ ignoto e φ noto → DE1 = E2 con parametro canonico = Θ

FUNZIONE DELLA MEDIA E VARIANZA

  • E(X) = μ = μ(Θ) = C'(Θ)
  • Var(X) = V(μ) · h(φ) = C''(Θ) · h(φ) = μ'(Θ) · h(φ)
  • dimostrazione E(x)

DE1 log f(x, Θ, φ) = x · Θ - C(Θ) / h(φ) + d(x, φ)

log verosimiglianza relativa ad una prova in x:

S(Θ, x) = ∂ log f(x, Θ, φ) - x · C'(Θ) / h(φ)

E(S(Θ, x)) - E[X - C'(Θ) / h(φ) ] = 0 → E[X] = E[C'(Θ)]

E(X) - C'(Θ)

d2 log f

∂ E[ S2(ω, x) ] - E [ S2(ω) ∂Θ2 ] → dato C'(Θ) = E(X)

[E[X2 ] + C'(Θ) - 2 [E(X)2]

C''(Θ) · h(φ) = E[X2 ]

Dettagli
Publisher
A.A. 2019-2020
44 pagine
13 download
SSD Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher aina.belloni di informazioni apprese con la frequenza delle lezioni di Statistica III e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Milano - Bicocca o del prof Migliorati Sonia.