Statistica Bayesiana

Appunti di statistica bayesana su:
-Elicitazione della prior.
- Sintesi della posterior.
- Approccio decisionale.
- Verifica d'ipotesi.
Università degli studi di Milano Bicocca -Unimib, Facoltà di scienze statistiche. Scarica il file in formato PDF!

Esame Statistica bayesana

Facoltà Scienze statistiche

Dal corso del Prof. Migliorati Sonia

Università Università degli Studi di Milano - Bicocca

Publisher Pagani21

A.A. 2016-2017

70 pagine

5 download

Appunto

Vota 4,5 / 5 (2)

Scarica

Estratto del documento

I

A 2 (X;

(X;

" # " #

2 log(f θ))

δlog(f θ)) δ

(θ) = = −E

I E

A 2

δθ δθ

Dunque una volta che si ha una prova se ne calcola l’informazione attesa di

Fisher e quanto ottenuto è il nucleo della prior.

Anche (θ) è automatica come Laplace, può essere propria o impropria e

π J

inoltre è SEMPRE invariante.

ESERCIZIO 1

Sia e = 1.

∼

X P o(θ) n

calcolare (θ).

Domanda: π J −θ x

e θ

(x; =

f θ) x! 1 1

(−θ +

2 − x

δ xlog(θ) log(x!)) ] = ] = =

(θ) =

⇒ −E[ E[ θ

I

A 2 2 2

δθ θ θ θ

q 1

(θ) = .

−

∝

Risposta: π θ 2

J θ

Dato che c’è invarianza posso dedurre la prior per trasformazioni, è sufficien-

te calcolare (λ).

∗

E’ propria?

Domanda:

La prior è invariante e in questo caso è impropria. La trasformata

sempre

= = è trasformata biunivoca.

λ g(θ)

Ora vediamo le due possibili vie:

• = = Allora la prior che ottengo è

1 1

→ | − |.

θ δθ 2

λ λ 1 1

1 3

(λ) ( ) =

∗ − −

∝

π λ

2 2

J 2

λ λ

22 1 x

− 1

−θ λ

• parto dalla riparametrizzazione ho (x|θ) = (x|λ) = con

e θ →

f f λ

x! x!

= 0, 1, e 0 0.

→

x .. θ > λ >

Devo calcolare ˜ (λ) (λ), allora

∝

π I

J A

1 (x|λ)) 2

δ log(f x

(x|λ)) = = +

− − − → −

log(f xlog(λ) log(x!) 2 3 2

λ δλ λ λ

Ora cambio il segno dell’equazione e calcolo il valore atteso (rispetto a x)

2 1 1

(λ) = =

−

I E(X)

A 3 2 3

λ λ λ

q 3 (λ)

Allora ˜ (λ) = − ∗

∝ π

π λ 2

J J

Con questa verifica ho dimostrato che la prior di Jeffreys è invariante.

ESERCIZIO 2 q

Sia e = 1; (θ) (θ) è normalizzabile.

∼ ∝

X Ber(θ) n π I

J A

perchè mi basta prendere l’informazione di una prova?

Domanda: si ottiene lo stesso risultato se prendo un campione più grosso

Risposta:

perchè facendo prove indipendenti ho volte l’informazione di una prova.

n n

Ma poichè è una costante e Jeffreys mi da solo il nucleo utilizzando una

proporzione, la prior che si ricava è la stessa (e comunque non avrebbe senso

avere una prior che dipende dall’ampiezza campionaria).

cosa succede se non é uno scalare?

Domanda: θ = (θ ) l’informazione di Fisher diventa

se ho il vettore

Risposta: , ..., θ

θ k

una matrice simmetrica in cui i singoli elementi sono

k k (x|θ))

" #

δ log(f

= −E

I

i,j δθ δθ

i j

e quindi q

(θ) (θ))

∝

π det(I

J A

Soluzione:

(θ) è normalizzabile (θ) = è propria.

√ √

1 1

∝

π π

J J

θ(1−θ) π θ(1−θ)

Osservazione: (θ) (1−θ) riconosco il nucleo di una ).

−

1 12 1

∝ →

π θ Beta( ,

2 2

J π 2

Inoltre più sono piccoli i parametri e meno importanza viene data alla

α β

prior (e conta di più il campione); si vede chiaramente che il meccanismo di

Jeffreys è davvero non informativo perchè mette poca rilevanza alla prior.

Esercizio (multiparametrico)

Data una (µ, con parametri ignoti.

∼

X N σ)

Posso usare indifferentemente o 2

N.B. se voglio una a priori non

σ σ

perchè c’è invarianza e la trasformazione è biuni-

informativa di Jeffreys

voca. q (µ,

(µ, ∝ det(I σ))

π σ)

J A

Vediamo la condizionata 1 1 2

−

(X|µ, = (X|µ,

(x−µ)

√ →

f σ) log(f σ))

2σ

2πσ 2

Ora devo calcolare le derivate seconde e miste:

) 1

δ log(f = = −

...

2 2

δµ σ

2(x

)

2 − µ)

δ log(f = = −

... 3

δµδσ σ

1 3(x

) 2

2 − µ)

δ log(f = = −

...

2 2 4

δσ σ σ

0 !

(µ, = 2

→ σ

I σ) 0

A 2

quindi 1

(µ, (µ,

∝ ∝

π σ) det(I σ))

J A 2

è la distribuzione a priori invariante non informativa di Jeffreys per (µ, σ).

E’ propria (se si la normalizzo, altrimenti no)?

Z Z non converge

→

dµ dσ

R R

la prior non è propria.

l’elicitazione della prior di Jeffreys nel caso multiparametrico

Osservazione:

è problematica, un’ipotesi spesso utilizzata è l’indipendenza a priori

q q q

= (θ ) (θ ) (θ)) = (θ )) (θ ))

· · ∝ 6 · ·

π(θ) π ... π det(I det(I ... det(I

k k A A A k

1 1 1

in generale non coincidono. 24

4.2.3 Vague

Si utilizzano prior di una famiglia di distribuzioni imponendo che la varianza

sia molto elevata.

ESEMPIO

Con prendo (µ, 10 ). In questo caso la forma della distribuzione

∈ ∼

θ θ N

R

è molto simile ad un’uniforme, quindi presi intervalli centrali le probabilitá

sono pressochè uguali e la prior è propria.

4.3 Prior coniugate

Necessitano di una classe parametrica di distribuzioni = (θ),

D {π ∈

α A}

ed hanno tutte la stessa forma funzionale.

DEFINIZIONE: dato un modello (X, (x; Θ) allora la classe parame-

∈

f θ), θ

trica di distribuzioni per si dice al modello se scelta in la

D D

coniugata

priori anche la posteriori vi appartiene per ogni x.

Questo facilita gli aspetti computazionali perchè se so come è coniugata la

priori conosco già anche la distribuzioni della posteriori; inoltre anche l’ag-

giornamento dell’iperparametro della prior e della posterior è facile .

→

α α

Modello base Classe coniugata Aggiornamento iper-parametri

+ s, + n+s)

Be(θ) Beta(α, β) Beta(α β

+ s, + n)

P o(θ) Gamma(α, β) Gamma(α β

+ n, + s)

ExpN eg(θ) Gamma(α, β) Gamma(α β

2 2

µ σ σ σ

+nxσ

(µ, = nota) (µ ) ( )

2 2 0

N σ N , σ N ,

0 0

0 2 2

σ n+σ σ +nσ

0 0

P 2

−µ)

(

(µ = nota, ) + + )

2 i

N σ GaInv(α, β) GaInv(α , β

2 2

P 2

−µ)

(

(µ = nota, ) + + )

1 i

N Gamma(α, β) Ga(α , β

σ 2 2

+ n, })

U nif orme(0, θ) P areto(α, β) P areto(α M ax{β, X (n)

La variabile casuale Gamma Inversa

∼

X GaInv(α, β)

β β

(x; = con 0 e 0

−

f α, β) α, β > x >

e x

Γ(α) α+1

Allora: 1

= ∼

Y Gamma(α, β)

X

La variabile casuale di Pareto

∼

X P areto(α, β)

(x; = con 0

f α, β) αβ I α, β >

[β,∞](x)

α+1

ESERCIZIO

La famiglia parametrica di Pareto è coniugata al modello uniforme.

(0,

∼

X U θ) con 0

faccio prove indipendenti in (x|θ) = 1 < x < θ.

n x, f θ

= (x =

(x|θ) con

Y |θ) ≤ → ≤ ∀i

f x θ x θ

i i

(n)

i=1

Per calcolare la posterior mi interessa capire dove si muove cioè .

≥

θ, θ x (n)

1 1

= (θ) (θ) = (θ)

→

L(θ) I π αβ I

α,β

,∞] ,β),∞]

[x [max(x

n α+1

(n) (n)

θ θ

Allora 1 1 1

(θ) (θ) = (θ)

∝

π(θ|x) I I I

,∞] ,β),∞]

[]x [β,∞] [max(x

n α+1 n+α+1

(n) (n)

θ θ θ

questo è il modello di una + })

P areto(α n, max{β, x (n)

ESEMPIO:

Dato un modello (µ, ) con nota (corrisponde quindi ad un numero

∼

X N σ µ

che può essere eliminato nel calcolo della posterior) e non nota, avrà come

classe coniugata una Gamma Inversa.

Consideriamo quindi la di una normale con

funzione di verosimiglianza

media nota e varianza ignota. n

1 P 2

n − −µ)

(x|σ ) = (σ ) (x

−

2 2 · i

f e 2 i=1

2 2σ

poichè è una costante che non dipende dal para-

Ho deciso di trascurare 1

√ 2π

metro ignoto.

La da una sarà quindi:

prior Gamma Inversa 1

β β

−

· · e 2

Γ(α) (σ )

α+1

2 α

Nella prior trascuro la parte iniziale poichè non dipende dal parametro

Γ(α)

Noto che la funzione di verosimiglianza di una ha una struttura

N ormale

molto simile alla prior di una perciò deduco che la poste-

Gamma Inversa,

rior sarà

Anteprima

Vedrai una selezione di 15 pagine su 70