Che materia stai cercando?

Statistica Bayesiana

Appunti di statistica bayesana su:
-Elicitazione della prior.
- Sintesi della posterior.
- Approccio decisionale.
- Verifica d'ipotesi.
Università degli studi di Milano Bicocca -Unimib, Facoltà di scienze statistiche. Scarica il file in formato PDF!

Esame di Statistica bayesana docente Prof. S. Migliorati

Anteprima

ESTRATTO DOCUMENTO

corrisponde all’ODDS = θ

• − −

log(θ) log(1 θ) log 1−θ

] = =

θ

• · ·

x[log x A(θ) x λ con λ parametro canonico

1−θ =

• − −

log(1 θ) C(θ)

Devo ora riparametrizzare: λ

, riparametrizzando ho =

Dato che = e

θ

• θ

λ log λ

1−θ 1−e

1 = 1

• − θ λ

1+e

= = + )

λ

• − −(C(θ)) −log(1

log(1 θ) e

La funzione di verosimiglianza è: λ

(x; = x·λ−log(1+e )

f θ) e

le prior per coniugate al modello:

Applico il teorema: λ λ

η λ−η log(1+e )

π(λ) e 1 2

Voglio conoscere la prior di quindi trovo il differenziale:

θ, θ

= = − −

λ log log(θ) log(1 θ)

1 − θ

1 1 1

= + =

|δλ| dθ dθ

1 − −

θ θ θ(1 θ)

La prior di sarà quindi:

θ 1

θ

·(log ·log(1−θ)

η )−η

∝ ·

π(θ) e 1 2

1−θ −

θ(1 θ)

θ

La prior coniugata di è =

·(log ·log(1−θ)

η )−η

λ e π(A(θ))

1 2

1−θ 1

θ ) (1 = (θ) (1

( −1 −η −1

η η η

η

· − · · −

θ) θ)

1 2 1 2 1

1 − −

θ θ(1 θ)

che corrisponde al nucleo di una ) con gli iperparametri 0

−η

Beta(η , η η >

1 2 1 1

e 0

η η >

2 1

ESERCIZIO SU POISSON

Esercizio su normale:

(µ, ) (sappiamo già che è una

2

X N σ θ N ormale).

La funzione di verosimiglianza è:

1 1

2

µ

1 1

2 2

(x; = − −

x·µ− x

(x−µ)

√ √

· ∝ · ·

f µ) e e e

2 2 2

2π 2π

29

2 1

con che corrisponde a e =

2

µ −

1 x

·

· − · − e

x µ x µ C(µ) D(x)

√ 2

2 2π

2 .

è il parametro canonico e = µ

µ C(µ) 2 2

µ

η µ−η

π(µ) coniugata e 1 2 2

che corrisponde al nucleo di una normale ( )

η 1

N ,

1

η η

2 2

e sono numeri, valori noti.

η 1

1

η η

2 2

4.4 Metodo di scelta degli iperparametri

Se D abbiamo un problema sulla scelta degli iperparametri.

π

1) Diretta

Non ho nulla da dire perchè effettuo una scelta (ad esempio un esper-

diretta

to mi da i momenti, i quantili da cui deduco gli iperparametri).

2) Assegnazione gerarchica

Scelgo la forma funzionale della prior:

D =

∈ {π(θ, ∈

π α); α A}

con corrispondente ad uno scalare o ad un vettore di iperparametri.

α ipotizza che anche l’iperparametro o vettore di iperparametri

Multifase:

sia una variabile casuale ⇒ π(α).

α

Tipicamente ci si ferma alla seconda fase, scegliendo per l’iperparametro α

Hyper prior non informative.

Cerco elicitazione in due fasi:

π(θ) vettore condizionato ad un’altra variabile casuale.

Prima fase: π(θ|α)

Seconda fase: π(α). Z

= ·

π(θ) π(θ|α) π(α) dα

A

Esercizio tema d’esame

X = [0, (supporto)

X θ]

= (1.5, 2, 1.9, 2.3, 0.3, 2.5, 2.8) e = 7

x n

è almeno 2.8 che corrisponde al massimo, cioè = 2.8

θ θ x (n)

X U nif orme(0, θ) = 2

−4

π(θ) θ , θ > β con β 30

calcolo la posterior (sarà una 2.8))

Domanda 1: P areto(10,

supponendo 1 0, scelta una hyper

−α−1

Domanda 3: π(θ) θ , θ > e α >

prior di Laplace per si imposti il calcolo della posterior

α, π(θ|x).

(x|θ)

π(θ|x) π(θ)f

La prior è ignota, però sappiamo che sarà 2)

π(θ|x) P areto(α,

= (θ) dato che è nota.

−α−1

α

π(θ|α) α2 θ I

[2,+∞]

= 1 (so che è impropria e quindi scelgo 1).

π(α)

Ricavo quindi la prior di θ: ∞

Z

= (θ) 1

−α−1

α ·

π(θ) α2 θ I dα

[2,+∞]

0 (θ) 2

I Z

[2,+∞] ) α

α( dα

θ θ

.......svolgo.......

1 1

(θ)

I

[2,+∞] (ln )

2 2

θ θ

3) Assegnazione empirica

ad assegno un valore o un vettore di valori multidimensionale,

α

π(θ; α)

calcolato a partire dal campione. 0

⇐ α

h(x)

Voglio una prior che sintetizza sul parametro prima di fare l’esperimento, ma

utilizzo informazione dall’esperimento.

(⇒ non è coerente con il modo di procedere Bayesiano).

4) Ricorso a m(x):

Scelgo gli iperparametri facendo ricorso a predittiva iniziale.

m(x)

Ho a disposizione dei campioni passati, ottenuti in passate rilevazioni sullo

stesso oggetto, argomento.

Conosco numericamente alcuni momenti marginali di (X) valore

m

X E

atteso marginale di oppure (X) varianza marginale di che sono

m

X V AR X

quantità note.

Ho per (X; in ambito classico e (X|θ) e in ambito Bayesia-

X f θ) f m(X)

no.

Considerando la marginale, (X) = e (X) = sono valori noti

m m 2

E µ V AR σ

m m

31

che vengono confrontati con i valori che dipendono da poichè provengo-

θ,

no dalla legge condizionata (x|θ). Questi valori sono: (X) = (θ) e

f

f E µ f

(X) = (θ).

f 2

V AR σ

f

Se ho un numero o qualcosa che dipende da ho informazioni su

θ, θ.

= (µ (θ)) =

π

µ E g(α)

m f

Eguaglia un numero ad una funzione degli iperparametri e (θ) è una

µ f

funzione di π(θ; α). Z Z Z

= (X) = = (X|θ)π(θ;

m · dX dθ

µ E X m(X) dX X f α)

m X X Θ

Z Z (X|θ)

π(θ; α) Xf dX dθ

X

Θ

con (X|θ) che è uguale a (X) = = (θ) e allora:

f

R Xf dX dθ E E(X|θ) µ

X f

Z (θ)π(θ;

= = (µ (θ))

π

µ α)

µ dθ E

f

m f

Θ

dove (θ) =

µ h(θ)

f

= (α ) allora mi serve un’altra equazione: sfrutto le relazioni tra le

Se , α

α 1 2

varianze. (X) = = (σ (θ)) + [µ (θ) ]

m π π

2 2 2

V AR σ E E µ

f m

m f

(θ) corrisponde alla medie delle varianze condizionate ed è

(θ)) =

π 2

2 σ

E f

f numero noto.

uguale a (α)

g

1

[µ (θ) ] corrisponde alla varianza delle medie condizionate che è

π 2

E µ

f m

uguale a (α) numero noto. Nel caso è

g P oisson θ.

2

Esercizio

(µ, 1) (µ )

2

∼ →

X|µ N N , σ

0 0

= 1 e = 3

2

µ σ

m n (µ) = =

µ µ E(X|µ) µ

f

0 = (µ) = = 1

π

µ µ E µ

m

0 0

= (σ (µ)) + (µ 1) 3 = (1) +

π π π

2 2 2 2 2

→ − →

σ σ E E E σ

n f

0 0

dove (1) è la varianza del modello e è la varianza della prior.

π 2

E σ

0

32

5 Sintesi della posterior

sintetizzare la posterior.

Obiettivo fondamentale: (g(θ))

= π(·|x)

E[g(θ)|x] E

Ricordo che =

π(·|x) π(θ|x)

E E

la media a posteriori di qualunque funzione di la calcolo nel seguente modo:

θ

Z g(θ)π(θ|x) dθ

Θ

se fosse allora voglio calcolare la media a posteriori:

g(θ) θ,  =

→ →

g(θ) θ E(θ|x)

 = (θ) (θ

→ → ∈

g(θ) I P A|x)

A

(θ) significa che integro su cioè su che appartiene ad a posteriori.

I A, θ A

A

Spesso (g(θ)) perchè:

π(·|x) non è calcolabile

E non è calcolabile (quindi la posterior non può essere normalizzata

→ m(x)

per via analitica).

altre volte non riesco a calcolare analiticamente l’integrale.

Soluzioni:

1) metodi analitici (approssimazione dell’integrale).

2) metodi simulativi.

3) metodi di integrazione numerica.

Evitiamo di parlare del primo poichè è troppo banale ed iniziamo con i metodi

analitici.

5.1 Procedure analitiche

Voglio un valore numerico che approssima

Z dθ

g(θ)π(θ|x)

Θ

Prendo quindi la posteriori e approssimo con una normale.

33

5.1.1 Approssimazione normale

Voglio approssimare la posterior con una normale. I parametri neces-

π(θ|x)

sari saranno quindi media e varianza (come capisco se vanno bene?).

Sotto condizioni di regolarità la posterior può essere approssimata con una

normale ( Σ̃), dove è il punto di massimo della posterior, cioè la

∼ N θ̃, θ̃

moda della posterior e Σ̃ ha come elementi quelli della matrice inversa con il

generico elemento ed è calcolato come segue:

j

- dalla posterior faccio il logaritmo.

- effettuo poi le derivate seconde.

- confronto con θ̃. #

" 2

δ log π(θ|x)

− δθ δθ

i j θ= θ̃

- faccio l’inversa.

Questo calcolo porterebbe all’informazione osservata se fosse una funzione

di verosimiglianza in punto di massimo.

θ

corrisponde come già visto alla moda della posterior, cioè il valore di

θ̃ θ

che rende massima la posterior:

- voglio massimizzare la posterior.

- valutare le derivate seconde in corrispondenza di θ̃.

Σ̃

E’ possibile calcolare e senza conoscere

θ̃ m(x)?

Se la risposta è no, allora mi posso anche fermare.

Se la risposta è si allora: (x|θ)π(θ)

f

= = (x|θ)π(θ)

π(θ|x) f

m(x)

dato che:

- il punto che massimizza è lo stesso che rende massimo (x|θ)π(θ)

π(θ|x) f

dato che la costante di normalizzazione non fa cambiare il punto di

m(x)

massimo.

- se non conosco sono in grado di calcolare le derivate seconde, poi-

m(x) che non

chè effettuando la trasformazione logaritmica otterrei −log(m(x))

dipende da e quindi lo elimino.

θ

Quindi e Σ̃ non dipendono da

θ̃ m(x).

34

ESERCIZIO - ELEZIONI

= 715000 (numerosità del secondo campione).

n = 350000 corrisponde al numero di successi (numerosità dei soggetti

P x i

che votano per centro-sinistra del secondo campione).

→ Binomiale-Beta

le informazioni a priori sono le elezioni dell’anno precedente:

= 690000 (numerosità del primo campione).

n = 390000 (numerosità dei soggetti che votano per centro-sinistra del

P x i

primo campione).

Sapendo che per convenienza.

θ Beta(α, β)

La posterior sarà allora + +

X X

∼ −

Beta( x α, n x β)

θ|x i i

contenente il numero di successi e insuccessi appartenenti al primo campione,

= 390000.

cioè = 690000 e

∗ ∗

P

n x i

Ottengo quindi + 300000 +

θ|x Beta(390000 α, β)

Sapendo che = (del secondo campione) = 350000 e = −

P P

α x β n x

i i

(secondo campione) = 365000, otteniamo:

= 740000, = 665000)

∼ Beta(α β

θ|x f f

Approssimazione con una normale per esempio per calcolare un HPD appros-

simato (il quale coincide con il credible set della normale).

⇒ ∼

θ̃ θ|x Beta

ricordo che la moda di una è con 1.

α−1

Beta α, β >

α−β−1

Prendo e e sostituisco. La moda che si ottiene corrisponde a: 0.5267

α β

f f

punto di massimo della posterior Beta.

Per quanto riguarda la varianza della normale, non avremo Σ̃ ma avremo

uno scalare :

2

σ̃ = (α 1)logθ + (β 1)log(1

− − − −

logπ(θ|x) θ) log(BET A)

f f

essendo una costante, non la considero nei successivi passi.

−log(BET A) 1 1 1 1

" ! !# " #

− − − −

α β α β

f f f f

= +

− − − (1 (1

− −

2 2 2 2

θ θ) θ θ) θ=

θ̃

740000 1 665000 1

− −

+ = 5636074

(0.5267) (1 0.5267)

2 2

35

Il valore ottenuto, corrisponde al reciproco della varianza della normale

1

= = 1.77 10

−7

2 ·

σ̃ 5636074

se fosse stata una matrice, avrei dovuto fare l’inversa.

Ricordo:

Posso ora calcolare HPD approssimato: (0.5267, 1.77 10 ).

−7

·

N

Osservazione:

Con il caso di a priori costanti (prior di Laplace):

(x|θ)

∝ f

π(θ|x)

poichè la prior è una costante.

π(θ)

In questo caso abbiamo che = e Σ̃ = I .

−1

θ̃ θ̂

Risultato Bayesiano: Risultato Classico:

(θ (0, Σ̃) (θ (0, I (θ,

− ∼ − ∼

θ̂) N θ̂) N x))

variabile casuale numero ignoto

→ →

θ θ

numero noto variabile casuale

→ →

θ̂ θ̂

- A livello numerico sono la stessa cosa, danno lo stesso risultato.

- Diverso a livello interpretativo.

- Con LAPLACE, e sono la stessa cosa.

θ̃ θ̂

quando funziona?

Osservazione:

Il risultato può essere applicato anche se non riesco a normalizzare la poste-

rior. non è "troppo lontana" dalla normalità.

Se π(θ|x)

5.1.2 Approssimazione Laplace

Voglio approssimare Z Z

(g(θ)) = =

π(·|x) nh(θ)

·

E g(θ) π(θ|x) dθ e dθ

Θ Θ

approssimazione numerica dell’integrale e non della posterior

= =

nh(θ) →

e g(θ)π(θ|x) nh(θ) log{g(θ)π(θ|x)}

sviluppo in serie di Taylor di fino al secondo ordine nel punto (punto

h(θ) θ̌

di massimo di h(θ)). θ̌)2

0 00

Z Z (θ−

nh(θ) n[h( θ̌)+(θ− θ̌)h θ̌)+ h θ̌)]

( (

e dθ e dθ

2

Θ Θ 36 θ̌)2 00

Z (θ−

nh(

θ̌) n θ̌)

)h (

≈ ·

e e dθ

2

Θ

che può essere riscritta come: 1

1

√ θ̌)2 00

Z (θ−

2π n θ̌)

nh( θ̌) )h (

≈ ·

e σ e dθ

2

2π σ

Θ

tutto ciò che sta nell’integrale è il nucleo della normale che integra a 1 tale

che ( )

1

∼ −

N θ̌, 00

nh θ̌)

(

allora abbiamo √ 2π

nh( θ̌)

e σ

v 1

√ u

nh(

θ̌) −

u

e t (

00

nh θ̌)

Z

(g(θ)) = nh(θ)

π(·|x) e dθ

E Θ

che corrisponde ad un numero. Al fine di calcolarlo ho bisogno di:

1

: =

θ̌ h(θ) log[g(θ)π(θ|x)]

n

con (x|θ)π(θ)

f

=

π(θ|x) m(x)

può essere eliminata se non sono in grado di calcolarla,

ricordo che m(x)

poichè non varia il punto di massimo. Quindi può essere calcolata anche

θ̌

se è ignota.

m(x)

Con Laplace questo non può essere fatto, poichè in la è presente.

h m(x)

Valutare in richiede la conoscenza di

h θ̌: h( θ̌) m(x).

(x|θ)π(θ) (x|θ)π(θ)

R

f g(θ)f dθ

Z Z

= = Θ

dθ g(θ) dθ

g(θ)π(θ|x) (x|θ)π(θ)

R

m(x) f dθ

Θ Θ Θ

ho potuto fare questo poichè è una costante e quindi posso portarla

m(x)

fuori dall’integrale. Una volta fuori dall’integrale, so che assume quel deter-

minato valore.

Facendo l’approssimazione di Laplace al numeratore e al denominatore ot-

tengo: nh(θ)

e ∗

nh (θ)

e 37

5.2 Metodi simulativi

I metodi di simulazione ricostruiscono le caratteristiche di una distribuzione

complessa (nel nostro caso la posterior) tramite un campione di elementi

indipendenti generato dalla distribuzione.

5.2.1 Metodo Monte Carlo

Siamo interessati alla posterior (o conosco il nucleo ma non riesco a

π(θ|x) [g(θ)], quindi

normalizzare oppure la conosco ma non riesco a calcolare π(.|x)

E

o non conosco oppure lo conosco ma non sono in grado di calcolare

m(x),

[g(θ)]).

π(.|x)

E

Ho quindi a disposizione una successione di realizzazioni indipendenti e iden-

ticamente distribuiti .

θ , θ , ..., θ m

1 2

Prima di tutto calcolo ), ), ) da cui posso poi ricavarne la me-

g(θ g(θ ..., g(θ

m

1 2 ), questo è stimatore non distorto, rispetta

dia campionaria = m

1 P g(θ

ḡ i

m i=1

m

la legge forte dei grandi numeri tale per cui

(ḡ [g(θ)]) = 1

π(.|x)

P E

m

e vale il Teorema Centrale del Limite se

Z

= [g(θ) π(.|x) 2

2 − ∞

g(θ)] π(θ|x)

σ E dθ <

Θ

cioè √ d (0, )

π(.|x) 2

− g(θ)) N σ

m(ḡ E

m

Questo risulta utile per calcolare gli intervalli di confidenza:

ˆ

q

[ḡ )]

± Z V ar(ḡ

α

m m

1− 2

ˆ 2

) =

Per calcolare ) parto dal valore reale ) = m σ

1 P g(θ

V ar(ḡ V ar(ḡ i

m m i=1

m m

con = [g(θ)] e poichè so che

π(·|x)

2

σ V AR 1 (g(θ ) )

m m 2

P ḡ

ˆ ˆ i m

= (g(θ ) ) ) = i=1

2

X − →

2

σ ḡ V ar(ḡ

i m m

1 1)

− −

m m(m

i=1

sapendo che è la stima di Monte Carlo.

2

σ̂

5.2.2 MCIS (Monte Carlo Importance Sampling)

In pratica vengono aggiunte funzioni ausiliarie per trovare un campione in-

dipendente e identicamente distribuito della posterior.

38

Prendo la funzione da cui deve essere facile estrarre determinazioni ca-

h(θ)

suali e deve essere sufficientemente "vicina" a π(θ|x).

Algoritmo:

1) Estrarre un campione indipendente e identicamente distribuito da →

h(θ)

0

0

0 , questo non deriva dalla posterior ma deve avere lo stesso sup-

, ..., θ

, θ

θ m

2

1

porto. Ora mi servono dei pesi che mi bilanciano (quando è vicina alla

h

posterior i pesi saranno 1 mentre quando è lontana la deve riavvicinare).

2) Voglio approssimare per via simulativa 1 m 0

[g(θ)] = )

π(·|x) X

E g̃ ω g(θ

m i i

m i=1

dove 0 |x)

π(θ

= i

ω

i )

0

h(θ

i

e 0 )

h(θ

0 : i

θ

i w i

0 0 0

Con ) e 1 (con il metodo Monte Carlo ho = 1 e = ).

|x)

h(θ > π(θ w < ω θ θ

i i i

i i i

0

Ma come calcolo |x)?

π(θ i

Mi interessa Z

[g(θ)] =

π(.|x) g(θ)π(θ|x)

E dθ

Θ

posso moltiplicare per h(θ)

h(θ)

g(θ)π(θ|x) Z

Z = (θ)h(θ) = [g (θ)]

∗ ∗

h(·)

h(θ) dθ g dθ E

h(θ) Θ

Θ

Non conosco la legge di distribuzione di (θ).

g

0 0 0

Quindi ho da e applico Monte Carlo a

θ , θ , ..., θ h(θ)

m

1 2 0 0 0

[g (θ)] (θ ), (θ ), (θ )

∗ ∗ ∗ ∗

h(·) →

E g g ..., g m

1 2

0

g(θ )·π(θ|x)

0

con (θ ) = ecc... e quindi

g 1 0

1 h(θ )

1 0

1 1

m m |x)

π(θ

0 0

= (θ ) = )

∗ i

X X

g̃ g g(θ

m i i

m m h(θ)

i=1 i=1

se non è nota è un problema, devo fare un altro passo

Osservazione: π(·|x)

(se fosse stata nota, mi sarei fermato). (x|θ) (x|θ)

R

π(θ)f g(θ)π(θ)f dθ

Z Z

= = = Θ

π(.|x)

E g(θ) g(θ)π(θ|x) dθ g(θ) dθ (x|θ)

R

m(x) π(θ)f

Θ Θ Θ

39

se è propria posso farla diventare funzione di importanza

π(θ) h(θ)

(θ)π(θ)

R g dθ

= Θ (θ)π(θ)

∗∗

R g dθ

Θ

Quindi la stima è: 0 0

)f (x|θ )

1 P ig(θ

i

m (x|θ )

0

1 P if

m

anche per MCIS vale la legge forte dei grandi numeri e il

Osservazione:

teorema centrale del limite.

5.2.3 Metodo MCMC

RIPASSO (catene di Markov): è un processo a tempo discreto

n

{X ∈

, n N}

con la proprietà della perdita di memoria (markovianità)

(X = = ) = (X = )

n+1 n n+1 n

0

∈ ∈

P A|X x , ..., X x P A|X x

n n

0

spazio stato

A S

(x, = (X =

n+1 n

· ∈

Nucleo di transizione: P A) P A|X x)

La catena è omogenea se (x, non dipende da

· P A) n.

Ho bisogno della distribuzione iniziale la marginale di .

0

· π, X

Kernel di transizione in passi (x, = (X =

m m 0

· → ∈

m P A) P A|X x)

è stazionario se è la distribuzione marginale di ogni elemento n

· π X

L’obbiettivo è trovare una catena di Markov omogenea con distri-

buzione iniziale stazionaria (e propria) che coincide con la posterior

(π(θ|x)). sia una catena di Markov omogenea, irridu-

n

{X }

Teorema ergodicità:

cibile, ricorrente e con nucleo di transizione P e distribuzione stazionaria π.

Allora:

1) è l’unica distribuzione stazionaria

π

2) Sia una funzione a valori reali tale che [g(X)] e sia

π m

1

g E < x , ..., x

una realizzazione finita della catena con = ), allora

m

1 i

P

ḡ g(x

m i=1

m

(g [g(X)]) = 1

π

−−−→

P E

m n→∞

3) Se la catena è aperiodica allora

(x, 0

n − −−−→

dist(P .) π(.)) n→∞

40

cioè ad un certo punto estrarre dalla condizionata o dalla marginale non cam-

bia perchè la distanza tra esse è 0.

da un certo punto in poi le realizzazioni possono ritenersi

Osservazione: x i

provenire da (che sarà la nostra posterior) Inoltre il

→ Burn-in period.

π

secondo punto ci permette di applicare Monte Carlo anche se le osservazioni

non sono indipendenti.

(Burn-in period) (ampiezza campione MC)

m m+1 m+n

0

x , ..., x x , ..., x

Posso pensare che dall’osservazione le realizzazioni vengono dalla

m esima

posterior e dunque ne estraggo altre per applicare Monte Carlo.

n =

con distribuzione iniziale stazionaria

n 0

{θ ∈ θ

, n π(θ|x)

N}

L’idea è inizializzare , si lascia decorrere un certo periodo di tempo per

0

θ

la stabilizzazione e poi si pensa che le osservazioni vengono dalla posterior.

Quindi voglio che sia determinazione della variabile casuale Θ che si di-

0 0

θ

stribuisce come la posterior.

0

Ma come inizializzo dalla posterior se questa non è nota?

θ

Si assegna casuale, si potrebbe prendere dalla prior se questa é propria (il

0

θ 0

burning period deve comunque inglobare le realizzazioni necessarie perchè θ

derivi dalla posterior). Gibbs Sampling e Metropolis Hasting.

Ci sono due diverse tecniche:

Gibbs Sampling

La tecnica di si usa quando il parametro ha tante compo-

Gibbs Sampling

nenti = (θ ), dove la generica non è necessariamente unidimensio-

θ , ...θ θ

d i

1

nale; si suppone di conoscere (e di poter estrarre da) la legge di distribuzione

di ), che prende il nome di

|θ full conditional.

π(θ , ..., θ , θ , ..., θ

i i−1 i+1 d

1

Algoritmo per la generazione delle full conditionals:

1) Inizializzare la catena in = (θ )

0 0 0

θ , ..., θ d

d

1

2) Si ottiene l’aggiornamento = (θ ) dove il generico é estratto

1 1 1 1

θ , ..., θ θ

d i

1

da )

1 1 0 0

π(θ , ..., θ , θ , ..., θ

i i−1 i+1 d

1

3) Si reitera il passo precedente con i dovuti aggiornamenti.

ESEMPIO (Two stage Gibbs Sampling)

Dati e si può implementare Gibbs Sampling

∼ ∼

x|θ Bi(n, θ) θ Beta(α, β),

per ottenere un campione da che sarebbe

dist(x, θ) distribuzione(x, θ)?

41

Ho le (x, e le (x|θ) e (θ|x) tali

→ →

full conditionals gibbs sampling

θ)

che: ∼

x|θ Binomiale(n, θ)

+ +

∼ −

θ|x Beta(α x, β n x)

Visto che conosco le due distribuzioni posso applicare la tecnica di Gibbs

Sampling:

1) Trovo e , ad esempio visto che prendo dei valori tra 0 e 1

0 0 ∼

x θ θ Beta

oppure un’estrazione da una Beta(α, β)

So che è un intero tra 0 e 1 oppure estrazioni da ).

0 0

x binomiale(n, θ

2) Ora calcolo (x ) : ) é la legge di distribuzione di = .

1 1 1 0 0

, θ x Bi(n, θ X|θ θ

Invece + + ).

1 1 1

→ −

θ Beta(α x , β n x

Passo (x ) : ) per = ,e + + )

2 2 2 1 1 1 2 2

→ → −

, θ x Bi(n, θ X|θ θ θ Beta(α x , β n x

Una volta ottenuti (x ), (x ) e raggiunto il burn-in period, butto

m m

0 0

, θ ..., , θ

via quanto trovato e con le realizzazioni successive applico Monte Carlo.

Alternativamente potrei inizializzare m catene in parallelo:

(x )

 0 0

, θ

 (x )

 0 0

, θ

 ...

 (x )

0 0

 , θ

da cui ottengo n osservazioni che genera il campione Monte Carlo:

(x )

 m+1 m+1

, θ

 (x )

 m+1 m+1

, θ

 ...

 (x )

m+1 m+1

 , θ

che costituiscono il campione.

Con il primo metodo le osservazioni del campione Monte Carlo non sono in-

dipendenti, con il secondo metodo lo sono.

Esercizio

Con la Normale abbiamo visto che se ne conosco la media (X (µ =

∼ N

nota, )) la coniugata è una se conosco la varianza (X

2 2 ∼

σ GaInv(α, β), σ

(µ, = nota)) la coniugata è (µ ).

2 2

N σ N , σ

0 0

Gibbs-Sampling: date (0, 1) e 1), quali sono le full

2

∼ ∼

µ N σ GaInv(1,

conditionals? 42

Ipotizzo che e sono indipendenti e scrivo la coniugata (numeratore della

2

µ σ

posterior coniugata)

(µ, Ψ(µ, = (x|µ, )π(µ)π(σ ) =

2 2 2 2

σ , x) σ , x) f σ

1 1 1

2

1 1

µ

P 2

−µ)

− −

= (x −

· ·

i e

e e

2 2

i 2 σ

(2πσ ) (σ )

n/2

2 2 2

So che = Ψ(µ, non ha soluzione analitica, quindi

2 2 →

R R

m(x) σ , x) dµ dσ

+

R R

applico Gibbs Sampling.

Faccio le full conditional: 2 |x)m(x)

π(µ, σ =

=

2

π(µ|σ , x) |x)m(x)

2

π(σ

Ψ(µ, 2

σ , x)

= Ψ(µ, 2

∝ σ , x)

Ψ̃(σ 2 , x)

uso la proporzionalità perchè mi interessano solo gli elementi che dipendono

da il denominatore è una costante.

µ,

Allora 2

1 µ

P 2

− −µ)

= nota, (x −

2 ∝ i

e

π(µ|σ x) e

2 i 2

sfruttando il risultato noto sulla famiglia coniugata

2

P σ

x i )

( i

⇒ ,

N + +

2 2

σ n σ n

Per la seconda full conditional: 1 1

1 1

P 2

−µ)

− −

(x

2 |µ, ∝ i

π(σ x) e e

2 2

i σ

(σ ) (σ )

n/2

2 2 2

Vedo che il risultato è ancora sulla famiglia esponenziale coniugata per :

2

σ

1

n + 1, (x + 1)

2

X

⇒ −

GaInv( µ)

i

2 2 i

con = 1 e = 1.

α β

Quando mi viene data (µ, ) con i due parametri ignoti e calcolo

2

X N σ

le full conditional noto che:

1) il Gibbs Sampling da luogo ad una catena di Markov (questa dipende solo

dal passo precedente).

2) la catena è omogenea (cioè non dipende dal passo in cui ci troviamo),

43

infatti le full conditional sono sempre le stesse.

3) il nucleo di probabilità di transizione è ottenuto dal prodotto delle full

conditionals: d

(θ ) = ?j,

j+1 j+1 j

j j+1 Y |θ

P , θ π(θ , θ , ..., θ , θ , ..., θ x)

j+1

i d

2

1 i−1 i+1

i=1

4) la catena è aperiodica, irriducibile e ricorrente posso applicare il teorema

dell’ergodicità.

Metropolis Hastings

La seconda tecnica per il metodo MCMC è il e si

Metropolis Hastings

0

tratta di un algoritmo di accettazione-rifiuto. Indico con ) la legge di

q(θ, θ

0 condizionata a in particolare è la legge di distribuzione proposta,

θ θ,

cioè quella che fornisce i candidati per il passo successivo a quello in cui mi

trovo. 0 0

Estraggo da un candidato e la sua probabilità di accettazione ) è

q θ α(θ, θ

pari a: 0

0

 0

|x)q(θ 1} se ) = 0

,θ)

π(θ 6

, π(θ|x)q(θ, θ

min{

 0

π(θ|x)q(θ,θ ) 0

1 se ) = 0

π(θ|x)q(θ, θ

Algoritmo:

1) si fissa (o inizializza) scegliendo arbitrariamente (posso usare la media,

0

θ

la mediana, la media condizionata,...).

0 0

2) si genera dalla proposal ) e a questo punto deve decidere se ac-

0

θ q(θ , θ

0

cettare o meno il candidato .

θ 0 0

3) l’obbiettivo è decidere se accettare utilizzando la probabilità )

0 →

θ α(θ , θ

0 0

estraggo da (0, 1) e se ) accetto il candidato e quindi = ,

0 1

u U u α(θ , θ θ θ

altrimenti = .

1 0

θ θ

4) ripeto i passi 2 e 3 fino alla lunghezza che desidero per la catena

Caratteristiche Metropolis:

0

• ) prescinde dalla conoscenza della costante di normalizzazione della

α(θ, θ

posterior m(x).

• la catena che realizzo è reversibile.

DEFINIZIONE: si parla di per una catena di Markov quando

reversibilità

(X = = = (X = =

n−1 n n−1 n

P x, X y) P y, X x).

Allora (x, = (y,

π(x)P y) π(y)P x) 44

Ora analizzo il nucleo di transizione nel Metropolis:

0 0

)α(θ, ) = (θ, )

i

q(θ, θ θ P θ

Se la proposal rendesse la catena reversibile avrei:

0 0 0 0

) = ) = 1

|x)q(θ ⇒

π(θ|x)q(θ, θ π(θ , θ) α(θ, θ

cioè ogni candidato viene accettato.

Non esiste una che mi dia questi risultati ma:

q 0 0 0

) : )

i

∃(θ, |x)q(θ

θ π(θ|x)q(θ, θ > π(θ , θ)

0

Quindi il numero dei passaggi da a (cioè la parte a sinistra della di-

θ θ

sequazione) è troppo grande per avere reversibilità ed è troppo piccolo il

0

numero di passaggi da a (la parte a destra). Le probabilità di accetta-

θ θ

0 0

zione sono ) 1 e = 1 la probabilità di passaggio da a

α(θ, θ < α(θ , θ) θ

0 0

viene fatta minore di 1 mentre è massimizzata quella di passaggio da a

θ θ θ.

Metropolis Random Walk

0

Prendo = +x dove è fissato e è una perturbazione aleatoria, in questo

θ θ θ x

modo ogni candidato è ancorato alla catena al tempo precedente (tipicamen-

te per la si prende una Normale, una T o una Uniforme).

x 0

Se , ) è semplicemente una uniforme traslata.

X U q(θ, θ

Poichè 0

0 |x)q(θ

π(θ , θ)

0 ) =

α(θ, θ )

0

π(θ|x)q(θ, θ

mi servirebbe la posterior prendo il prodotto tra likelihood e prior.

Indipendent Metropolis

0 0 0

è estratto da qualche legge ) e dunque il candidato non dipende dal

θ h(θ θ

candidato al tempo precedente. 0 0

|x)q(θ

π(θ , θ)

0 ) =

α(θ, θ )

0

π(θ|x)q(θ, θ

0

L’estrazione è indipendente ma ) dipende comunque da dunque le

α(θ, θ θ,

realizzazioni non sono indipendenti.

Osservazioni:

1) Il tasso di accettazione è ottimale tra il 30% e il 70%. Se è molto basso ho

45

inefficienza algoritmica, tipicamente vuol dire che mi soffermo dove la poste-

rior ha densità più bassa e non riesco ad prendere osservazioni dalle zone in

cui la densità è più elevata. Se è molto alta i valori vengono tipicamente dalle

zone con densità maggiore della posterior, però facendo un campionamento

di Monte Carlo la versione empirica della posterior sarà concentrata solo sul-

le zone con elevata densità; devo fare tuning sulla proposal per cercare di

prendere anche i punti con densità più bassa.

è multidimensionale ed ha tante compo-

2) Come scelgo l’algoritmo? Se θ = (θ ) e non riesco a calcolare una

nenti provo ad usare Gibbs. Se , ..., θ

θ 1 5

full conditional, posso implementare un Metropolis within Gibbs (applico un

Metropolis alla full conditional che non conosco).

3) m=lunghezza del burning period, come scelgo m? Come scelgo n?

Uso strumenti di diagnostica della convergenza.Ad esempio estraggo un cam-

pione di 100 osservazioni e faccio l’istogramma di se passo ad esempio a

θ,

+ 10 ed estraggo un campione facendone l’istogramma posso confrontare

m

i due grafici per capire se si è raggiunta la stabilizzazione. Oppure posso

analizzare le medie delle realizzazioni ad ogni passo e vedo quando queste si

stabilizzano. Questa procedura però è rischiosa anche perchè la posterior non

è nota e non esiste un ottimale, gli strumenti di diagnostica non verificano

m

se si viene dalla posterior ma se i risultati si stabilizzano.

4) Se voglio un’ampiezza del campione Monte Carlo pari a posso:

n

- Inizializzo una catena fino a raggiungere il passo 1, dal passo successivo

m

prendo realizzazioni.

n

- Inizializzo catene, una volta raggiunto il passo 1 prendo la realizza-

n m

zione successiva di ogni catena (quindi ho osservazioni).

n

Con il primo metodo devo fare + estrazioni, con il secondo ne faccio

m n

Le estrazioni del primo metodo però sono dipendenti, il secondo for-

·

m n.

nisce stime meno distorte.

Una buon compromesso è inizializzare una catena, una volta arrivati al passo

1 scelgo una osservazioni ogni k (thinning period); in questo modo devo

m

estrarre + osservazioni.

·

m n k 46

6 Approccio decisionale

Come si fa inferenza bayesiana? calcolata

π(θ|x)

L’ho calcolata in qualche modo, ho quindi a disposizione tutte le informazioni

necessarie sulla posterior.

Posso pensare di fare qualcosa di più affidabile, di più teorico.

(potrei utilizzare que-

Approccio decisionale in inferenza bayesiana

sto approccio anche in ambito classico).

C’è quindi un decisore, colui che prende le decisioni che può essere un sog-

getto qualunque. Il decisore deve scegliere un’azione ∈ A.

a

è la classe delle azioni.

A

Le di ogni dipendono da:

conseguenze a

qualcosa non dominata da me.

→ da "stato di natura" Θ spazio dei possibili stati di natura.

→ ∈

θ

Una generica conseguenza dipende da e dai possibili valori di

a θ.

(θ) ⇐ si suppone che siano totalmente ordinate

C a

Totalmente ordinate significa che su 2 possibili conseguenze so dire quale

preferisco o se sono indifferente.

Inoltre so che (θ) ∈

C ϕ

a

Voglio trasformare queste conseguenze in numeri: le trasformo in perdite

Supponiamo che esista una : che mi permette di generare dalla

f ϕ R

conseguenza un numero reale.

Allora la funzione di perdita la scriviamo come = Loss ed è composta

f L

da 2 argomenti: L(θ, a)

è la perdita che il decisore consegue se sceglie quando lo stato

a

L(θ, a)

di natura è θ.

Voglio minimizzare, quindi devo decidere tra 2 funzioni di perdita quale pre-

ferisco. Molto spesso ci si trova in una condizione in cui il decisore non sa

quale azione è preferita all’altra. Viene quindi aggiunto un terzo elemento

alla funzione di perdita: il criterio di ottimalità: K

= :

L {L(θ, ∈ A}

a) a

: L→

K R

47

cioè ad ogni funzione di perdita (L) associo un numero.

(preferita con il criterio di ottimalità K) è:

⇒ azione ottima

ã: =

∀ 6

K[L(θ, ã] < K[L(θ, a) a ã]

Voglio quella che mi da la sintesi più bassa.

Genero quindi la quaterna: (Θ, A, L(θ, a), K)

Θ (spazio degli stati di natura), (insieme delle azioni), (funzione di

A L(θ, a)

perdita) e (criteri di ottimalità).

K

Forma canonica di un problema decisionale in condizioni di incertezza.

Vediamo le caratteristiche di A:

relazione di preferenza debole (binaria). In generale per

A ⇐ a a

<

1 2

scegliere tra 2 azioni che fanno un ordinamento.

) ) Θ

⇔ ≤ ∀θ ∈

a a L(θ, a L(θ, a

<

1 2 1 2

E’ un preodinamento parziale:

vale se valgono le seguenti proprietà:

Preordinamento

- Riflessiva: a a.

<

- Transitiva: e , allora .

a a a a a a

< < <

1 2 2 3 1 3

- [non gode della proprietà antisimmetrica: e = ]

a a a a a a

< <

1 2 2 1 1 2

non tutte le coppie possono essere messe in relazione.

Parziale

coppie di azioni non confrontabili sotto questo profilo di relazione binaria.

6.1 Ammissibilità

Voglio ridurre la dimensione di A → "Ammissibilità".

Un’azione è se un’altra azione (migliore)

→ ammissibile @

0 0

tale che

∈ A

a a a

0 significa che esiste almeno un punto dove è minore stretto

a a 0 0

sse ) Θ

≤ ∀θ ∈

a a L(θ, a L(θ, a)

e 0

Θ tale che )

∃θ ∈ L(θ, a < L(θ, a)

48

Esiste un preordinamento? Gode delle due proprietà?

Un’azione è se un’azione (migliore)

→ ∃

inammissibile

0 0

tale che

∈ A

a a a

Esempio a a a

1 2 3

1 3 4

θ

1 -1 5 5

θ

2 0 -1 -1

θ

3

Θ = {θ }

, θ , θ

1 2 3

=

A {a }

, a , a

1 2 3

), ), ) assumeranno 3 valori sfrutto la matrice

L(θ , a L(θ , a L(θ , a

1 1 2 2 3 3

e non sono confrontabili

a a

1 2

tra e c’è una relazione

a a

2 3

poichè

a a

2 3 [L(θ, ) ) Θ] e ) )

≤ ∀θ ∈

a L(θ, a L(θ, a < L(θ, a

2 3 2 3

Quindi rende inammissibile.

a a

2 3

E’ opportuno restringere l’attenzione all’insieme (delle azioni ammis-

+

A

sibili). a questo punto devo decidere un certo criterio di ottimalità

+

A ⊆ A : L→

K R

è una variabile casuale.

Criterio Bayesiano θ non è una variabile casuale, ma un parametro

Criterio non Bayesiano θ

ignoto.

6.1.1 Criteri Bayesiani

= numero con variabile casuale e che varia al variare di

K[L(θ, a)] θ L(θ, a)

ed è anche essa una variabile casuale (y) con una certa legge.

θ

1) (K)

Criterio del valore atteso:

(che corrisponde alla legge di e non per forza la prior).

θ π(θ) θ Z

= [L(θ, =

π ·

K[L(θ, a)] E a)] L(θ, a) π(θ) dθ

Θ

49

nel caso discreto utilizzo la sommatoria .

P

Mi accontento quindi di ciò che la funzione di mi fa perdere

a in media.

2) Criterio media-varianza:

= [L(θ, + [L(θ,

π π

·

K[L(θ, a)] E a)] α V ar a)]

Abbiamo 0 e prendiamo la varianza con il variare di

α > α.

Questo metodo ha dei problemi, ad esempio non posso confrontare media e

varianza, poichè sono differenti.

3) Criterio della soglia critica:

Mi preoccupo solo delle soglie grandi, cioè dei che rendono alta la perdita.

θ

Voglio ridurre la probabilità di avere perdite elevate, quindi probabilizzo i θ

che stanno sopra la soglia 0 dove è grande

λ > L(θ, a).

= :

K(L(θ, a)) P L(θ, a) > λ}

6.1.2 Criteri non Bayesiani

In ambito classico non si adotta un approccio decisionale generalmente.

è un parametro fisso.

θ

1) MiniMax: = sup

K[L(θ, a)] L(θ, a)

θ∈Θ 0

Considerando una rappresentazione grafica in cui ho ) simile ad una

L(θ, a

00

normale ed una seconda funzione di perdita ) costante son punto di

L(θ, a 00

massimo inferiore alla prima funzione di perdita, allora ho che è ottimale

a

perchè sto valutando solamente il sup.

Perchè utilizziamo solo il criterio del valore atteso?

Monotonia dei K:

Ho scoperto che [⇔ ) ) Θ]

≥ ≤ ∀θ ∈

a a L(θ, a L(θ, a

1 2 1 2

sintetizzo con lo stesso criterio (funzione di perdita K)

)] )]

K[L(θ, a K[L(θ, a

1 2

se succede questo, allora è monotono.

K 50

Questo vale solo per il criterio del valore atteso mentre per il criterio Media-

varianza non è monotono.

Esempio a a

1 2

2 3

θ

1 0 3

θ

2

2 se =

( θ θ

) = 1

L(θ, a 0 se =

1 θ θ

2

3 se =

( θ θ

) = 1

L(θ, a 3 se =

2 θ θ

2

Qualunque sia la legge di vedendo che i valori di sempre, allora:

π, a a

2 1

[L(θ, )] [L(θ, )]

π π

E a E a

1 2

quindi è inammissibile

a 2

Il criterio media-varianza riesce però a rendere ottima un’azione inammis-

sibile. ) assume valore 3 con probabilità 1 e [L(θ, )] = 0.

π

L(θ, a V ar a

2 2

Con piccolo vince , ma se alzo la penalità incide tanto e rischio

N.b. α a α,

1

quindi di superarla (media-varianza).

?a : =

ã a 2

Il criterio media-varianza non è monotono.

6.1.3 Funzioni di perdita

1) Perdita quadratica:

= (θ si comporta in modo simmetrico

2

L(θ, a) a)

= ponderate con funzione di peso

2

L(θ, a) w(θ a) w

51

2) Perdita lineare sottostima

( − ≥

θ a θ a a θ

= =

|θ − assoluta

L(θ, a) a| sovrastima

a θ θ < a a θ

(θ se

( − ≥

K a) θ a

= 1

lineare

L(θ, a) (a se

K θ) θ < a

2

(θ)(θ sottostima

( − ≥

K a) θ a a θ

= 1

pesata

L(θ, a) (θ)(θ sovrastima

K a) θ < a a θ

2

3) Perdita 0/1 0 0

( |θ − ≤

a| ε ε >

Stima: =

L(θ, a) 1 |θ − a| > ε

[non perdo niente se l’errore di stima è piccolo]

6.1.4 Verifica d’ipotesi : Θ : Θ

∈ ∈

H θ H θ

0 0 1 1

= con (accetto l’ipotesi nulla) e (rifiuto l’ipotesi nulla).

A {a }

, a a a

0 1 0 1

0 se Θ

( ∈

θ

) = 0

L(θ, a 1 se Θ

0 ∈

θ 1

0 se Θ

( ∈

θ

) = 1

L(θ, a 1 se Θ

1 ∈

θ 0

Quanto perdo in questi casi? Ho bisogno di 2 funzioni.

0/1

Uso perdita 0 se Θ

( ∈

θ

) = i

L(θ, a 1 se Θ

i ∈

θ j

Con = 0, 1 e = 0, 1.

i j 0 se Θ

( ∈

θ

) = i

L(θ, a se Θ

i ∈

K θ

i j

è una costante che deve essere = 1 e ha che assume valore 0 e 1.

6

K i

i

Sto differenziando la gravità di due tipi di errore con , dato che la gravità

K i

dei due tipi di errore è diversa. 0 se Θ

( ∈

θ

) = i

L(θ, a (θ) se Θ

i ∈

K θ

i j

52

6.2 Teoria delle decisioni statistiche

Le vengono scelte e ho un esperimento casuale e una

∈ A −

a ε n upla

campionaria x.

Ci deve essere un legame tra azioni e informazioni campionarie.

= (stima)

(funzione di decisione) a

δ(x)

Voglio una regola che associa la campionaria (x) alla stima:

− →

n upla

Stimatori, Statistica test, Previsori.

= ∆

δ(x) a

con ∆ che corrisponde alla classe di funzioni di decisione (serve solo in ambito

classico) e contiene tutti i possibili stimatori.

6.2.1 Approccio teorico decisionale statistico classico

(campionamento ripetuto).

→ X

x =

L(θ, a) L(θ, δ(x))

rischio normale = f

R(θ, δ) E L[(θ, δ(X))]

è una variabile casuale e è una funzione di verosimiglianza,

L(θ, δ(X)) X

legge congiunta.

Ho ora una terna (in ambito classico):

(Θ, ∆ = =

A, R(θ, δ) L(θ, a))

è la perdita quadratica, per la stima è MSE spero che uno

∀θ,

R(θ, δ) @

stimatore ammissibile.

6.2.2 Approccio teorico decisionale statistico bayesiano

In ambito bayesiano abbiamo una quaterna:

(Θ, ∆ = ∼

A, L(θ, a), K)

L(θ, δ(x))

con Θ supporto di contiene = che corrispondono a 2 numeri e

A

θ, a δ(x) K

(valore atteso). 53

Perdita attesa finale Z

= PAF

π(·|x)[L(θ,δ(x))] ·

E L(θ, δ(x)) π(θ|x) dθ

Θ

altrimenti posso utilizzare la sommatoria ( ).

P

So che è una variabile casuale poichè siamo in ambito bayesiano e è

θ δ(x)

un numero. =

ρ(π(·|x), a) ρ(π(·|x), δ)

Inferenza bayesiana: cerca (oppure ottima:

ã δ̃)

≤ ∀a ∈ A

ã) ρ(π(·|x), a)

ρ(π(·|x), ∆

≤ ∀δ ∈

ρ(π(·|x), δ̃) ρ(π(·|x), δ)

Vediamo 2 modi di procedere in ambito bayesiano:

1) Analisi in forma estensiva

˜

∆ ∆ se non è unica, metto tutto in una classe

⇒ ⊆

δ̃

E E

è ottenuto dalla procedura appena vista e non è unica.

δ̃ E voglio calcolare lo stimatore ottimo .

(n)

⇒ ∀ ∈ X

X x

x

(tipo di anaisi non necessaria in ambito bayesiano).

2) Analisi in forma normale

Abbiamo a disposizione e ⇒

π, L x X.

rischio normale : [L(θ,

f

R(θ, δ) E δ(x))]

che poi verrà tolta e è aleatoria.

faccio la media di δ(x)

x

Se non trovo una soluzione uniformemente migliore, vado su aleatorio e uso

θ

la prior Effettuerò poi la media con approccio bayesiano.

π(θ). [R(θ, = Rischio di Bayes =

π(θ)

E δ)] r(π, δ)

Voglio il che minimizza il rischio di Bayes.

δ ˜

δ̃

N N

con che corrisponde a quello che minimizza e non è detto che sia unica.

δ̃ N 54

Teorema: ˜ ˜

Sotto condizioni di regolarità ∆ e ∆ sono uguali quasi certamente.

E N

Dimostrazione: Z

=

r(π, δ) R(θ, δ)π(θ) dθ

Θ

sostituisco poi e ottengo:

R(θ, δ)

Z Z (x|θ)

f dx π(θ) dθ

L(θ, δ(x))

(n)

X

Θ

(x|θ) dovrebbe essere (x; poichè per questo passaggio ci troviamo nel

f f θ)

caso classico.

Se posso, scambio gli integrali.

Per la condizione di regolarità ho:

Z Z (x|θ)

f π(θ) dθ dx

L(θ, δ(x))

(n)

X Θ

con (x|θ) che corrisponde a ·

f π(θ) π(θ|x) m(x)

Z Z L(θ, δ(x)) π(θ|x) dθ m(x) dx

(n)

X Θ

do come peso la posterior e poi integro

Z [L(θ,

= = = PAF

π(·|x)

L(θ, δ(x)) δ(x)]

π(θ|x) dθ E ρ(π(θ|x), δ(x))

Θ Z

=

r(π, δ) δ(x) m(x) dx

ρ(π(·|x),

(n)

X

Considero quindi = e = e ottengo

r(π, δ) δ̃ ρ(π(·|x)) δ̃

N E

˜ ˜

∆ = ∆

E N

Minimizzando PAF 55

6.3 Stima puntuale

Vediamo come si fa inferenza bayesiana con approccio decisionale cercando

di minimizzare la perdita attesa. posso pren-

A "buon senso" per fare inferenza sulla posterior calcolata π(θ|x)

dere una qualunque sintesi. In realtà non tutte vanno bene, ma devo scegliere

la sintesi migliore che mi dia stime ottime.

Quando parlo di stima bayesiana vuol dire che sto minimizzando un certo cri-

terio, in particolare la perdita media e la soluzione dipende dalla funzione

ρ

di perdita che utilizzo:

Ottimo (min = = valore atteso quella che minimizza

K E ρ)

1) Perdita quadratica = [(θ ]

= (θ π(.|x) 2

2 −

− → a) E a)

L(θ, a) a) ρ(π(.|x),

ora aggiungo e sottraggo (θ):

π(.|x)

E

[θ−E (θ)] +E [E (θ)−a] +2E [θ−E (θ)][E (θ)−a]

π(.|x) π(.|x) π(.|x) π(.|x) π(.|x) π(.|x) π(.|x)

2 2

E : π(.|x)

π(.|x) ≤ ∈ A

−→ , ã) ρ(E , a)∀a

ã ρ(E

Osservo che il terzo addendo è pari a 0: 2E [θ−E (θ)][E (θ)−a] =

π(.|x) π(.|x) π(.|x)

0, il primo non dipende da mentre il secondo sì, ma poichè si tratta di un

a

quadrato questo è sempre maggiore o al più uguale a 0, dunque l’azione

ottima con perdita quadratica si avrà quando il secondo addendo è pari a 0,

cioè: [E (θ) = 0 [E (θ) = 0

π(.|x) π(.|x)

π(.|x) 2 2

− ⇔ −

a] a]

E = (θ)

π(.|x)

⇒ ã E

L’azione ottima con perdita quadratica è la media a posteriori.

Nonostante la minimizzazione ho ancora

[(θ ] = (θ)

= π(.|x)

π(.|x) 2

− a) V ar

ρ(π(.|x), ã) E

questa è la perdita minima inevitabile.

2) Perdita quadratica ponderata

= 2

L(θ, a) ω(θ)(θ a)

Cambiano le soluzioni in base alla funzione di peso.

Z

= [ω(θ)(θ ] =

π(.|x) 2 2

−→ − −

ρ(π(.|x), a) E a) ω(θ)(θ a) π(θ|x)dθ

Θ

56

L’integrale è l’oggetto che vogliamo minimizzare.

Per trovare calcolo

ã [ω(θ)

π(.|x) ·

δρ E θ]

=

→ ã [ω(θ)]

π(.|x)

δa E

se = = (θ) ottengo il risultato vi-

π(.|x)

Osservazione: ω(θ) ω ã E

sto per la perdita quadratica cioè la invece quando

media a posteriori,

= ottengo la

=

1 1

⇒ media armonica.

ω(θ) ã 1

π(.|x)

θ E ( )

θ

3) Perdita lineare asimmetrica

 se

|θ − ≥

k a| θ a

 0

=

L(θ, a) se

|a −

k θ| θ < a

1

dove e sono costanti positive che mi permettono di differenziare tra

k k

0 1

sovrastima e sottostima, decido io la gravità di questi errori in base al peso

che gli do.

Se = ho i risultati validi per la perdita assoluta simmetrica

k k

0 1

(L(θ, = |θ −

a) a|). a +∞

Z Z

[L(θ, =

= π(.|x) |a−θ|π(θ|x)dθ+ |θ−a|π(θ|x)dθ

k

a)] k

ρ(π(.|x), a) E 1 0

−∞ a

Ora devo minimizzare rispetto ad per trovare (il problema è che com-

a ã a

pare anche nell’integrale).

In generale:

c(t) c(t) δ

δ Z Z 0 0

= + (t)g(c(t), (t)g(b(t),

g(t; s)ds g(t; s)ds c s) b s)

δt δt

b(t) b(t)

Obbiettivo: a +∞

δρ δρ Z

Z

=0 + 1 (a 0 + 0 0 = 0

→ · − − − −

k π(θ|x)dθ a) k π(θ|x)dθ

0

1

δa δa −∞ a

Ora devo risolvere l’equazione,aggiungo e tolgo: a

± R k π(θ|x)dθ

0

−∞

a

+∞ Z

Z + (k + ) = 0

→ −k π(θ|x)dθ k π(θ|x)dθ

0 0 1 −∞

−∞ +∞

Z

Sapendo che ho la legge di distribuzione: = 1

π(θ|x)dθ

−∞

57

a k

Z 0

e: =

π(θ|x)dθ +

k k

−∞ 0 1 (0, 1)

In pratica devo integrare la posterior fino ad e osservo che k ∈ ⇒

ã 0

k +k

0 1

ã k 0

è il quantile di ordine +

k k

0 1

Osservazione:

Se = ho il caso simmetrico (perdita assoluta)

k k

0 1

= (mediana).

→ ã θ

0.5

Bisogna stare attenti a scegliere e , è meglio optare per la scelta simme-

k k

0 1

trica.

4) Perdita 0/1 0 0

( |θ − ≤

a| ε ε >

=

L(θ, a) 1 |θ − a| > ε

= [L(θ, = 0 (|θ + 1 (|θ

π(.|x) π(.|x) π(.|x)

· − ≤ · −

a) E a)] P a| ) P a| > )

ρ(π(.|x), (|θ

= 1 π(.|x) − ≤

− a| )

P

Allora voglio trovare:

: (|θ

π(.|x)

→ − ≤

ã min(ρ) max[P a| )]

Questa condizione si verifica quando (a + ha probabilità massima

− , a )

=

⇒ moda a posteriori

Riepilogo:

L(θ, a) ã

Perdita quadratica Media a posteriori

Perdita assoluta Mediana a posteriori

k

Perdita lineare asimmetrica Quantile 0

k +k

0 1

Perdita 0/1 Moda a posteriori

Rispetto alla funzione di perdita si vuole robustezza, cioè quando questa vie-

ne cambiata la stima varia di "poco".

58

Osservazione:

Se è simmetrica e unimodale la media e la mediana coincidono

π(θ|x)

ho robustezza rispetto alla funzione di perdita.

Osservazione:

In base alla scelta della prior (π(θ)) posso ottenere la robustezza rispetto alla

scelta di quest’ultima.

Domanda:

Supponi d scegliere la prior di Laplace mentre la funzione di perdita è 0/1,

facendo la stima bayesiana di si ottiene un risultato noto?

=⇒ = Stima di Massima Verosimiglianza

= : (SVM)

ã θ max[π(θ|x)]

6.3.1 Stima puntuale per parametri multipli

Ora non ho più il parametro ma = (θ ).

θ θ , ..., θ k

1

Con vettore ho che

a = (θ T

− −

a) a) Q(θ a)

L(θ,

è una generalizzazione della perdita quadratica ponderata, dove è una

Q

matrice simmetrica e definita positiva (rappresenta i pesi per i prodotti

·

k k

degli errori di stima). 0

= [(θ

π(.|x) − −

ρ(π(.|x), a) E a) Q(θ a)]

aggiungo e tolgo (θ) dall’equazione e ottengo:

π(.|x)

±E 0

(θ) + (θ) (θ) + (θ) =

π(.|x)

π(.|x) π(.|x) π(.|x) π(.|x)

{(θ − − − −

E E E a) Q(θ E E a)}

0 0

(θ)] (θ)]+[E (θ)−a] (θ)−a]+2·0} =

π(.|x) π(.|x) π(.|x) π(.|x) π(.|x)

{[θ−E

E Q[θ−E Q[E

Il primo addendo non dipende da mentre nel secondo addendo compare ed

a

è sempre positivo tranne quando = (θ)

π(.|x)

a E

=⇒ = vettore delle medie della posterior ∀

ã Q

Si nota che la soluzione non dipende da ma questa influisce su

Q ρ[pi(.|x), a],

cioè quanto perdo; in particolare quello che perdo è la traccia di Σ , cioè la

θ|x

somma delle varianze a posteriori. 59


PAGINE

70

PESO

486.41 KB

AUTORE

Pagani21

PUBBLICATO

+1 anno fa


DETTAGLI
Corso di laurea: Corso di laurea magistrale in scienze statistiche ed economiche
SSD:
A.A.: 2017-2018

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher Pagani21 di informazioni apprese con la frequenza delle lezioni di Statistica bayesana e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Milano Bicocca - Unimib o del prof Migliorati Sonia.

Acquista con carta o conto PayPal

Scarica il file tutte le volte che vuoi

Paga con un conto PayPal per usufruire della garanzia Soddisfatto o rimborsato

Recensioni
Ti è piaciuto questo appunto? Valutalo!

Altri appunti di Corso di laurea magistrale in scienze statistiche ed economiche

Economia Applicata M
Esercitazione
Statistica Aziendale M
Appunto
Statistical learning
Appunto
Schema Statistica economica M
Appunto