Appunti di Statistica bayesiana

Appunti per l'esame di Statistica bayesiana M.
Argomenti principali:
- introduzione alla statistica bayesiana;
- inferenza bayesiana ''a buon senso'';
- scelta della distribuzione a priori;
- metodi computazionali per l'inferenza bayesiana;
- approccio decisionale;
- accenni al modello lineare bayesiano.

Esame Statistica bayesiana m

Facoltà Scienze statistiche

Dal corso del Prof. Migliorati Sonia

Università Università degli Studi di Milano - Bicocca

Publisher al.col

A.A. 2023-2024

51 pagine

Appunti esame

Vota 5,0 / 5 (1)

Scarica

Estratto del documento

CAPITOLO INFERENZA BAYESIANA “A BUON SENSO”

8 • la moda a posteriori Mo(θ|x);

• oppure attraverso altri indici di sintesi.

Se la distribuzione a posteriori è nota, allora tali indici possono essere calcolati

analiticamente se la distribuzione lo permette. Se invece la distribuzione a

posteriori è ignota, bisogna ricorrere a metodi approssimativi.

2.2 Stima per regioni

La stima bayesiana per regioni è effettuata attraverso due tipologie di sottoinsie-

mi di il credible set (CS) e l’highest posterior density (HPD). Nel seguito si

Θ:

considera un generico grado di confidenza 1 − α.

Il CS è definito come quella porzione di compresa tra il quantile di ordine

α α2

e il quantile di ordine della distribuzione a posteriori, ovvero

1 −

2 .

θ , θ

α2 α2

1−

L’HDP è invece definito come la porzione di delimitata dai valori di tali

Θ θ

per cui la posterior è maggiore di una certa soglia ovvero

{θ ∈

S = Θ : π(θ|x) > h}.

h |x)

La soglia è scelta in modo tale che Si osservi che, a differenza

h P(S = 1 − α.

del CS, che è un intervallo unico, l’HPD può essere formato da più intervalli

disgiunti.

CS e HPD sono equivalenti quando la distribuzione a posteriori è simmetrica

e unimodale. Inoltre, più la posterior si allontana dall’essere simmetrica e

unimodale, più diventa insensato usare il CS.

2.3 Verifica d’ipotesi

∪

Si suppone che e si considera il seguente sistema d’ipotesi:

Θ = Θ Θ

0 1 ∈ ∈

vs .

H : θ Θ H : θ Θ

0 0 1 1

L’inferenza frequentista richiede di determinare una statistica test e probabilizza-

re i valori di che permettono il rifiuto dell’ipotesi nulla. L’inferenza bayesiana,

2.4. INFERENZA PREDITTIVA 9

invece, rende molto semplice la verifica d’ipotesi. Conoscendo la distribuzione

di condizionata al campione infatti, è possibile calcolare la probabilità a

posteriori che appartenga a , ovvero

θ Θ 0 Z

|x) |x)

∈

P(H = P(θ Θ = π(θ|x) dx

0 0 Θ 0

e la probabilità a posteriori che appartenga a , ovvero

θ Θ 1

Z

|x) |x)

∈

P(H = P(θ Θ = π(θ|x) dx.

1 1 Θ 1

Di conseguenza, se |x) |x),

P(H < P(H

0 1

si rifiuta l’ipotesi nulla a posteriori, viceversa, se

|x) |x),

P(H > P(H

0 1

non si rifiuta l’ipotesi nulla a posteriori.

2.4 Inferenza predittiva

Si suppone di aver eseguito un primo esperimento descritto dal modello indotto

Y

n !

X |θ),

(n) ∈

, f(x θ Θ

i=1

che ha permesso di ottenere Si considera ora un secondo esperimento non

eseguito  

′

Y

′ ′ ′ |θ),

X (n ) ∈ .

f (x θ Θ

 

i=1

Si noti che entrambi i modelli sono caratterizzati dal medesimo parametro θ.

Se l’assunzione di indipendenza condizionata è valida, ovvero se è possibile

′ |θ

assumere che e siano tra loro indipendenti, allora è possibile fare

X|θ X ′

previsione. La distribuzione congiunta del vettore aleatorio è

X, X

(θ, )

′ ′ ′ |θ).

x, x

ψ(θ, ) = π(θ)f(x|θ)f (x

CAPITOLO INFERENZA BAYESIANA “A BUON SENSO”

10 posterior

ed è quindi possibile definire la distribuzione predittiva finale (o

predictive): ′ x)

h(x ,

′ x)

m(x , = =

m(x)

R ′

x, x

ψ(θ, ) dθ

= =

m(x)

R |θ)

′ ′

π(θ)f(x|θ)f (x dθ

= =

m(x)

R |θ)

′ ′

m(x) π(θ|x)f (x dθ

Θ =

= m(x)

Z ′ ′ |θ)

= π(θ|x)f (x dθ.

Θ ′

Solitamente non si è interessati a fare previsione sull’intero vettore ma su una

′

sua sintesi .

S

Si noti infine che l’indipendenza tra le con implica che

X i = 1, 2, . . . , n

Q n |θ

valga che L’indipendenza condizionata delle con

m(x) = m(x ). X

i i

i=1

è valida grazie al seguente teorema.

i = 1, 2, . . . , n Data una successione scambiabile di variabili aleatorie

(di De Finetti).

2.2

Teorema , ovvero tale che per ogni per-

X , X , . . . , X f(x , . . . , x ) = f(x , x . . . , x )

n n

1 2 1 g(1) g(2) g(n) |θ

mutazione di allora esiste un tale che le siano

g(1), g(2), . . . , g(n) 1, 2, . . . , n, θ X

tra lo indipendenti, ovvero che Y

n |θ).

f(x

f(x|θ) = i

i=1

Siccome l’indipendenza e l’identica distribuzione implicano la scambia-

bilità e, in generale, le variabili sono assunte indipendenti e

X , X , . . . , X n

1 2

identicamente distribuite, il teorema di De Finetti è sempre applicabile.

Esempio Si supponga di aver effettuato prove indipendenti da

n = 10

2.1. P n

∼ ottenendo che La funzione di verosimiglianza

X Bern(θ) s = x = 2.

i=1

è s n−s .

f(x|θ) = θ (1 − θ)

Si supponga ora di voler prevedere il numero di successi su un campione di

P ′

′ ′ ′

numerosità Si indica tale quantità con . Si ha che

n = 20. S = X

i=1 i

′

n ′ ′ ′

′ |θ) s n −s

f(s = θ (1 − θ)

′

2.4. INFERENZA PREDITTIVA 11

P ′

′ ′

con . Allora, assumendo indipendenza condizionata e per

s = x π(θ) = 1

i=1 i ∼

∈ ≡

ovvero si ha che

θ (0, 1), θ Beta(1, 1) Unif(0, 1), ′

n ′ ′ ′

′ ′ |θ) s+s n+n −s−s .

θ (1 − θ)

ψ(θ, s, s ) = π(θ)f(s|θ)f(s = ′

Quindi R ′ ′ ′ ′

1 n s+s n+n −s−s

θ (1 − θ) dθ

′

′ |s) 0 s R

m(s = =

1 s n−s

θ (1 − θ) dθ

0 ′ ′ ′

′

Beta(s + s + 1, n + n − s − s + 1)

= ′

s Beta(s + 1, n − s + 1)

Tale legge di distribuzione è quella di una distribuzione nota, infatti

′ ′

|S ∼

S = s BetaBinom(n , s + 1, n − s + 1)

il cui valore atteso è ′

n (s + 1)

′ |S .

E(S = s) = (s + 1) + (n − s + 1)

Si prevede quindi che il numero medio di successi su un campione di unità

sarà pari a 5. 2.

CAPITOLO INFERENZA BAYESIANA “A BUON SENSO”

12 3

Capitolo

Elicitazione della prior

La distribuzione a priori è l’oggetto attraverso il quale le informazioni extra-

sperimentali vengono inserite nel modello. La scelta della distribuzione a priori

gioca un ruolo cruciale per lo sviluppo delle analisi. In questo capitolo vengo-

no introdotti i principali metodi per la scelta della prior, accennando a quelli

soggettivi e approfondendo quelli oggettivi.

3.1 Assegnazione diretta

Quando si hanno molte informazioni sul parametro è possibili usare

l’assegnazione diretta della distribuzione a priori.

Se è una variabile aleatoria discreta con supporto limitato

θ Θ =

{θ }, ∈

si specifica la probabilità a priori di ciascun ovvero

, θ , . . . , θ θ Θ, P(θ )

1 2 k i

per ogni È necessario giustificare i valori scelti con informazioni

i = 1, 2, . . . , k.

a priori molto importanti.

Se è una variabile aleatoria continua con supporto qualsiasi, sono possibili

diverse vie:

• si crea un istogramma di densità di frequenza

metodo dell’istogramma:

sul supporto di e lo si approssima con una funzione sufficientemente

regolare;

• si sceglie una classe di leggi di

scelta di una legge di distribuzione:

distribuzioni (es. e, attraverso informazioni extra-sperimentali,

Beta(α, β))

si fissano i valori dei suoi parametri;

13 3.

CAPITOLO ELICITAZIONE DELLA PRIOR

14 • attraverso informazioni extra-sperimentali, si fissano

scelta del quantile:

i valori di alcuni quantili della distribuzione di e si determina così la

distribuzione di densità.

3.2 Distribuzioni non informative

Le distribuzioni a priori non informative permettono di ottenere conclusioni

inferenziali oggettive, ovvero non influenzate dalle informazioni che lo speri-

mentatore ha a priori. Secondo questa logica, la regola di elicitazione prevede

che la prior per sia scelta automaticamente dato un esperimento aleatorio.

Una proprietà che può avere una distribuzione a priori è quella di invarianza

rispetto a trasformazioni di Si consideri il modello di base

θ. ∈

(X, f(x; θ), θ Θ)

e la riparametrizzazione λ = g(θ).

Dunque, il modello riparametrizzato è ∈

(X, f̃(x; λ), λ Λ)

dove viene dedotto da Nella statistica frequentista si utilizza senza pro-

Λ Θ.

blemi il modello riparametrizzato per fare inferenza. Nella statistica bayesiana,

invece, la riparametrizzazione diventa una trasformazione della variabile alea-

toria e quindi bisogna determinare la funzione di densità attraverso il teorema

del diffeomorfismo. Tale funzione può differire a seconda dell’ordine con cui

si applicano la riparametrizzazione e la regola di elicitazione. Si indica con

⋆ la prior per ottenuta applicando la regola di elicitazione per e poi

π (λ) λ π(θ)

applicando la trasformazione di variabile aleatoria mentre si indica con la

π̃(λ)

prior per ottenuta riparametrizzando e applicando poi la regola di elicitazione.

λ (invarianza). Si dice che una regola di elicitazione è invariante

3.1

Definizione

rispetto a trasformazioni se l’ordine con cui si applicano la riparametrizzazione

e la regola stessa è indifferente, ovvero se

⋆

π (λ) = π̃(λ).

3.2. DISTRIB

Anteprima

Vedrai una selezione di 12 pagine su 51