Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
CAPITOLO INFERENZA BAYESIANA “A BUON SENSO”
8 • la moda a posteriori Mo(θ|x);
• oppure attraverso altri indici di sintesi.
Se la distribuzione a posteriori è nota, allora tali indici possono essere calcolati
analiticamente se la distribuzione lo permette. Se invece la distribuzione a
posteriori è ignota, bisogna ricorrere a metodi approssimativi.
2.2 Stima per regioni
La stima bayesiana per regioni è effettuata attraverso due tipologie di sottoinsie-
mi di il credible set (CS) e l’highest posterior density (HPD). Nel seguito si
Θ:
considera un generico grado di confidenza 1 − α.
Il CS è definito come quella porzione di compresa tra il quantile di ordine
Θ
α α2
e il quantile di ordine della distribuzione a posteriori, ovvero
1 −
2 .
θ , θ
α2 α2
1−
L’HDP è invece definito come la porzione di delimitata dai valori di tali
Θ θ
per cui la posterior è maggiore di una certa soglia ovvero
h,
{θ ∈
S = Θ : π(θ|x) > h}.
h |x)
La soglia è scelta in modo tale che Si osservi che, a differenza
h P(S = 1 − α.
h
del CS, che è un intervallo unico, l’HPD può essere formato da più intervalli
disgiunti.
CS e HPD sono equivalenti quando la distribuzione a posteriori è simmetrica
e unimodale. Inoltre, più la posterior si allontana dall’essere simmetrica e
unimodale, più diventa insensato usare il CS.
2.3 Verifica d’ipotesi
∪
Si suppone che e si considera il seguente sistema d’ipotesi:
Θ = Θ Θ
0 1 ∈ ∈
vs .
H : θ Θ H : θ Θ
0 0 1 1
L’inferenza frequentista richiede di determinare una statistica test e probabilizza-
re i valori di che permettono il rifiuto dell’ipotesi nulla. L’inferenza bayesiana,
x
2.4. INFERENZA PREDITTIVA 9
invece, rende molto semplice la verifica d’ipotesi. Conoscendo la distribuzione
di condizionata al campione infatti, è possibile calcolare la probabilità a
x,
θ
posteriori che appartenga a , ovvero
θ Θ 0 Z
|x) |x)
∈
P(H = P(θ Θ = π(θ|x) dx
0 0 Θ 0
e la probabilità a posteriori che appartenga a , ovvero
θ Θ 1
Z
|x) |x)
∈
P(H = P(θ Θ = π(θ|x) dx.
1 1 Θ 1
Di conseguenza, se |x) |x),
P(H < P(H
0 1
si rifiuta l’ipotesi nulla a posteriori, viceversa, se
|x) |x),
P(H > P(H
0 1
non si rifiuta l’ipotesi nulla a posteriori.
2.4 Inferenza predittiva
Si suppone di aver eseguito un primo esperimento descritto dal modello indotto
Y
n !
X |θ),
(n) ∈
, f(x θ Θ
i
i=1
che ha permesso di ottenere Si considera ora un secondo esperimento non
x.
eseguito
′
Y
n
′ ′ ′ |θ),
X (n ) ∈ .
f (x θ Θ
,
i
i=1
Si noti che entrambi i modelli sono caratterizzati dal medesimo parametro θ.
Se l’assunzione di indipendenza condizionata è valida, ovvero se è possibile
′ |θ
assumere che e siano tra loro indipendenti, allora è possibile fare
X|θ X ′
previsione. La distribuzione congiunta del vettore aleatorio è
X, X
(θ, )
′ ′ ′ |θ).
x, x
ψ(θ, ) = π(θ)f(x|θ)f (x
2.
CAPITOLO INFERENZA BAYESIANA “A BUON SENSO”
10 posterior
ed è quindi possibile definire la distribuzione predittiva finale (o
predictive): ′ x)
h(x ,
′ x)
m(x , = =
m(x)
R ′
x, x
ψ(θ, ) dθ
Θ
= =
m(x)
R |θ)
′ ′
π(θ)f(x|θ)f (x dθ
Θ
= =
m(x)
R |θ)
′ ′
m(x) π(θ|x)f (x dθ
Θ =
= m(x)
Z ′ ′ |θ)
= π(θ|x)f (x dθ.
Θ ′
Solitamente non si è interessati a fare previsione sull’intero vettore ma su una
x
′
sua sintesi .
S
Si noti infine che l’indipendenza tra le con implica che
X i = 1, 2, . . . , n
i
Q n |θ
valga che L’indipendenza condizionata delle con
m(x) = m(x ). X
i i
i=1
è valida grazie al seguente teorema.
i = 1, 2, . . . , n Data una successione scambiabile di variabili aleatorie
(di De Finetti).
2.2
Teorema , ovvero tale che per ogni per-
X , X , . . . , X f(x , . . . , x ) = f(x , x . . . , x )
n n
1 2 1 g(1) g(2) g(n) |θ
mutazione di allora esiste un tale che le siano
g(1), g(2), . . . , g(n) 1, 2, . . . , n, θ X
i
tra lo indipendenti, ovvero che Y
n |θ).
f(x
f(x|θ) = i
i=1
Siccome l’indipendenza e l’identica distribuzione implicano la scambia-
bilità e, in generale, le variabili sono assunte indipendenti e
X , X , . . . , X n
1 2
identicamente distribuite, il teorema di De Finetti è sempre applicabile.
Esempio Si supponga di aver effettuato prove indipendenti da
n = 10
2.1. P n
∼ ottenendo che La funzione di verosimiglianza
X Bern(θ) s = x = 2.
i
i=1
è s n−s .
f(x|θ) = θ (1 − θ)
Si supponga ora di voler prevedere il numero di successi su un campione di
P ′
n
′ ′ ′
numerosità Si indica tale quantità con . Si ha che
n = 20. S = X
i=1 i
′
n ′ ′ ′
′ |θ) s n −s
f(s = θ (1 − θ)
′
s
2.4. INFERENZA PREDITTIVA 11
P ′
n
′ ′
con . Allora, assumendo indipendenza condizionata e per
s = x π(θ) = 1
i=1 i ∼
∈ ≡
ovvero si ha che
θ (0, 1), θ Beta(1, 1) Unif(0, 1), ′
n ′ ′ ′
′ ′ |θ) s+s n+n −s−s .
θ (1 − θ)
ψ(θ, s, s ) = π(θ)f(s|θ)f(s = ′
s
Quindi R ′ ′ ′ ′
1 n s+s n+n −s−s
θ (1 − θ) dθ
′
′ |s) 0 s R
m(s = =
1 s n−s
θ (1 − θ) dθ
0 ′ ′ ′
′
Beta(s + s + 1, n + n − s − s + 1)
n
= ′
s Beta(s + 1, n − s + 1)
Tale legge di distribuzione è quella di una distribuzione nota, infatti
′ ′
|S ∼
S = s BetaBinom(n , s + 1, n − s + 1)
il cui valore atteso è ′
n (s + 1)
′ |S .
E(S = s) = (s + 1) + (n − s + 1)
Si prevede quindi che il numero medio di successi su un campione di unità
20
sarà pari a 5. 2.
CAPITOLO INFERENZA BAYESIANA “A BUON SENSO”
12 3
Capitolo
Elicitazione della prior
La distribuzione a priori è l’oggetto attraverso il quale le informazioni extra-
sperimentali vengono inserite nel modello. La scelta della distribuzione a priori
gioca un ruolo cruciale per lo sviluppo delle analisi. In questo capitolo vengo-
no introdotti i principali metodi per la scelta della prior, accennando a quelli
soggettivi e approfondendo quelli oggettivi.
3.1 Assegnazione diretta
Quando si hanno molte informazioni sul parametro è possibili usare
θ
l’assegnazione diretta della distribuzione a priori.
Se è una variabile aleatoria discreta con supporto limitato
θ Θ =
{θ }, ∈
si specifica la probabilità a priori di ciascun ovvero
, θ , . . . , θ θ Θ, P(θ )
1 2 k i
per ogni È necessario giustificare i valori scelti con informazioni
i = 1, 2, . . . , k.
a priori molto importanti.
Se è una variabile aleatoria continua con supporto qualsiasi, sono possibili
θ
diverse vie:
• si crea un istogramma di densità di frequenza
metodo dell’istogramma:
sul supporto di e lo si approssima con una funzione sufficientemente
θ
regolare;
• si sceglie una classe di leggi di
scelta di una legge di distribuzione:
distribuzioni (es. e, attraverso informazioni extra-sperimentali,
Beta(α, β))
si fissano i valori dei suoi parametri;
13 3.
CAPITOLO ELICITAZIONE DELLA PRIOR
14 • attraverso informazioni extra-sperimentali, si fissano
scelta del quantile:
i valori di alcuni quantili della distribuzione di e si determina così la
θ
distribuzione di densità.
3.2 Distribuzioni non informative
Le distribuzioni a priori non informative permettono di ottenere conclusioni
inferenziali oggettive, ovvero non influenzate dalle informazioni che lo speri-
mentatore ha a priori. Secondo questa logica, la regola di elicitazione prevede
che la prior per sia scelta automaticamente dato un esperimento aleatorio.
θ
Una proprietà che può avere una distribuzione a priori è quella di invarianza
rispetto a trasformazioni di Si consideri il modello di base
θ. ∈
(X, f(x; θ), θ Θ)
e la riparametrizzazione λ = g(θ).
Dunque, il modello riparametrizzato è ∈
(X, f̃(x; λ), λ Λ)
dove viene dedotto da Nella statistica frequentista si utilizza senza pro-
Λ Θ.
blemi il modello riparametrizzato per fare inferenza. Nella statistica bayesiana,
invece, la riparametrizzazione diventa una trasformazione della variabile alea-
toria e quindi bisogna determinare la funzione di densità attraverso il teorema
θ
del diffeomorfismo. Tale funzione può differire a seconda dell’ordine con cui
si applicano la riparametrizzazione e la regola di elicitazione. Si indica con
⋆ la prior per ottenuta applicando la regola di elicitazione per e poi
π (λ) λ π(θ)
applicando la trasformazione di variabile aleatoria mentre si indica con la
π̃(λ)
prior per ottenuta riparametrizzando e applicando poi la regola di elicitazione.
λ (invarianza). Si dice che una regola di elicitazione è invariante
3.1
Definizione
rispetto a trasformazioni se l’ordine con cui si applicano la riparametrizzazione
e la regola stessa è indifferente, ovvero se
⋆
π (λ) = π̃(λ).
3.2. DISTRIB