Statistica Bayesiana
Pagani Davide
11 novembre 2016
Indice
1 Introduzione 3
1.1 Variabile casuale Beta . . . . . . . . . . . . . . . . . . . . . . 5
2 Modelli 6
2.1 Modello Binomiale-Beta . . . . . . . . . . . . . . . . . . . . . 6
2.2 Modello Poisson-Gamma . . . . . . . . . . . . . . . . . . . . . 8
2.3 Modello Esponenziale-Gamma . . . . . . . . . . . . . . . . . . 9
2.4 Modello Normale-Normale . . . . . . . . . . . . . . . . . . . . 10
3 Inferenza Bayesiana 13
3.1 Metodo Montecarlo . . . . . . . . . . . . . . . . . . . . . . . . 14
3.2 Inferenza previsiva . . . . . . . . . . . . . . . . . . . . . . . . 16
4 Elicitazione della prior 19
4.1 Assegnazione diretta . . . . . . . . . . . . . . . . . . . . . . . 19
4.2 Distribuzioni non informative . . . . . . . . . . . . . . . . . . 19
4.2.1 Laplace . . . . . . . . . . . . . . . . . . . . . . . . . . 19
4.2.2 Jeffreys . . . . . . . . . . . . . . . . . . . . . . . . . . 22
4.2.3 Vague . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.3 Prior coniugate . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.4 Metodo di scelta degli iperparametri . . . . . . . . . . . . . . 30
5 Sintesi della posterior 33
5.1 Procedure analitiche . . . . . . . . . . . . . . . . . . . . . . . 33
5.1.1 Approssimazione normale . . . . . . . . . . . . . . . . 34
5.1.2 Approssimazione Laplace . . . . . . . . . . . . . . . . . 36
5.2 Metodi simulativi . . . . . . . . . . . . . . . . . . . . . . . . . 38
5.2.1 Metodo Monte Carlo . . . . . . . . . . . . . . . . . . . 38
5.2.2 MCIS (Monte Carlo Importance Sampling) . . . . . . . 38
5.2.3 Metodo MCMC . . . . . . . . . . . . . . . . . . . . . . 40
6 Approccio decisionale 47
6.1 Ammissibilità . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
6.1.1 Criteri Bayesiani . . . . . . . . . . . . . . . . . . . . . 49
6.1.2 Criteri non Bayesiani . . . . . . . . . . . . . . . . . . . 50
6.1.3 Funzioni di perdita . . . . . . . . . . . . . . . . . . . . 51
6.1.4 Verifica d’ipotesi . . . . . . . . . . . . . . . . . . . . . 52
6.2 Teoria delle decisioni statistiche . . . . . . . . . . . . . . . . . 53
6.2.1 Approccio teorico decisionale statistico classico . . . . . 53
6.2.2 Approccio teorico decisionale statistico bayesiano . . . 53
1
6.3 Stima puntuale . . . . . . . . . . . . . . . . . . . . . . . . . . 56
6.3.1 Stima puntuale per parametri multipli . . . . . . . . . 59
6.3.2 Stima puntuale per trasformate del parametro . . . . . 60
6.4 Stima intervallare . . . . . . . . . . . . . . . . . . . . . . . . . 62
7 Verifica d’ipotesi 63
7.1 Senza approccio decisionale . . . . . . . . . . . . . . . . . . . 63
7.2 Con approccio decisionale . . . . . . . . . . . . . . . . . . . . 63
7.2.1 Caso 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
7.2.2 Caso 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
7.2.3 Caso 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
7.3 Il fattore di Bayes . . . . . . . . . . . . . . . . . . . . . . . . . 68
2
1 Introduzione
Inferenza classica (o frequentista, nata nel ’20 con Fisher): è un esperi-
ε
mento aleatorio o casuale di cui non si conosce il risultato, facendo n prove
indipendenti ottengo = (x ), una campionaria che con-
−
x , x , ..., x n upla
n
1 2
tiene alla quale si aggiunge il principio del
l’informazione campionaria,
campionamento ripetuto che mi permette di passare dalla stima di un nume-
ro allo stimatore → X.
x
L’inferenza bayesiana invece è più recente (anni ’50, ’60 con Bayes): si utiliz-
za ancora l’informazione campionaria alla quale si aggiunge l’informazione
x
pre-sperimentale, cioè ho qualcosa in più prima di fare l’esperimento (uso il
principio di verosimiglianza).
Esempio (numero guasti degli impianti produttivi)
Per analizzare il numero di guasti in un impianto produttivo utilizzo una
variabile casuale di Poisson con parametro (ignoto).
θ
voglio fare inferenza su quindi sul parametro ignoto e
∼ →
X P oisson(θ) θ
non aleatorio che corrisponde al numero dei guasti.
avrei calcolato la stima di massima verosimiglianza che
In ambito classico P x ; ho delle
coincide con la media campionaria: = i In ambito bayesiano
θ̂ n
informazioni in più (ad esempio so che 20 oppure so che è più probabile
θ <
un numero piccolo di guasti rispetto ad uno elevato) che devo integrare nel
mio problema. Quindi non ho più ignoto.
θ
Vedo dal grafico che in un intervallo di sinistra ho una probabilità più elevata
rispetto a destra informazione pre-sperimentale all’interno della mia stati-
+
stica principio di verosimiglianza (tutto ciò che è sintetizzato nell’n −
+ upla
campionaria presa in considerazione dato che mi da tutta l’informazione di
cui ho bisogno).
Notazione simbolica: Θ).
Modello (esperimento) statistico: (X, (x; ∈
θ), θ
f
Esempio (fenomeno dicotomico)
Fenomeno dicotomico:
({0, 1}, (x; = (1 [0, 1])
x 1−x
− ∈
f θ) θ θ) , θ
Con 0 = insuccesso e 1 = successo. 3
Dopo aver fatto prove indipendenti il modello indotto è:
n n
(X (x; = (1 [0, 1])
x
(n) 1−x
Y − ∈
, f θ) θ θ) , θ
i i
i=1
Con che corrisponde a tutte le in cui ciascun elemento si muove
(n) −
X n uple
in cioè in un fenomeno dicotomico.
x, = (1−θ)
(x; corrisponde alla funzione di verosimiglianza
ni=1 x 1−x
Q θ
θ)
f L(θ).
i i
Esempio (Savage ’62)
= (1, 1, 1) con = 10, quindi la stima di massima verosi-
Il campione è ..., n
x P x
miglianza è la media campionaria = =
= = 1; è molto verosimile
10
i
θ̂ x
n 10
pensare che il parametro ignoto sia 1. Savage dice che prima dell’esperimento
ognuno ha una propria idea su quello che può essere il valore di prima
→
θ
di fare l’esperimento, devi avere in testa dei valori plausibili; ognuno avrà la
propria idea in base all’esperienza pregressa. Se non so, avrò una funzione
con area al di sotto sempre uguale.
Per aggiungere l’informazione pre-sperimentale al modello passo dalla fun-
zione di verosimiglianza alla legge condizionata (x|θ).
f
La legge della variabile è detta legge a priori dalla quale si può ricavare
θ π(θ),
la legge di distribuzione congiunta: = (x|θ)π(θ)
Ψ(x, θ) f
(x|θ) è la legge condizionata al valore di manifestata nel momento in cui
f θ
ho fatto l’esperimento.
invece è la prior legge di distribuzione marginale.
→
π(θ)
Per calcolare la posterior uso la congiunta:
Ψ(x, (x|θ)π(θ)
f
θ)
= = = (x|θ)π(θ)
·
c f
π(θ|x) (x|θ)π(θ)
R
m(x) f dθ
θ
dove è la (reciproco della marginale
1
costante di normalizzazione
c m(x)
di x) mentre il resto del prodotto è il della posterior.
nucleo
(x|θ)π(θ)
f
:
Teorema di Bayes (x|θ)π(θ)
R f dθ
θ
4
Esempio (Gamma) ∼
X Gamma(α, β)
con 0, e 0
α, β > x > α
β
(x; = α−1
f α, β) x exp(−βx)
Γ(α)
α è la costante di normalizzazione che non dipende da
la parte a sinistra β
Γ(α)
x e permette all’integrale della densità di essere pari a 1, la parte a destra
è il nucleo della legge di distribuzione.
α−1
x exp(−βx)
Esempio (Bernoulli)
Data la variabile vengono fatte 3 (n = 3) prove e il cam-
∼
X Bernoulli(θ)
pione ottenuto è = (0, 0, 1).
x
La prior = 1
π(θ)
Modello statistico indotto:
({0, 1} [0, 1])
(3) 2
− ∈
, θ(1 θ) , θ
(x|θ)π(θ) 1
2
− ·
f θ(1 θ)
= =
π(θ|x) 1dθ
1
m(x) − ·
2
R θ(1 θ)
0
1
2
− · → nucleo
θ(1 θ) 1dθ
1 2
− · →
R costante di normalizzazione.
θ(1 θ)
0
1.1 Variabile casuale Beta
ha supporto [0, 1] o (0, 1) mentre 0.
∼
X Beta(α, β) α, β >
(1
α−1 β−1
−
x x)
(x; =
f α, β) B(α, β)
Il nucleo integra a 1 solo con = 1 e = 1 che sarebbe uniforme continua.
α β
Γ(α)Γ(β) 1
Z
= = (1
α−1 β−1
−
B(α, β) x x) dx
Γ(α + β) 0
= α
E[X] α+β
= solo se 1 (altrimenti non c’è moda poichè
α−1 →
M oda[X] α, β >
α+β−2
sarebbe uniforme)
= αβ
V ar[X] 2
(α+β) (α+β+1) 5
2 Modelli
2.1 Modello Binomiale-Beta
Considerando prove indipendenti con fenomeno dicotomico:
n
1}
{0, → {insuccesso, successo}
∼
X Bernoulli(θ)
Otteniamo una campionaria, una serie di 0, 1.
n-upla
Se allora è continua sul supporto 1} con:
∼ {0,
X Beta(α, β), (1
α−1 β−1
−
x x)
(x; =
f α, β) B(α, β)
dove (1 e
α−1 β−1
− → →
nucleo costante di normalizzazione
x x) B(α, β)
che integra a 1, cioè = 1.
R
Considerando quindi come di tipo tale che:
prior π(θ) Beta(α, β)
(1
α−1 β−1
−
θ θ) 0 1 0
= con < θ < e α, β >
π(θ) B(α, β)
La fase di scelta della prior si chiama elicitazione
I parametri che compongono la prior vengono definiti e com-
iperparametri
paiono nella legge di distribuzione di θ.
Invece la è:
posterior
- Caso continuo: (x|θ)π(θ)
(x|θ)π(θ) f
f
= =
π(θ|x) (x|θ)π(θ)
R
m(x) f dθ
Θ
- Caso discreto: (x|θ)π(θ) (x|θ)π(θ)
f f
= =
π(θ|x) (x|θ)π(θ)
P
m(x) f dθ
Θ
Ricordo che corrisponde alla marginale di → distribuzione predit-
m(x) x
tiva iniziale.
La funzione di verosimiglianza partendo da prove indipendenti di una
n
6
P P
(1 , deve quindi essere moltiplicata per la prior
x n− x
→ −
Bernoulli θ θ)
i i
α−1 β−1 in modo tale da ottenere:
di una θ (1−θ)
→
Beta B(α,β) α−1 β−1
P P
(1 θ (1−θ)
x n− x
− ·
θ θ)
i i B(α,β)
=
π(θ|x) P P
xi n− xi
+α−1 +β−1
θ (1−θ)
1
R dθ
0 B(α,β)
Il supporto Θ 1} utilizza l’integrale nel caso continuo e la sommatoria
∈ {0,
nel caso discreto.
Dalla formula della posterior è possibile semplificare la costante
sempre
(B(α, β))
Possiamo distinguere il nucleo dalla costante di normalizzazione:
P P
(1
x n− x
+α−1 +β−1
− → nucleo
θ θ)
i i
1
Z P P
(1
x n− x
+α−1 +β−1
− → costante di normalizzazione
θ θ) dθ
i i
0
Il nucleo comprende i fattori della posterior che contengono θ.
La costante di normalizzazione considera tutti gli elementi che non conten-
gono poichè integrando per ottengo la marginale di
θ, θ x.
se riconosco il nucleo come variabile nota, la mia soluzione è il nu-
N.B.
meratore. Se non riconosco la distribuzione, passerò per via computazionale.
Dal nucleo osservo che nella funzione di densità avevo ora ho che eleva
x, θ
ad un numero. Gli iperparametri e della distribuzione li ricavo nel
α β Beta
seguente modo:
- per prendo l’esponente di e lo sommo a +1 +α−1+1 = +α
→ P P
α: θ x x
i i
- per prendo l’esponente di (1−θ) e lo sommo a +1 +β =
→ −1+1
P
β: n− x i
+
− P
n x β
i
= + +
−
P P
Beta( x α, n x β)
π(θ|x) i i
Considerazione sul denominatore:
P P
(1
x n− x
+α−1 +β−1
−
1 θ θ)
i i
Z + +
X X
· −
dθ B( x α, n x β)
i i
+ +
−
P P
B( x α, n x β)
0 i i
Quindi la posterior: P P
(1
x n− x
+α−1 +β−1
−
θ θ)
i i
=
π(θ|x) + +
−
P P
B( x α, n x β)
i i
7
è la funzione di densità di una con parametri e rispettivamente a
Beta α β
+ e +
−
P P
x α n x β
i i
Una via più "breve": (x|θ)π(θ)
f (x|θ)π(θ)
= ∝ f
π(θ|x) m(x)
Posso quindi trascurare le costanti moltiplicative!
significa "proporzionale a" e si utilizza quando si riesce a riconoscere
1
∝= m(x)
il nucleo di una variabile casuale nota. Posso concludere che la distribuzione
a posteriori coincide con la legge di questa variabile casuale nota.
Esempio (sottoscrizioni polizze giornaliere)
Voglio fare inferenza sul numero medio di polizze, cioè su θ.
con ignoto che corrisponde al numero medio di polizze
∼ →
X P oisson(θ) θ
valore atteso della variabile aleatoria.
Considero 10 giorni, quindi una numerosità = 10. Non è necessario sapere
n
= (3, 10, 7, 4, ma è importante sapere che = 30.
che 10
P
...) x
x i
i=1
P x
La stima di massima verosimiglianza di = = = 3 (corrisponde
30
i
θ: θ̂ n 10
alla media campionaria) P xi
−nθ
(N Θ = )
·θ
e
(10) +
Il modello indotto (terna di oggetti) è: , , R
n
Q x !
i
i=1
Elicitazione prior: sappiamo a priori che la prior è una 1) tale
Gamma(4,
che = Γ(4, 1)
π(θ) = = 4
= αβ 41
E(θ) = = = 4
α 4
V AR(θ) 2 2
β 1
= = = 3 con
α−1 3
M ODA(θ) α > β
β 1
Generalizzando a elementi, ci riconduciamo ad un modello Poisson-
n
Gamma.
2.2 Modello Poisson-Gamma P xi α
nθ ·θ β −βθ
e α−1
· θ e
(x|θ)π(θ) n
f Q Γ(α)
x !
= = i
i=1
π(θ|x) P
m(x) xi α
∞ nθ ·θ β
e −βθ
α−1
·
R θ e dθ
n
Q
0 Γ(α)
x !
i
i=1
8
Raccolgo ciò che può essere raccolto nella posterior per poi eliminare tutto
! , e Γ(α) :
ciò che non dipende da come ni=1 α
Q x β
θ i
P xi +α−1 −nθ−βθ α
·e ·β
θ P −nθ−βθ
x +α−1 ·
n θ e
i
Q x !·Γ(α)
i −→
i=1 P
P ∞ x +α−1 −nθ−βθ
·
R
xi +α−1 θ e dθ
i
−nθ−βθ α
∞ ·e ·β
θ
R dθ 0
n
Q
0 x !·Γ(α)
i
i=1
Da cui ricavo Γ( + + poichè ho una distribuzione nota. Conside-
P x α, n β)
i
rando i risultati ottenuti dall’esempio delle sottoscrizioni polizze giornaliere,
ottengo una Γ(34, 11) poichè = 30 , = 4 , = 10 e = 1.
P x α n β
i
= 3, 091. Il numero medio di polizze giornaliere si è ab-
= 34
E(π(θ|x)) 11
bassato da 4 a 3, 091.
= = 0, 281 da cui osserviamo che più il valore della varian-
34
V AR(π(θ|x)) 2
11
za è piccolo e più siamo vicini al valore, quindi ho più fiducia.
= = 3 lo stesso valore della prior Γ(4, 1).
33
M ODA(π(θ|x)) 11
Conclusione:
la Γ(34, 11) risulta essere più precisa di una Γ(4, 1) dato che è concentrata
sui valori centrali della distribuzione.
Si può osservare inoltre che a parità tra 2 più è grande e più si
Gamma, β
ha maggior precisione e scarsa dispersione.
Considerazione: = 3
Inferenza classica: = x
θ̂
Prior: = αβ
E(θ) P xi α
P ·n+ ·β
x +α
Posterior: = = = θ̂·n+E(θ)·β
i n β
E(θ|x) n+β n+β n
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
-
Statistica bayesiana
-
Appunti di Statistica bayesiana
-
Appunti Statistica
-
Formulario completo di Statistica