Statistica Bayesiana

Name: Statistica Bayesiana
Brand: Skuola.net
Price: 7.99 EUR
Availability: InStock
Rating: 4.5 (2 reviews)
Author: Pagani21

Revisionato il 14/05/2026

di Pagani21

Publisher

Vota 4,5/5 (2)

Contenuto verificato e approvato dal Team di Esperti di Skuola.net

Appunti di statistica bayesana su: -Elicitazione della prior.- Sintesi della posterior.- Approccio decisionale.- Verifica d'ipotesi.Università degli studi di Milano Bicocca -Unimib, …

Esame Statistica bayesana

Facoltà Scienze statistiche

Dal corso del Prof. Migliorati Sonia

Università Università degli Studi di Milano - Bicocca

A.A. 2016-2017

70 pagine

5 download

Appunto

Scarica

Estratto del documento

Statistica Bayesiana

Pagani Davide

11 novembre 2016

Indice

1 Introduzione 3

1.1 Variabile casuale Beta . . . . . . . . . . . . . . . . . . . . . . 5

2 Modelli 6

2.1 Modello Binomiale-Beta . . . . . . . . . . . . . . . . . . . . . 6

2.2 Modello Poisson-Gamma . . . . . . . . . . . . . . . . . . . . . 8

2.3 Modello Esponenziale-Gamma . . . . . . . . . . . . . . . . . . 9

2.4 Modello Normale-Normale . . . . . . . . . . . . . . . . . . . . 10

3 Inferenza Bayesiana 13

3.1 Metodo Montecarlo . . . . . . . . . . . . . . . . . . . . . . . . 14

3.2 Inferenza previsiva . . . . . . . . . . . . . . . . . . . . . . . . 16

4 Elicitazione della prior 19

4.1 Assegnazione diretta . . . . . . . . . . . . . . . . . . . . . . . 19

4.2 Distribuzioni non informative . . . . . . . . . . . . . . . . . . 19

4.2.1 Laplace . . . . . . . . . . . . . . . . . . . . . . . . . . 19

4.2.2 Jeffreys . . . . . . . . . . . . . . . . . . . . . . . . . . 22

4.2.3 Vague . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

4.3 Prior coniugate . . . . . . . . . . . . . . . . . . . . . . . . . . 25

4.4 Metodo di scelta degli iperparametri . . . . . . . . . . . . . . 30

5 Sintesi della posterior 33

5.1 Procedure analitiche . . . . . . . . . . . . . . . . . . . . . . . 33

5.1.1 Approssimazione normale . . . . . . . . . . . . . . . . 34

5.1.2 Approssimazione Laplace . . . . . . . . . . . . . . . . . 36

5.2 Metodi simulativi . . . . . . . . . . . . . . . . . . . . . . . . . 38

5.2.1 Metodo Monte Carlo . . . . . . . . . . . . . . . . . . . 38

5.2.2 MCIS (Monte Carlo Importance Sampling) . . . . . . . 38

5.2.3 Metodo MCMC . . . . . . . . . . . . . . . . . . . . . . 40

6 Approccio decisionale 47

6.1 Ammissibilità . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

6.1.1 Criteri Bayesiani . . . . . . . . . . . . . . . . . . . . . 49

6.1.2 Criteri non Bayesiani . . . . . . . . . . . . . . . . . . . 50

6.1.3 Funzioni di perdita . . . . . . . . . . . . . . . . . . . . 51

6.1.4 Verifica d’ipotesi . . . . . . . . . . . . . . . . . . . . . 52

6.2 Teoria delle decisioni statistiche . . . . . . . . . . . . . . . . . 53

6.2.1 Approccio teorico decisionale statistico classico . . . . . 53

6.2.2 Approccio teorico decisionale statistico bayesiano . . . 53

6.3 Stima puntuale . . . . . . . . . . . . . . . . . . . . . . . . . . 56

6.3.1 Stima puntuale per parametri multipli . . . . . . . . . 59

6.3.2 Stima puntuale per trasformate del parametro . . . . . 60

6.4 Stima intervallare . . . . . . . . . . . . . . . . . . . . . . . . . 62

7 Verifica d’ipotesi 63

7.1 Senza approccio decisionale . . . . . . . . . . . . . . . . . . . 63

7.2 Con approccio decisionale . . . . . . . . . . . . . . . . . . . . 63

7.2.1 Caso 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

7.2.2 Caso 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

7.2.3 Caso 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

7.3 Il fattore di Bayes . . . . . . . . . . . . . . . . . . . . . . . . . 68

1 Introduzione

Inferenza classica (o frequentista, nata nel ’20 con Fisher): è un esperi-

mento aleatorio o casuale di cui non si conosce il risultato, facendo n prove

indipendenti ottengo = (x ), una campionaria che con-

−

x , x , ..., x n upla

1 2

tiene alla quale si aggiunge il principio del

l’informazione campionaria,

campionamento ripetuto che mi permette di passare dalla stima di un nume-

ro allo stimatore → X.

L’inferenza bayesiana invece è più recente (anni ’50, ’60 con Bayes): si utiliz-

za ancora l’informazione campionaria alla quale si aggiunge l’informazione

pre-sperimentale, cioè ho qualcosa in più prima di fare l’esperimento (uso il

principio di verosimiglianza).

Esempio (numero guasti degli impianti produttivi)

Per analizzare il numero di guasti in un impianto produttivo utilizzo una

variabile casuale di Poisson con parametro (ignoto).

voglio fare inferenza su quindi sul parametro ignoto e

∼ →

X P oisson(θ) θ

non aleatorio che corrisponde al numero dei guasti.

avrei calcolato la stima di massima verosimiglianza che

In ambito classico P x ; ho delle

coincide con la media campionaria: = i In ambito bayesiano

θ̂ n

informazioni in più (ad esempio so che 20 oppure so che è più probabile

θ <

un numero piccolo di guasti rispetto ad uno elevato) che devo integrare nel

mio problema. Quindi non ho più ignoto.

Vedo dal grafico che in un intervallo di sinistra ho una probabilità più elevata

rispetto a destra informazione pre-sperimentale all’interno della mia stati-

stica principio di verosimiglianza (tutto ciò che è sintetizzato nell’n −

+ upla

campionaria presa in considerazione dato che mi da tutta l’informazione di

cui ho bisogno).

Notazione simbolica: Θ).

Modello (esperimento) statistico: (X, (x; ∈

θ), θ

Esempio (fenomeno dicotomico)

Fenomeno dicotomico:

({0, 1}, (x; = (1 [0, 1])

x 1−x

− ∈

f θ) θ θ) , θ

Con 0 = insuccesso e 1 = successo. 3

Dopo aver fatto prove indipendenti il modello indotto è:

n n

(X (x; = (1 [0, 1])

(n) 1−x

Y − ∈

, f θ) θ θ) , θ

i i

i=1

Con che corrisponde a tutte le in cui ciascun elemento si muove

(n) −

X n uple

in cioè in un fenomeno dicotomico.

x, = (1−θ)

(x; corrisponde alla funzione di verosimiglianza

ni=1 x 1−x

Q θ

θ)

f L(θ).

i i

Esempio (Savage ’62)

= (1, 1, 1) con = 10, quindi la stima di massima verosi-

Il campione è ..., n

x P x

miglianza è la media campionaria = =

= = 1; è molto verosimile

θ̂ x

n 10

pensare che il parametro ignoto sia 1. Savage dice che prima dell’esperimento

ognuno ha una propria idea su quello che può essere il valore di prima

→

di fare l’esperimento, devi avere in testa dei valori plausibili; ognuno avrà la

propria idea in base all’esperienza pregressa. Se non so, avrò una funzione

con area al di sotto sempre uguale.

Per aggiungere l’informazione pre-sperimentale al modello passo dalla fun-

zione di verosimiglianza alla legge condizionata (x|θ).

La legge della variabile è detta legge a priori dalla quale si può ricavare

θ π(θ),

la legge di distribuzione congiunta: = (x|θ)π(θ)

Ψ(x, θ) f

(x|θ) è la legge condizionata al valore di manifestata nel momento in cui

f θ

ho fatto l’esperimento.

invece è la prior legge di distribuzione marginale.

→

π(θ)

Per calcolare la posterior uso la congiunta:

Ψ(x, (x|θ)π(θ)

θ)

= = = (x|θ)π(θ)

c f

π(θ|x) (x|θ)π(θ)

R

m(x) f dθ

dove è la (reciproco della marginale

costante di normalizzazione

c m(x)

di x) mentre il resto del prodotto è il della posterior.

nucleo

(x|θ)π(θ)

Teorema di Bayes (x|θ)π(θ)

R f dθ

Esempio (Gamma) ∼

X Gamma(α, β)

con 0, e 0

α, β > x > α

(x; = α−1

f α, β) x exp(−βx)

Γ(α)

α è la costante di normalizzazione che non dipende da

la parte a sinistra β

Γ(α)

x e permette all’integrale della densità di essere pari a 1, la parte a destra

è il nucleo della legge di distribuzione.

α−1

x exp(−βx)

Esempio (Bernoulli)

Data la variabile vengono fatte 3 (n = 3) prove e il cam-

∼

X Bernoulli(θ)

pione ottenuto è = (0, 0, 1).

La prior = 1

π(θ)

Modello statistico indotto:

({0, 1} [0, 1])

(3) 2

− ∈

, θ(1 θ) , θ

(x|θ)π(θ) 1

− ·

f θ(1 θ)

= =

π(θ|x) 1dθ

m(x) − ·

R θ(1 θ)

− · → nucleo

θ(1 θ) 1dθ

1 2

− · →

R costante di normalizzazione.

θ(1 θ)

1.1 Variabile casuale Beta

ha supporto [0, 1] o (0, 1) mentre 0.

∼

X Beta(α, β) α, β >

α−1 β−1

−

x x)

(x; =

f α, β) B(α, β)

Il nucleo integra a 1 solo con = 1 e = 1 che sarebbe uniforme continua.

α β

Γ(α)Γ(β) 1

Z

= = (1

α−1 β−1

−

B(α, β) x x) dx

Γ(α + β) 0

= α

E[X] α+β

= solo se 1 (altrimenti non c’è moda poichè

α−1 →

M oda[X] α, β >

α+β−2

sarebbe uniforme)

= αβ

V ar[X] 2

(α+β) (α+β+1) 5

2 Modelli

2.1 Modello Binomiale-Beta

Considerando prove indipendenti con fenomeno dicotomico:

{0, → {insuccesso, successo}

∼

X Bernoulli(θ)

Otteniamo una campionaria, una serie di 0, 1.

n-upla

Se allora è continua sul supporto 1} con:

∼ {0,

X Beta(α, β), (1

α−1 β−1

−

x x)

(x; =

f α, β) B(α, β)

dove (1 e

α−1 β−1

− → →

nucleo costante di normalizzazione

x x) B(α, β)

che integra a 1, cioè = 1.

R

Considerando quindi come di tipo tale che:

prior π(θ) Beta(α, β)

α−1 β−1

−

θ θ) 0 1 0

= con < θ < e α, β >

π(θ) B(α, β)

La fase di scelta della prior si chiama elicitazione

I parametri che compongono la prior vengono definiti e com-

iperparametri

paiono nella legge di distribuzione di θ.

Invece la è:

posterior

- Caso continuo: (x|θ)π(θ)

(x|θ)π(θ) f

= =

π(θ|x) (x|θ)π(θ)

R

m(x) f dθ

- Caso discreto: (x|θ)π(θ) (x|θ)π(θ)

f f

= =

π(θ|x) (x|θ)π(θ)

P

m(x) f dθ

Ricordo che corrisponde alla marginale di → distribuzione predit-

m(x) x

tiva iniziale.

La funzione di verosimiglianza partendo da prove indipendenti di una

P P

(1 , deve quindi essere moltiplicata per la prior

x n− x

→ −

Bernoulli θ θ)

i i

α−1 β−1 in modo tale da ottenere:

di una θ (1−θ)

→

Beta B(α,β) α−1 β−1

P P

(1 θ (1−θ)

x n− x

− ·

θ θ)

i i B(α,β)

π(θ|x) P P

xi n− xi

+α−1 +β−1

θ (1−θ)

R dθ

0 B(α,β)

Il supporto Θ 1} utilizza l’integrale nel caso continuo e la sommatoria

∈ {0,

nel caso discreto.

Dalla formula della posterior è possibile semplificare la costante

sempre

(B(α, β))

Possiamo distinguere il nucleo dalla costante di normalizzazione:

P P

x n− x

+α−1 +β−1

− → nucleo

θ θ)

i i

Z P P

x n− x

+α−1 +β−1

− → costante di normalizzazione

θ θ) dθ

i i

Il nucleo comprende i fattori della posterior che contengono θ.

La costante di normalizzazione considera tutti gli elementi che non conten-

gono poichè integrando per ottengo la marginale di

θ, θ x.

se riconosco il nucleo come variabile nota, la mia soluzione è il nu-

N.B.

meratore. Se non riconosco la distribuzione, passerò per via computazionale.

Dal nucleo osservo che nella funzione di densità avevo ora ho che eleva

x, θ

ad un numero. Gli iperparametri e della distribuzione li ricavo nel

α β Beta

seguente modo:

- per prendo l’esponente di e lo sommo a +1 +α−1+1 = +α

→ P P

α: θ x x

i i

- per prendo l’esponente di (1−θ) e lo sommo a +1 +β =

→ −1+1

P

β: n− x i

− P

n x β

= + +

−

P P

Beta( x α, n x β)

π(θ|x) i i

Considerazione sul denominatore:

P P

x n− x

+α−1 +β−1

−

1 θ θ)

i i

Z + +

X X

· −

dθ B( x α, n x β)

i i

+ +

−

P P

B( x α, n x β)

0 i i

Quindi la posterior: P P

x n− x

+α−1 +β−1

−

θ θ)

i i

π(θ|x) + +

−

P P

B( x α, n x β)

i i

è la funzione di densità di una con parametri e rispettivamente a

Beta α β

+ e +

−

P P

x α n x β

i i

Una via più "breve": (x|θ)π(θ)

f (x|θ)π(θ)

= ∝ f

π(θ|x) m(x)

Posso quindi trascurare le costanti moltiplicative!

significa "proporzionale a" e si utilizza quando si riesce a riconoscere

∝= m(x)

il nucleo di una variabile casuale nota. Posso concludere che la distribuzione

a posteriori coincide con la legge di questa variabile casuale nota.

Esempio (sottoscrizioni polizze giornaliere)

Voglio fare inferenza sul numero medio di polizze, cioè su θ.

con ignoto che corrisponde al numero medio di polizze

∼ →

X P oisson(θ) θ

valore atteso della variabile aleatoria.

Considero 10 giorni, quindi una numerosità = 10. Non è necessario sapere

= (3, 10, 7, 4, ma è importante sapere che = 30.

che 10

P

...) x

x i

i=1

P x

La stima di massima verosimiglianza di = = = 3 (corrisponde

θ: θ̂ n 10

alla media campionaria) P xi

−nθ

(N Θ = )

·θ

(10) +

Il modello indotto (terna di oggetti) è: , , R

Q x !

i=1

Elicitazione prior: sappiamo a priori che la prior è una 1) tale

Gamma(4,

che = Γ(4, 1)

π(θ) = = 4

= αβ 41

E(θ) = = = 4

α 4

V AR(θ) 2 2

β 1

= = = 3 con

α−1 3

M ODA(θ) α > β

β 1

Generalizzando a elementi, ci riconduciamo ad un modello Poisson-

Gamma.

2.2 Modello Poisson-Gamma P xi α

nθ ·θ β −βθ

e α−1

· θ e

(x|θ)π(θ) n

f Q Γ(α)

x !

= = i

i=1

π(θ|x) P

m(x) xi α

∞ nθ ·θ β

e −βθ

α−1

R θ e dθ

Q

0 Γ(α)

x !

i=1

Raccolgo ciò che può essere raccolto nella posterior per poi eliminare tutto

! , e Γ(α) :

ciò che non dipende da come ni=1 α

Q x β

θ i

P xi +α−1 −nθ−βθ α

·e ·β

θ P −nθ−βθ

x +α−1 ·

n θ e

Q x !·Γ(α)

i −→

i=1 P

P ∞ x +α−1 −nθ−βθ

R

xi +α−1 θ e dθ

−nθ−βθ α

∞ ·e ·β

R dθ 0

Q

0 x !·Γ(α)

i=1

Da cui ricavo Γ( + + poichè ho una distribuzione nota. Conside-

P x α, n β)

rando i risultati ottenuti dall’esempio delle sottoscrizioni polizze giornaliere,

ottengo una Γ(34, 11) poichè = 30 , = 4 , = 10 e = 1.

P x α n β

= 3, 091. Il numero medio di polizze giornaliere si è ab-

= 34

E(π(θ|x)) 11

bassato da 4 a 3, 091.

= = 0, 281 da cui osserviamo che più il valore della varian-

V AR(π(θ|x)) 2

za è piccolo e più siamo vicini al valore, quindi ho più fiducia.

= = 3 lo stesso valore della prior Γ(4, 1).

M ODA(π(θ|x)) 11

Conclusione:

la Γ(34, 11) risulta essere più precisa di una Γ(4, 1) dato che è concentrata

sui valori centrali della distribuzione.

Si può osservare inoltre che a parità tra 2 più è grande e più si

Gamma, β

ha maggior precisione e scarsa dispersione.

Considerazione: = 3

Inferenza classica: = x

θ̂

Prior: = αβ

E(θ) P xi α

P ·n+ ·β

x +α

Posterior: = = = θ̂·n+E(θ)·β

i n β

E(θ|x) n+β n+β n

Anteprima

Vedrai una selezione di 15 pagine su 70