Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
I
A 2 (X;
(X;
" # " #
2 log(f θ))
δlog(f θ)) δ
(θ) = = −E
I E
A 2
δθ δθ
Dunque una volta che si ha una prova se ne calcola l’informazione attesa di
Fisher e quanto ottenuto è il nucleo della prior.
Anche (θ) è automatica come Laplace, può essere propria o impropria e
π J
inoltre è SEMPRE invariante.
ESERCIZIO 1
Sia e = 1.
∼
X P o(θ) n
calcolare (θ).
Domanda: π J −θ x
e θ
(x; =
f θ) x! 1 1
(−θ +
2 − x
δ xlog(θ) log(x!)) ] = ] = =
(θ) =
⇒ −E[ E[ θ
I
A 2 2 2
δθ θ θ θ
q 1
(θ) = .
−
1
∝
Risposta: π θ 2
J θ
Dato che c’è invarianza posso dedurre la prior per trasformazioni, è sufficien-
te calcolare (λ).
∗
π
E’ propria?
Domanda:
La prior è invariante e in questo caso è impropria. La trasformata
sempre
= = è trasformata biunivoca.
1
λ g(θ)
θ
Ora vediamo le due possibili vie:
• = = Allora la prior che ottengo è
1 1
→ | − |.
θ δθ 2
λ λ 1 1
1 3
(λ) ( ) =
∗ − −
∝
π λ
2 2
J 2
λ λ
22 1 x
− 1
e
−θ λ
x
• parto dalla riparametrizzazione ho (x|θ) = (x|λ) = con
e θ →
f f λ
x! x!
= 0, 1, e 0 0.
→
x .. θ > λ >
q
Devo calcolare ˜ (λ) (λ), allora
∝
π I
J A
1 (x|λ)) 2
2
δ log(f x
(x|λ)) = = +
− − − → −
log(f xlog(λ) log(x!) 2 3 2
λ δλ λ λ
Ora cambio il segno dell’equazione e calcolo il valore atteso (rispetto a x)
2 1 1
(λ) = =
−
I E(X)
A 3 2 3
λ λ λ
q 3 (λ)
=
Allora ˜ (λ) = − ∗
1
∝ π
π λ 2
J J
3
λ
Con questa verifica ho dimostrato che la prior di Jeffreys è invariante.
ESERCIZIO 2 q
Sia e = 1; (θ) (θ) è normalizzabile.
∼ ∝
X Ber(θ) n π I
J A
perchè mi basta prendere l’informazione di una prova?
Domanda: si ottiene lo stesso risultato se prendo un campione più grosso
Risposta:
perchè facendo prove indipendenti ho volte l’informazione di una prova.
n n
Ma poichè è una costante e Jeffreys mi da solo il nucleo utilizzando una
n
proporzione, la prior che si ricava è la stessa (e comunque non avrebbe senso
avere una prior che dipende dall’ampiezza campionaria).
cosa succede se non é uno scalare?
Domanda: θ = (θ ) l’informazione di Fisher diventa
se ho il vettore
Risposta: , ..., θ
θ k
1
una matrice simmetrica in cui i singoli elementi sono
·
k k (x|θ))
" #
2
δ log(f
= −E
I
i,j δθ δθ
i j
e quindi q
(θ) (θ))
∝
π det(I
J A
Soluzione:
(θ) è normalizzabile (θ) = è propria.
√ √
1 1
∝
π π
J J
θ(1−θ) π θ(1−θ)
1
1
Osservazione: (θ) (1−θ) riconosco il nucleo di una ).
−
−
1 12 1
∝ →
π θ Beta( ,
2 2
J π 2
Inoltre più sono piccoli i parametri e meno importanza viene data alla
α β
prior (e conta di più il campione); si vede chiaramente che il meccanismo di
23
Jeffreys è davvero non informativo perchè mette poca rilevanza alla prior.
Esercizio (multiparametrico)
Data una (µ, con parametri ignoti.
∼
X N σ)
Posso usare indifferentemente o 2
N.B. se voglio una a priori non
σ σ
perchè c’è invarianza e la trasformazione è biuni-
informativa di Jeffreys
voca. q (µ,
(µ, ∝ det(I σ))
π σ)
J A
Vediamo la condizionata 1 1 2
−
(X|µ, = (X|µ,
(x−µ)
√ →
e
f σ) log(f σ))
2
2σ
2πσ 2
Ora devo calcolare le derivate seconde e miste:
) 1
2
δ log(f = = −
...
2 2
δµ σ
2(x
)
2 − µ)
δ log(f = = −
... 3
δµδσ σ
1 3(x
) 2
2 − µ)
δ log(f = = −
...
2 2 4
δσ σ σ
0 !
1
(µ, = 2
→ σ
I σ) 0
A 2
2
σ
quindi 1
q
(µ, (µ,
∝ ∝
π σ) det(I σ))
J A 2
σ
è la distribuzione a priori invariante non informativa di Jeffreys per (µ, σ).
E’ propria (se si la normalizzo, altrimenti no)?
1
Z Z non converge
→
dµ dσ
2
σ
+
R R
la prior non è propria.
l’elicitazione della prior di Jeffreys nel caso multiparametrico
Osservazione:
è problematica, un’ipotesi spesso utilizzata è l’indipendenza a priori
q q q
= (θ ) (θ ) (θ)) = (θ )) (θ ))
· · ∝ 6 · ·
π(θ) π ... π det(I det(I ... det(I
k k A A A k
1 1 1
in generale non coincidono. 24
4.2.3 Vague
Si utilizzano prior di una famiglia di distribuzioni imponendo che la varianza
sia molto elevata.
ESEMPIO
Con prendo (µ, 10 ). In questo caso la forma della distribuzione
6
∈ ∼
θ θ N
R
è molto simile ad un’uniforme, quindi presi intervalli centrali le probabilitá
sono pressochè uguali e la prior è propria.
4.3 Prior coniugate
Necessitano di una classe parametrica di distribuzioni = (θ),
D {π ∈
α A}
α
ed hanno tutte la stessa forma funzionale.
DEFINIZIONE: dato un modello (X, (x; Θ) allora la classe parame-
∈
f θ), θ
trica di distribuzioni per si dice al modello se scelta in la
D D
coniugata
θ
priori anche la posteriori vi appartiene per ogni x.
Questo facilita gli aspetti computazionali perchè se so come è coniugata la
priori conosco già anche la distribuzioni della posteriori; inoltre anche l’ag-
giornamento dell’iperparametro della prior e della posterior è facile .
→
α α
p
Modello base Classe coniugata Aggiornamento iper-parametri
+ s, + n+s)
Be(θ) Beta(α, β) Beta(α β
+ s, + n)
P o(θ) Gamma(α, β) Gamma(α β
+ n, + s)
ExpN eg(θ) Gamma(α, β) Gamma(α β
2 2
2 2
µ σ σ σ
+nxσ
(µ, = nota) (µ ) ( )
2 2 0
N σ N , σ N ,
0 0
0 2 2
0 2 2
σ n+σ σ +nσ
0 0
P 2
−µ)
x
(
(µ = nota, ) + + )
n
2 i
N σ GaInv(α, β) GaInv(α , β
2 2
P 2
−µ)
x
(
(µ = nota, ) + + )
n
1 i
N Gamma(α, β) Ga(α , β
2
σ 2 2
+ n, })
U nif orme(0, θ) P areto(α, β) P areto(α M ax{β, X (n)
La variabile casuale Gamma Inversa
∼
X GaInv(α, β)
25
1
α
β β
(x; = con 0 e 0
−
f α, β) α, β > x >
e x
Γ(α) α+1
x
Allora: 1
= ∼
Y Gamma(α, β)
X
La variabile casuale di Pareto
∼
X P areto(α, β)
1
(x; = con 0
α
f α, β) αβ I α, β >
[β,∞](x)
α+1
x
ESERCIZIO
La famiglia parametrica di Pareto è coniugata al modello uniforme.
(0,
∼
X U θ) con 0
faccio prove indipendenti in (x|θ) = 1 < x < θ.
n x, f θ
1
n
= (x =
(x|θ) con
Y |θ) ≤ → ≤ ∀i
f
f x θ x θ
i i
(n)
n
θ
i=1
Per calcolare la posterior mi interessa capire dove si muove cioè .
≥
θ, θ x (n)
1 1
= (θ) (θ) = (θ)
α
→
L(θ) I π αβ I
α,β
,∞] ,β),∞]
[x [max(x
n α+1
(n) (n)
θ θ
Allora 1 1 1
(θ) (θ) = (θ)
∝
π(θ|x) I I I
,∞] ,β),∞]
[]x [β,∞] [max(x
n α+1 n+α+1
(n) (n)
θ θ θ
questo è il modello di una + })
P areto(α n, max{β, x (n)
ESEMPIO:
Dato un modello (µ, ) con nota (corrisponde quindi ad un numero
2
∼
X N σ µ
che può essere eliminato nel calcolo della posterior) e non nota, avrà come
2
σ
classe coniugata una Gamma Inversa.
Consideriamo quindi la di una normale con
funzione di verosimiglianza
media nota e varianza ignota. n
1 P 2
n − −µ)
(x|σ ) = (σ ) (x
−
2 2 · i
f e 2 i=1
2 2σ
26
poichè è una costante che non dipende dal para-
Ho deciso di trascurare 1
√ 2π
metro ignoto.
La da una sarà quindi:
prior Gamma Inversa 1
α
β β
−
· · e 2
σ
Γ(α) (σ )
α+1
2 α
Nella prior trascuro la parte iniziale poichè non dipende dal parametro
β
Γ(α)
.
2
σ
Noto che la funzione di verosimiglianza di una ha una struttura
N ormale
molto simile alla prior di una perciò deduco che la poste-
Gamma Inversa,
rior sarà