Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
TEOREMA DI BAYES
Questo teorema permette di ridistribuire la probabilità: prima conoscevo P(B), poi, nel momento in cui avviene
l'evento A, la probabilità di B è cambiata diventando P(B|A).
Introduzione alla stima bayesiana
○ Finora è stata considerata una variabile deterministica, ovvero che assume un certo valore "e basta".
Spesso però si hanno delle informazione, delle idee su quelli che potrebbero essere i valori assumibili da stesso.
Ha quindi senso considerare come una variabile casuale: in questo modo assegno maggior probabilità ai valori di che credo
che la variabile stessa assumerà con maggiore probabilità, mentre assegnerò una probabilità più bassa a quei valori che penso
che non andrà ad assumere.
, ovvero il parametro/i da identificare, non assume quindi un valore vero, ma vogliamo darne un giudizio di probabilità
Osservazioni:
Revisioni lezioni Pagina 3
Osservazioni:
A andiamo quindi a dare una distribuzione a priori!
□ Esempio di distribuzione di probabilità di con
Osservazioni su questa distribuzione prior:
Anche l'asse delle y avrà valori compresi nell'intervallo [0,1]?
1. L'asse y, ovvero P(theta) assumerà valori tra [0, 1] se la variabile theta è discreta, poichè in questo caso si
assegna ad ogni valore di theta la sua probabilità di verificarsi. Avremo che la somma delle probabilità fa 1. Nel
caso in cui theta è continuo, come nel caso dell'esempio, sull'asse y vi è la densità di probabilità, che può essere
anche >1 (sarà sempre >= 0 in ogni caso). In questo caso continuo, avremo che l'area sottesa alla funzione deve
essere 1.
2. Modellizzando la probabilità che esca testa come una funzione continua, andiamo a considerare anche i casi
"di moneta truccata"? Nel senso che, se la moneta fosse non truccata, ci si aspetta di avere solamente "una
barra" in theta = 0.5, con "altezza "1", o sbaglio?
Una prior continua come quella dell'esempio modella la variabile theta (probabilità che esca testa) tramite un
insieme continuo di valori, quindi anche quelli che denotano una moneta truccata (quelli vicino a theta = 0 o
theta = 1). Se sappiamo già che la moneta non è truccata, avremo solo una barra in , ma in questo caso
non sarebbe più una variabile causale ,perchè assume sempre lo stesso valore.
Avendo una distribuzione abbiamo quindi una STIMA A PRIORI DI , senza aver visto i dati.
□ Possiamo quindi prendere una STIMA PUNTUALE DI , ovvero il VALORE ATTESO DI ; l'incertezza di questa stima sarà
data dalla varianza di , ovvero un'INCERTEZZA A PRIORI.
Con i dati quindi mi aspetto che:
□ Il valore atteso di cambi
l'incertezza sulla stima decresca, perché ho a disposizione più informazioni.
Le fonti di informazioni sono quindi due:
a) Distribuzione a priori ( )
b) Le informazioni portate dai dati, che sono traducibili nella LIKELIHOOD = probabilità di misurare certi dati Y dato
che ho particolari valori di
Perché si tratta di una LikeLihood?
La likelihood è generata a partire da un modello probabilistico dei dati. Si fa una supposizione di come i dati siano distrib uiti
(ad es Gaussiana). Il valore assunto dai dati guiderà poi la stima dei parametri incogniti. Infatti la loro stima è ovviament e
funzione dei dati (si pensi alla stima max likelihood della media di una gaussiana, si ha che la media è la media campionaria
dei dati). Quindi, la particolare formula per la stima di un parametro dipende dalla forma della distribuzione dei dati (e qu indi
della likelihood) e dallo specifico valore assunto dai dati.
L’altro discorso è più di convenzione/notazione Dato che la distribuzione congiunta dei dati ha la stessa formula della
likelihood, spesso si usa la terminologia P(Yl\tehta) anche quando si sta considerando la funzione di likelihood L(\thetalY). Si
capisce dal contesto a cosa ci si sta riferendo. Nel caso della stima bayesiana, dove anche theta è una variabile casuale, la
dicitura P(Yl\tetha) si riferisce alla distribuzione di probabilità dei dati fissato un certo theta, che ha la stessa forma della
likelihood. La chiamiamo likelihood perché i dati sono noti mentre theta non è noto. Diciamo che parliamo di likelihood perch é
essa definisce il modello probabilistico dei dati, ovvero come essi sono distribuiti
Quello che a noi interessa è però la distribuzione che assume in base ai dati che ho rilevato, ovvero
Da quest'ultima osservazione possiamo ottenere, tramite il teorema di Bayes, l'unione dei due elementi che portano informazio ne:
Revisioni lezioni Pagina 4
Osservazioni:
Se hanno pdf continue (eg: Gaussiana), allora possiamo risalire alla pdf della probabilità marginale di Y, che sarà
□ quindi pari a
Essendo che è nota la distribuzione di , cosa posso dire sul comportamento della distribuzione di
□ NULLA.
Se però: è
Nel calcolo tramite teorema di Bayes della nuova distribuzione di potrei incappare in integrali di cui non siamo in grado di
,
trovare la soluzione primo metodo alternativo: MCMC Markov Chain Monte Carlo).
(--> -
Allora si utilizza un metodo non analitico:
Discretizzo il range di valori del parametro tramite una griglia di valori, valutando solo in questi valori di
In sostanza, le grandezze precedentemente analizzate (prior, marginal likelihood, likelihood e posteriori) vengono
calcolate su ognuno dei singoli valori di contenuti nella griglia di discretizzazione.
Quindi si avrà che:
Essendo stata applicata una discretizzazione, possiamo scrivere che
Problema: se presenta più componenti, allora questi approccio è troppo pesante a livello computazionale.
Supponiamo ora di conoscere la posterior ( ): si suppone quindi di conoscere la distribuzione assunta da conseguentemente
all'aver estratto i dati.
Conoscendo la distribuzione, abbiamo quindi a disposizione varie possibilità per scegliere il valore puntuale di , ovvero la stima :
questo valore di è quello più probabile ( MAP = Maximum A Posterior)
□
□ Altri percentili
□
Andiamo ad analizzare questo stimatore:
Abbiamo che detto che uno stimatore è una funzione T dei dati, i quali dipendono, a loro volta, dall'esito di un esperimento
▪ casuale ---->
Ovviamente, nel nostro caso, siamo in una situazione in cui vogliamo che la stima dei parametri sia molto vicina al valore vero dei
parametri stessi, ovvero a
La funzione di costo che andiamo ad utilizzare è:
Con
Ovviamente, vogliamo che la nostra stima sia la migliore possibile: andiamo quindi a cercare quello stimatore T(D) tale che vada a
minimizzare la quantità in esame. Questo stimatore è lo stimatore ottimo di Bayes, ovvero quella funzione tale che
è
Possiamo verificare che questo stimatore ottimo che stiamo cercando sia pari a
Consideriamo quindi come stima puntuale di , tra tutte le possibilità, il valore
Nel senso che è ottimo poiché minimizza il mean square error.
Revisioni lezioni Pagina 5
Nel senso che è ottimo poiché minimizza il mean square error.
Esso è quindi il valore atteso di condizionato al fatto che i dati abbiano assunto determinati valori in corrispondenza
di un certo esito dell'evento casuale.
STIMATORE DI BAYES NEL CASO GAUSSIANO
Supponiamo ora che sia i dati sia il/i parametro/i siano V.C. gaussiane
e supponiamo inoltre, per semplicità, di avere un solo dato scalare y, con una V.C. scalare.
Si suppone inoltre che: E[y]=0, E[ ]=0
Vogliamo calcolare
Essendo y e Gaussiane, per supposizione, avremo che, la pdf congiunta sarà anch'essa una Gaussiana, nello specifico una normale
multivariata nella forma
Con
Essa può anche essere esplicitata come
N.B. : poiché è la distribuzione congiunta di 2 variabili. La probabilità che si cerca è quella congiunta , la quale
è data da dal prodotto delle distribuzioni dei dati e dei parametri
La probabilità marginale di y, la quale è una Gaussiana, può essere scritta come:
Da quanto visto in precedenza possiamo scrivere la probabilità condizionata come
è
Valore atteso:
Varianza:
come ci aspettavamo l'incertezza della posterior è minore di quella della
prior!
Il risultato finale che otteniamo quindi è
Con questa stima dei parametri si può verificare che l'errore di stima avrà :
Valore atteso nullo
Varianza pari alla varianza della posterior ( Questa relazione deriva dal fatto che prendiamo come stima puntuale il
valore atteso della posterior, che poi nel caso Gaussiano è anche la stima MAP (ovvero argmax della posterior))
STIMA LINEARE ( = REGRESSIONE LINEARE)
- Precedentemente ci è risultato parecchio comodo supporre che sia i dati y che i parametri da stimare abbiano avuto una
distribuzione Gaussiana e che di conseguenza (dimostrazione omessa), anche la distribuzione congiunta fosse Gaussiana: non sempre
Revisioni lezioni Pagina 6
distribuzione Gaussiana e che di conseguenza (dimostrazione omessa), anche la distribuzione congiunta fosse Gaussiana: non sempre
però è così!
Cerchiamo quindi uno stimatore che non vada a fare ipotesi sulla distribuzione congiunta di
Continuiamo a supporre delle variabili scalari tali che
Il nostro obbiettivo è volere stimate dato y, tramite uno stimatore lineare del tipo
Come sempre si va ad imporre una cifra di merito che si vuole minimizzare (scegliamo ancora il mean square error):
Per minimizzare questa grandezza non dobbiamo far altro che andare a risolvere due derivate parziali:
1)
2)
Lo stimatore quindi che si ottiene è:
Si nota che è pari allo stimatore ottenuto tramite la stima bayesiana, nel caso in cui l'assunzione sulla distribuzione sia Gaussiana.
Osservazioni:
Abbiamo visto come la stima lineare non faccia ipotesi sulla distribuzione congiunta di potrebbero quindi esserci stimatori
○ migliori di quello lineare.
Se però hanno distribuzione congiuntamente gaussiana, alla non esiste nessun stimatore migliore di quello lineare ottimo
con
Se
○ Sempre se . Questo perché
○
Generalizzazione 1:
Valore atteso non nullo se sono scalari:
○ ▪
▪
Generalizzazione 2:
Revisioni lezioni Pagina 7
Generalizzazione 2:
sono vettoriali:
○ ▪
▪ In questo modo abbiamo che:
▪
▪
N.B: La posterior può essere usata come prior in un passo successivo --> filtro di Kalman in cui lo stato x(t) del sistema dinamico è il
parametro da stimare.
Revisioni lezioni Pagina 8
Concetti lezione 4
domenica 14 ottobre 2018 13:33<