Anteprima
Vedrai una selezione di 15 pagine su 67
Appunti Machine Learning Pag. 1 Appunti Machine Learning Pag. 2
Anteprima di 15 pagg. su 67.
Scarica il documento per vederlo tutto.
Appunti Machine Learning Pag. 6
Anteprima di 15 pagg. su 67.
Scarica il documento per vederlo tutto.
Appunti Machine Learning Pag. 11
Anteprima di 15 pagg. su 67.
Scarica il documento per vederlo tutto.
Appunti Machine Learning Pag. 16
Anteprima di 15 pagg. su 67.
Scarica il documento per vederlo tutto.
Appunti Machine Learning Pag. 21
Anteprima di 15 pagg. su 67.
Scarica il documento per vederlo tutto.
Appunti Machine Learning Pag. 26
Anteprima di 15 pagg. su 67.
Scarica il documento per vederlo tutto.
Appunti Machine Learning Pag. 31
Anteprima di 15 pagg. su 67.
Scarica il documento per vederlo tutto.
Appunti Machine Learning Pag. 36
Anteprima di 15 pagg. su 67.
Scarica il documento per vederlo tutto.
Appunti Machine Learning Pag. 41
Anteprima di 15 pagg. su 67.
Scarica il documento per vederlo tutto.
Appunti Machine Learning Pag. 46
Anteprima di 15 pagg. su 67.
Scarica il documento per vederlo tutto.
Appunti Machine Learning Pag. 51
Anteprima di 15 pagg. su 67.
Scarica il documento per vederlo tutto.
Appunti Machine Learning Pag. 56
Anteprima di 15 pagg. su 67.
Scarica il documento per vederlo tutto.
Appunti Machine Learning Pag. 61
Anteprima di 15 pagg. su 67.
Scarica il documento per vederlo tutto.
Appunti Machine Learning Pag. 66
1 su 67
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

Ripassiamo alcuni concetti basisci di probabilità.

Data una variabile aleatoria discreta, si ha la regola del prodotto

p(x,y) = p(y|x) p(x) = p(x|y) p(y)

dove p(x,y) è la probabilità congiunta,

cioè la probabilità che accadano entrambi gli eventi x e y.

La marginalizzazione coincida con l'applicare la regola della somma

p(x) = ∑y p(x,y) = ∑y p(x|y) p(y)

al fine di derivare una probabilità marginale.

La regola di Bayes deriva dalla regola del prodotto,

p(x|y) = p(y|x) p(x) / p(y)

dove

  • p(x) e' la prior probabilità di x (prima di conoscere che y è avvenuta);
  • p(y|x) e' la posterior probabilità di x (con y che è avvenuta);
  • p(y|x) e' la verosimiglianza (o likelihood) dati y e dato x;
  • p(y) e' l'evidenza di y.

L'indipendenza e' verificata se p(x,y) = p(x) p(y). L'indipendenza condizionale di due variabili aleatorie semplice a una terza e' data se

p(x,y|z) = p(x|z) p(y|z).

Il valore atteso rispetto a una distribuzione p(x) di una funzione g e'

Ep[g(x)] = ∑x g(x) p(x)

nel caso discreto

Ep[g(x)] = ∫g(x) p(x) dx

nel caso continuo

La varianza e' Var [X] = E[(X-E[X])2] = E[x2] - E[x]2

La covarianza ci permette di stimare quanto le variazioni di due variabili causali siano collegate tra loro

cov [X,Y] = E[XY] - E[X]E[Y], Var [X] = cov [X,X]

Siano X1,...,XN variabili casuali. Un vettore casuale e' definito come

x = [X1,...,XN] ∈ RN

La matrice di covarianza Σ di tale vettore e' una matrice m x m tale che Σij = cov [Xi, Xj]. Tale matrice e' simmetrica positiva come

Σ ≥ 0   ∀ z ∈ ℝd ed è simmetrica, ovvero cov[X, Xj] = cov[Xj, Xi].

∀ e anche la matrice di correlazione che e ottenuta applicando a ogni coppia di variabili aleatorie il coefficiente di correlazione di Pearson

pX, Y = XY / √var [X] × var [Y]

Se Yi = a X + bi, allora cov[X, Yi] = a var [X] e var [Yi] = a2 var [X], e dunque pX, Y = 1. Se invece X, Y sono indipendenti , pX, Y = 0, ma ciò n'interessa non e vero in generale.

Distribuzioni d'interesse sono :

  • Bernoulli
    • p(x) = p,   x = 1
    • 1 - p,   x = 0
    con xj = 1 per il verificarsi dell'evento j.
  • Categorica ... estensione della Bernoulli nel caso di est. multipli.
    • p(x) = Πk j=1 pjxj
  • Binomiale
    • p(x) = (m / x) px (1-p)m-x.
  • Gaussiana
    • f(x) = 1 / √2π e-(x - μ)2 / 22

da e analiticamente trattabile, ha media μ e varianza 2. Da le deriv. ne semplican e permette di modellare molti processi stocastici.

Inoltre trasformazioni lineari di gaussiane si forniscono altra gaussiana.

Le distribuzioni multivariate sono definite su piani di une variabile casuale. Nel caso di una gaussiana multivariata (μ, Σ) abbiamo:

f(x) = 1 / (2π)d/2 |Σ|1/2 e-½ (x - μ)T Σ(x - μ)

dove μ e il vettore dei valore attesi mentre Σ e la matrice dxd della covarianze E(e[X - μi](X - μj)].

Mentre la media definisce dove e posizionata la distribuzione di probabilità, la struttura della matrice di covariane definisce la forma della distribuzione mem. Se ad esempio Σ e diagonale le distribuzioni tende a essere oriente lungo gli assi.

In generale, per una gaussiana multivariata, gli si sono orientati seconde l'auto vett. della matriz di covarionza.

Machine Learning - Fondamentali

L'insieme dei dati a disposizione è il dataset. Al suo interno si identificano:

  • il training set utilizzato per determinare il miglior modello
  • il validation set utilizzato per determinare il miglior valore degli iperparametri del miglior modello
  • il test set utilizzato per valutare le prestazioni del modello appreso

Il dataset è composto da elementi (d'insieme) e ogni elemento è descritto dallo stesso numero di feature d (d-dimensionalità). Dunque possiamo modellare un elemento come un punto in uno spazio a d dimensioni.

Nell'apprendimento non supervisionato si vuole estrarre, a partire da un insieme di elementi X = {x_1, ..., x_n}, senza un target associato, delle informazioni che possono individuare caratteristiche di un modello (come un sottinsieme di elementi simili che è ciò che avviene nel clustering).

Nell'apprendimento supervisionato si cerca una feature speciale, con una semantica associata che la variabile target y vuole predire. Se y è target di un elemento x in R possiamo distinguere se per un elemento x in ingresso si cerca di predire la classificazione. È inoltre presente un vettore di target t = {t_1, ..., t_n} che corrisponde al target di ogni elemento del training set. Visto che abbiamo n elementi con ognuna d feature a loro volta, il dataset è rappresentabile come una matrice m x d (e con un vettore m x 1) per l'apprendimento supervisionato.

Il training set T è definito come un insieme di coppie oggetto-label T = {(x_1, t_1), ..., (x_n, t_n)} Viene indicata con X la matrice delle feature e con t il vettore dei target. Un predittore h derivato a partire dal training set è dato essere in grado di predire un valore y per qualsiasi oggetto x ∈ X.

Assumiamo di avere un modello generalizzante degli oggetti il dominio X è quello dei possibili elementi che possono comporre nel training set e rispetto ai quali vogliamo effettuare le predizioni. Assumiamo che gli elementi del training set siano tutti componenti di questo dominio e secondo una distribuzione di probabilità P non nota. Dunque, fare

Ad esempio come sudpaciente posso scegliere l'asse orizzontale e dire che il gradiente della funzione in quel punto è perciò il gradiente della retta orizzontale.

  • square loss. per cui se anche la predizione è corretta ed è molto corretta, vado a pagare molto la stessa

L(t,y) = (y-t)2

Nella seconda situazione si hanno come funzione di loss silvonts:

  • log loss (o cross entropy) che è continua, ha derivata continua (e dunque è smooth e quindi senza angles) commen segue che sopra la 0,1.

L(t,y) = -1/log2(y) log(1+e-yt)

La cross entropy è una misura della differenza tra due distribuzioni.

In particolare, siano p, q distribuzioni di probabilità. La cross entropy tra essi è definita come

-∫P[log2q(x)] = -∫p(x)log2q(x)dx

dove HP = ∫P[log2p(x)], e l'entropia di P è il numero atteso di bit per il simbolo x in un canal dove la distribuzione di intro lo è nota.

La cross entropy definisce il numero aggiuntivo (rispetto al valore minimo di bit atteso per il simbolo x in un canal dove la distribuzione di un bolo quale q(x) invece di p(x).

  • loss esponenziale L(t,y)=e-yt

nota le specifiche da assegnare ai parametri.L’idea e’ quindi quella di stimare un “migliore” valore O nello spaziodei parametri. Dire un migliore lo s’intende rispetto a una qualchemisura.

Maximum Likelihood Estimate

L’approccio piu’ utilizzato per selezionare un migliore valore per O e’ stimarel’utilizzo della stima per massima verosimiglianza. Il valore del parametrodi interesse e quindi ottenuto massimizzando l’espressione della likelihoodL(O|X) = P(X|O) = \(\prod_{i=1}^{N} P(x_i|O)\)

Dato le dato massimizzare rispetto a O, l’idea e’ quella di ottenerese la derivata. Dato che l’espressione della derivata di un prodottotende a essere complicato, consideriamo la log-likelihood, ovvero lalikelihood a cui si aplica il logaritmo naturaleL(O|X) = ln L(O|X) = \(\sum_{i=1}^{N} \ln P(x_i|O)\)

ed essendo il logaritmo una funzione monotona, essa non cambia ilpunto di massimo, ovveroargmax l(O|X) = argmax L(O|X)

Per trovare il massimo occorre risolvere\(\frac{\partial L(O|X)}{\partial O}\) = 0

la filosofia dietro alla massima verosimiglianza e’ quella di trovare ilvalore del parametro O che meglio descrive i dati osservati X. Se perocostruiamo un modello che spiega troppo bene i dati osservati, potremmocadere in overfitting. Per evitare tale problema si introduce un ulteriorefunzione P(O) chiamata penalty function, il cui compito e’ limitare lacomplessita del modello. la funzione da massimizzare diventa(O|X) = l(O|X) - P(O)P(O) = \(\frac{\lambda}{2} ||O||^2\)

dove \( \lambda \) e’ un parametro di tuning.

Maximum a Posteriori Estimate

Dettagli
Publisher
A.A. 2022-2023
67 pagine
1 download
SSD Ingegneria industriale e dell'informazione ING-INF/01 Elettronica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher copf.daraio di informazioni apprese con la frequenza delle lezioni di Machine learning e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Roma Tor Vergata o del prof Gambosi Giorgio.