Appunti Machine Learning

Appunti redatti seguendo il corso di Machine Learning per la magistrale di informatica, valido anche per studenti di ingegneria gestionale, ingegneria informatica e ingegneria dell'automazione. …

Esame Machine learning

Facoltà Scienze matematiche fisiche e naturali

Dal corso del Prof. Gambosi Giorgio

Università Università degli Studi di Roma Tor Vergata

Publisher copf.daraio

A.A. 2022-2023

67 pagine

1 download

Appunti esame

Vota 3,0 / 5 (1)

Scarica

Estratto del documento

Ripassiamo alcuni concetti basisci di probabilità.

Data una variabile aleatoria discreta, si ha la regola del prodotto

p(x,y) = p(y|x) p(x) = p(x|y) p(y)

dove p(x,y) è la probabilità congiunta,

cioè la probabilità che accadano entrambi gli eventi x e y.

La marginalizzazione coincida con l'applicare la regola della somma

p(x) = ∑_y p(x,y) = ∑_y p(x|y) p(y)

al fine di derivare una probabilità marginale.

La regola di Bayes deriva dalla regola del prodotto,

p(x|y) = p(y|x) p(x) / p(y)

dove

p(x) e' la prior probabilità di x (prima di conoscere che y è avvenuta);
p(y|x) e' la posterior probabilità di x (con y che è avvenuta);
p(y|x) e' la verosimiglianza (o likelihood) dati y e dato x;
p(y) e' l'evidenza di y.

L'indipendenza e' verificata se p(x,y) = p(x) p(y). L'indipendenza condizionale di due variabili aleatorie semplice a una terza e' data se

p(x,y|z) = p(x|z) p(y|z).

Il valore atteso rispetto a una distribuzione p(x) di una funzione g e'

E_p[g(x)] = ∑_x g(x) p(x)

nel caso discreto

E_p[g(x)] = ∫g(x) p(x) dx

nel caso continuo

La varianza e' Var [X] = E[(X-E[X])²] = E[x²] - E[x]²

La covarianza ci permette di stimare quanto le variazioni di due variabili causali siano collegate tra loro

cov [X,Y] = E[XY] - E[X]E[Y], Var [X] = cov [X,X]

Siano X₁,...,X_N variabili casuali. Un vettore casuale e' definito come

x = [X₁,...,X_N] ∈ R^N

La matrice di covarianza Σ di tale vettore e' una matrice m x m tale che Σ_ij = cov [X_i, X_j]. Tale matrice e' simmetrica positiva come

Σ ≥ 0 ∀ z ∈ ℝ^d ed è simmetrica, ovvero cov[X, X_j] = cov[X_j, X_i].

∀ e anche la matrice di correlazione che e ottenuta applicando a ogni coppia di variabili aleatorie il coefficiente di correlazione di Pearson

p_{X, Y} = _XY / √var [X] × var [Y]

Se Y_i = a X + b_i, allora cov[X, Y_i] = a var [X] e var [Y_i] = a² var [X], e dunque p_{X, Y} = 1. Se invece X, Y sono indipendenti , p_{X, Y} = 0, ma ciò n'interessa non e vero in generale.

Distribuzioni d'interesse sono :

Bernoulli
- p(x) = p, x = 1
- 1 - p, x = 0
con x_j = 1 per il verificarsi dell'evento j.
Categorica ... estensione della Bernoulli nel caso di est. multipli.
- p(x) = Π^k _j=1 p_j^x_j
Binomiale
- p(x) = (^m / _x) p^x (1-p)^m-x.
Gaussiana
- f(x) = ¹ / _√2π e^{-(x - μ)² / 2²}

da e analiticamente trattabile, ha media μ e varianza ². Da le deriv. ne semplican e permette di modellare molti processi stocastici.

Inoltre trasformazioni lineari di gaussiane si forniscono altra gaussiana.

Le distribuzioni multivariate sono definite su piani di une variabile casuale. Nel caso di una gaussiana multivariata (μ, Σ) abbiamo:

f(x) = ¹ / _{(2π)^d/2 |Σ|^1/2} e^{-½ (x - μ)^T Σ(x - μ)}

dove μ e il vettore dei valore attesi mentre Σ e la matrice dxd della covarianze E(e[X - μ_i](X - μ_j)].

Mentre la media definisce dove e posizionata la distribuzione di probabilità, la struttura della matrice di covariane definisce la forma della distribuzione mem. Se ad esempio Σ e diagonale le distribuzioni tende a essere oriente lungo gli assi.

In generale, per una gaussiana multivariata, gli si sono orientati seconde l'auto vett. della matriz di covarionza.

Machine Learning - Fondamentali

L'insieme dei dati a disposizione è il dataset. Al suo interno si identificano:

il training set utilizzato per determinare il miglior modello
il validation set utilizzato per determinare il miglior valore degli iperparametri del miglior modello
il test set utilizzato per valutare le prestazioni del modello appreso

Il dataset è composto da elementi (d'insieme) e ogni elemento è descritto dallo stesso numero di feature d (d-dimensionalità). Dunque possiamo modellare un elemento come un punto in uno spazio a d dimensioni.

Nell'apprendimento non supervisionato si vuole estrarre, a partire da un insieme di elementi X = {x_1, ..., x_n}, senza un target associato, delle informazioni che possono individuare caratteristiche di un modello (come un sottinsieme di elementi simili che è ciò che avviene nel clustering).

Nell'apprendimento supervisionato si cerca una feature speciale, con una semantica associata che la variabile target y vuole predire. Se y è target di un elemento x in R possiamo distinguere se per un elemento x in ingresso si cerca di predire la classificazione. È inoltre presente un vettore di target t = {t_1, ..., t_n} che corrisponde al target di ogni elemento del training set. Visto che abbiamo n elementi con ognuna d feature a loro volta, il dataset è rappresentabile come una matrice m x d (e con un vettore m x 1) per l'apprendimento supervisionato.

Il training set T è definito come un insieme di coppie oggetto-label T = {(x_1, t_1), ..., (x_n, t_n)} Viene indicata con X la matrice delle feature e con t il vettore dei target. Un predittore h derivato a partire dal training set è dato essere in grado di predire un valore y per qualsiasi oggetto x ∈ X.

Assumiamo di avere un modello generalizzante degli oggetti il dominio X è quello dei possibili elementi che possono comporre nel training set e rispetto ai quali vogliamo effettuare le predizioni. Assumiamo che gli elementi del training set siano tutti componenti di questo dominio e secondo una distribuzione di probabilità P non nota. Dunque, fare

Ad esempio come sudpaciente posso scegliere l'asse orizzontale e dire che il gradiente della funzione in quel punto è perciò il gradiente della retta orizzontale.

square loss. per cui se anche la predizione è corretta ed è molto corretta, vado a pagare molto la stessa

L(t,y) = (y-t)²

Nella seconda situazione si hanno come funzione di loss silvonts:

log loss (o cross entropy) che è continua, ha derivata continua (e dunque è smooth e quindi senza angles) commen segue che sopra la 0,1.

L(t,y) = -1/log₂(y) log(1+e^-yt)

La cross entropy è una misura della differenza tra due distribuzioni.

In particolare, siano p, q distribuzioni di probabilità. La cross entropy tra essi è definita come

-∫_P[log₂q(x)] = -∫p(x)log₂q(x)dx

dove H_P = ∫_P[log₂p(x)], e l'entropia di P è il numero atteso di bit per il simbolo x in un canal dove la distribuzione di intro lo è nota.

La cross entropy definisce il numero aggiuntivo (rispetto al valore minimo di bit atteso per il simbolo x in un canal dove la distribuzione di un bolo quale q(x) invece di p(x).

loss esponenziale L(t,y)=e^-yt

nota le specifiche da assegnare ai parametri.L’idea e’ quindi quella di stimare un “migliore” valore O nello spaziodei parametri. Dire un migliore lo s’intende rispetto a una qualchemisura.

Maximum Likelihood Estimate

L’approccio piu’ utilizzato per selezionare un migliore valore per O e’ stimarel’utilizzo della stima per massima verosimiglianza. Il valore del parametrodi interesse e quindi ottenuto massimizzando l’espressione della likelihoodL(O|X) = P(X|O) = \(\prod_{i=1}^{N} P(x_i|O)\)

Dato le dato massimizzare rispetto a O, l’idea e’ quella di ottenerese la derivata. Dato che l’espressione della derivata di un prodottotende a essere complicato, consideriamo la log-likelihood, ovvero lalikelihood a cui si aplica il logaritmo naturaleL(O|X) = ln L(O|X) = \(\sum_{i=1}^{N} \ln P(x_i|O)\)

ed essendo il logaritmo una funzione monotona, essa non cambia ilpunto di massimo, ovveroargmax l(O|X) = argmax L(O|X)

Per trovare il massimo occorre risolvere\(\frac{\partial L(O|X)}{\partial O}\) = 0

la filosofia dietro alla massima verosimiglianza e’ quella di trovare ilvalore del parametro O che meglio descrive i dati osservati X. Se perocostruiamo un modello che spiega troppo bene i dati osservati, potremmocadere in overfitting. Per evitare tale problema si introduce un ulteriorefunzione P(O) chiamata penalty function, il cui compito e’ limitare lacomplessita del modello. la funzione da massimizzare diventa(O|X) = l(O|X) - P(O)P(O) = \(\frac{\lambda}{2} ||O||^2\)

dove \( \lambda \) e’ un parametro di tuning.

Maximum a Posteriori Estimate

Anteprima

Vedrai una selezione di 15 pagine su 67