Analisi di Algoritmi di Classificazione - Tesi Russo Alessio

Tesi per la facoltà di Ingegneria, Università degli Studi di Genova - Unige dal titolo Analisi di algoritmi di classificazione con approfondimento geometrico sul significato di …

Esame Machine Learning

Facoltà Ingegneria

Dal corso del Prof. Rosasco Lorenzo

Università Università degli studi di Genova

Publisher rssalessio

A.A. 2014-2015

68 pagine

Tesi

Vota

Scarica

Estratto del documento

R

2. I dati di apprendimento, usati dagli algoritmi per estrapolare un modello nella fase di

apprendimento, sono etichettati attraverso un valore numerico . In particolare per

∈

y R

ogni valore diverso di si hanno diverse classi: per esempio identicando con il numero

y T

di classi, allora .

∈ {1, · · · }

y S = , T

3. L'insieme dei dati di apprendimento sono identicati da una matrice , dove

×d

∈

X i

R

identica l' -esima classe di punti , e è il numero di punti per quest'ultima.

⇒ ∈

i i S n

Di conseguenza ogni dato può essere visto come un vettore trasposto, quindi riga della

matrice .

X i

Si sono fatte inoltre alcune ipotesi sull'analisi della complessità computazionale: operazioni

quali l'inversione di una matrice, la sua decomposizione attraverso il teorema spettrale o il

calcolo del determinante sono considerate operazioni con costo , con numeri di dati.

O(n ) n

Queste possono essere ridotte di complessità facendo uso di decomposizioni quali la decompo-

sizione QR o quella di Cholesky, che ciononostante sono comunque e .

3 2

O(n ) Ω(n )

2.3 Metodo Kernel

In generale la funzione di classicazione risulta avere curve di separazione lineari: risulte-

rebbe utile avere un metodo per renderle non lineari.

Una procedura per ottenere ciò è di applicare una trasformazione non lineare d m

→

φ R R

sui dati di apprendimento: è possibile che sul nuovo spazio vettoriale questi dati siano

R

linearmente separabili, risultando quindi in curve di separazione non lineari nello spazio .

R

Solitamente utilizzare questo metodo risulta molto laborioso in termini di tempi di elaborazio-

ne: basti considerare che la trasformazione bisogna eettuarla per ogni dato, e le dimensioni

di questi potrebbero essere elevate.

Attraverso il metodo Kernel si evitano lunghi tempi di elaborazione attraverso alcune osserva-

zioni. 7

Si consideri l'insieme delle funzioni esprimibili come prodotto scalare e sia una di

Ĥ K

queste funzioni, , segue che:

d d

× →

K : R R R hφ(x ), φ(x

K(x , x ) = )i

1 2 2 Ĥ

È possibile esprimere senza dover utilizzare la trasformazione ? attraverso la condizione di

K φ

Mercer ciò è possibile sotto alcune ipotesi:

simmetrica.

1. , x ) = K(x , x )

K(x 1 2 2 1

2. K deve essere semi-denita positiva, ovvero deve avere tutti gli autovalori non negativi.

Sotto queste condizioni tale che:

d m

∃φ →

: R R X T d

∀x ∈

, x ) = λ φ(x ) φ(x ) , x

K(x R

1 2 1 2 1 2

Di conseguenza la funzione Kernel mi induce questa trasformazione .

Il quesito è come si può applicare questo risultato negli algoritmi: in primo luogo si appli-

ca la trasformazione non lineare sui dati usati dal metodo in questione. Successivamente i

vengono sostituiti da , permettendo una riduzione del

prodotti scalari hφ(x ), φ(x )i K(x , x )

1 2 1 2

Ĥ

costo computazionale.

In questo lavoro i principali Kernel utilizzati sono:

, questo Kernel permette di vericare se l'algoritmo

1. Kernel lineare: T

, x ) = x

K(x x

1 2 2

è stato implementato in maniera corretta, confrontandone i risultati con l'algoritmo in

forma non Kernel, i quali dovrebbero risultare uguali.

2. Kernel lineare ane: , utile nel caso i dati non siano stati centrati,

T

K(x , x ) = 1 + x x

1 2 2

risolve il problema grazie all'oset dato da .

3. Kernel polinomiale: , induce delle trasformazioni polinomiali e

T p

K(x , x ) = (1 + x x )

1 2 2

permette di avere curve di separazione non lineari.

kx −x k

4. Kernel gaussiano (radiale): , induce una trasformazione

K(x , x ) = exp 1 2

1 2 2

2σ

, con di dimensione innita.

d →

φ : H̃ H̃

R 8

Il Kernel gaussiano permette di lavorare in uno spazio a innite dimensioni ed è facilmente

dimostrabile: per semplicità si consideri , segue :

2σ = 1

22 T T T

− k −

exp(−kx x ) = exp(−(x x + x x 2x x ))

1 2 1 2 2

1 2 1

Il termine può essere sviluppato grazie alla Serie di Taylor centrata in 0:

T x

exp(2x )

1 ∞

1 1

X

T T T 2 T k

x ) =1+ 2x x + (2x x ) + (2x x )

exp(2x 2 2 2 2

1 1 1 1

2 k!

k=3

Si può quindi trovare una trasformazione siatta:

φ  

√

 

T ·

φ(x) = exp(−x x)  

2 T

x x

√

 

2 ..

 

Grazie allo sviluppo in Serie di Taylor si ha che è una funzione vettoriale di innite compo-

nenti, inducendo quindi uno spazio di dimensione innita.

Possiamo inne notare che ritroviamo il Kernel gaussiano:  

√

√ 2x

 

T T T 2 T ·

− · ···

φ(x ) φ(x ) = exp(−x x x x ) x

2x x

1 √  

1 2 1 2

1 2 1 1

1 2 T

x x

2 √

 

2 ..

 

∞ 1

X

T T T k

− ·

= exp(−x x x x ) (2x x )

1 2 2

1 2 1

k=0

− k

= exp(−kx x )

1 2 9

2.4 Regularized Least Squares Classier

Il metodo Regularized Least Square Classier (RLSC) è un discriminante lineare basato sul

loss

metodo dei minimi quadrati. Il metodo dei minimi quadrati fa uso di una funzione di costo (

function l . Il fatto di usare una funzione quadratica permette

) del tipo 2

−

= (y f (x))

(y, f (x))

di avere un'unica soluzione essendo un problema di minimizzazione di una funzione convessa.

Nel caso binario la classicazione risulta essere la miglior funzione che meglio divide i valori

delle due classi dati i punti, possiamo quindi valutare l'appartenenza a una classe guardandone

il segno. Il problema risulta essere il seguente: n

1 X

T T 22

−

x), x

h(x) = sgn(f (x)) = sgn( ŵ ŵ = min (y w ) + λkwk

k k

w k=1

è la normale della varietà lineare, una retta nel caso binario, che meglio separa le due classi

ŵ

di punti. Questa viene ricavata attraverso la minimizzazione di un problema convesso: di con-

seguenza il risultato esiste ed è unico.

Si noti che è stato introdotto un termine di regolarizzazione . Questo serve per avere un

parametro con cui controllare il risultato ed evitare problemi quali il sovradattamento.

Per capire le dinamiche di cosa accade si osservi che

nel caso di classicazione binaria misura la

T

ŵ xk 2

distanza del punto alla retta di separazione data da

, di conseguenza il segno di questa mi da l'appar-

h(x)

tenenza a una delle due classi.

Più articolato risulta il caso di classicazione mul-

ticlasse, la quale risulta fatta con uno dei seguenti

metodi:

Classicazione uno contro tutti

1. : vengono con-

siderati problemi di minimizzazione del caso

T Figura 2.1: RLSC: classicazione

binario sopra citato. Per ogni problema si sce- mi indica l'appartenenza

y(x) = f (x)

glie una classe di punti appartenenti a una pri- a una classe. è l'oset rispetto

ma categoria, le restanti classi vengono

−

T 1 l'origine.

considerate appartenenti all'altra categoria. Si

ottengono classicatori.

Θ(T )

Classicazione uno contro uno

2. : Si considerano

due classi di punti alla volta e per ognuno di

essi viene ricavato un classicatore. Si ottengono

classicatori.

Θ(T ) 10

Entrambi i casi mostrano vantaggi e svantaggi: 1

In termini di tempi di elaborazione il metodo

• vs all risulta più veloce in fase di classicazio-

ne a causa del numero lineare di classicatori

rispetto al numero di classi, mentre la tecnica

vs 1 ne ha un numero quadratico.

Discutendo della precisione di classicazione,

• entrambi i metodi hanno zone ambigue di classi-

cazione o non separano correttamente le clas-

si di punti, come in gura 2.2. Ciò è meno

1 vs 1

evidente con la strategia .

Figura 2.2: Classicazione uno contro

tutti: le curve di separazione non sono 1 vs all

Per il progetto si è fatto uso del metodo :

ottimali consideriamo la -esima classe di punti etichettata con

come prima classe, per esempio con valore . Le restanti classi di punti sono etichettate come

. Si applichi questo ragionamento per ogni classe e si cerchi i classicatori che rendono minima

la somma dei singoli problemi binari, si ottiene:

T 1

X Ti 2 22

− k

(y w x ) + λkw

min k k i

,··· ,w

w 1 T i=1 k=1

Si dimostra che questo problema equivale a trovare una matrice tale che:

×d

T

∈

W R

T T · · ·

(X X + nλI )W = X Y, W = w w

d 1 2 T

Dove è una matrice con colonne ove

n×T

∈

Y T

R  Se appartiene alla -esima classe

1 x j

 i

Y =

ij altrimenti



Inne il classicatore risulta essere: (2.1)

−1

T T T

= arg max W x, W = (X X + nλI ) X Y

h(x) d

i=1,··· ,T

Per quanto riguarda le complessità computazionali si ricava:

1. Costo computazionale in fase di apprendimento per via delle operazioni

O(d(dn+d +nT ))

eettuate sulle varie matrici.

2. Costo computazionale in fase di classicazione .

Θ(T d)

2.4.1 Kernel Regularized Least Squares Classier

Consideriamo una trasformazione non lineare applicata sui dati in questione.

d →

φ : H

R

La nostra matrice dei punti applicando la trasformazione diventa una nuova matrice,

X φ

denominata . Si ha:

S 1 T

T T −

⇒ S (Y SW)

(S S + nλI )W = S Y W =

d nλ

Ponendo si osserva:

1 −

α = (Y SW)

nλ T T T T T T

⇒

W = S α (S S + nλI )S α = S (SS + nλI )α = S Y

n n

−1

T

α = (SS + nλI ) Y

Essendo il classicatore diventa:

T

SS = K −1

T T T T T T

= arg max W x = (x W) = (x S (K + nλI ) Y)

h(x) n

i=1,·&m

Anteprima

Vedrai una selezione di 1 pagina su 68

Analisi di Algoritmi di Classificazione - Tesi Russo Alessio Pag. 1

Acquista con carta o PayPal

Scarica i documenti tutte le volte che vuoi

Dettagli

SSD

Scienze matematiche e informatiche INF/01 Informatica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher rssalessio di informazioni apprese con la frequenza delle lezioni di Machine Learning e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli studi di Genova o del prof Rosasco Lorenzo.

Appunti correlati

Invia appunti e guadagna

Recensioni

Ti è piaciuto questo appunto?

Analisi di Algoritmi di Classificazione - Tesi Russo Alessio

R

R

R

R

Ĥ K

Ĥ

T

X

X

T

T

Y T

T T T

R

nλ T T T T T T

T

T

T T T T T T

Recensioni

Domande e risposte

I migliori insegnanti di Ai (Intelligenza artificiale)

Stefano A.

Davide I.

Carlo A.