Che materia stai cercando?

Sistemi adattativi - la classificazione Appunti scolastici Premium

Appunti di Sistemi adattativi sulle tecniche di classificazione per l'esame del professor Furtuna. Gli argomenti che vengono trattati sono i seguenti: l'area di progetto, il riconoscimento dei materiali mediante l’utilizzo di una sonda acustica, il dataset.

Esame di Sistemi adattativi docente Prof. L. Fortuna

Anteprima

ESTRATTO DOCUMENTO

Cluster analisys

E’ un modo per partizionare un set di oggetti in

 gruppi o clusters, in modo che gli oggetti

contenuti nello stesso cluster siano molto simili e

quelli contenuti in clusters differenti siano invece

diversi.

Per utilizzare tale metodo è molto importante

 definire il concetto di distanza tra due pattern.

Viene spesso utilizzata la distanza euclidea tra i

 pattern ma si potrebbero utilizzare anche altre

definizioni di distanza.

Cluster analisys

Si deve sottolineare che i risultati dell’analisi

 dipendono molto dal tipo di metrica utilizzata.

Prima di eseguire le misure delle distanze tra i

 pattern, il dataset deve essere normalizzato in

quanto molto spesso le varie componenti di ogni

record possono avere significati e valori anche

molto diversi.

Classificatore

k-nearest neighbor

Classificatore k-nearest neighbor

È un classificatore di tipo supervisionato, ovvero

 che fa uso di conoscenze pregresse sul numero

ed il tipo delle classi.

Il dataset utilizzato per la fase di

 “addestramento” è detto learning set o training

set.

Il learning set è etichettato, ovvero, ad ogni

 pattern corrisponde un campo che identifica la

classe a cui esso appartiene.

Classificatore k-nearest neighbor

Tale metodo utilizza un numero intero dispari k.

 Dato un learning set etichettato, per ogni pattern

 da classificare, si calcoleranno i k elementi del

learning set ad esso più vicini secondo una certa

metrica.

La classificazione viene fatta semplicemente

 andando a valutare a quale classe

appartengono il maggior numero di vicini.

Classificatore k-nearest neighbor

È un metodo molto semplice da implementare

 ma ha qualche difetto:

Se il training set è molto grande e k è grande, i calcoli

 diventano onerosi

Per superare questa difficoltà si usano due

 algoritmi:

Il multiediting che consente di eliminare dal dataset

 tutti quei pattern che possono causare ambiguità.

Il condensing che elimina dal dataset di learning dei

 pattern che non inficiano l’efficienza del classificatore.

Classificatore k-nearest neighbor

Utilizzeremo:

pattern come learning set, in particolare

400

100 pattern per ognuno dei quattro materiali

diversi

pattern, 25 per ogni tipo di materiale, per

100

la fase di test per verificare la percentuale di

successo del classificatore.

valore di k compreso tra 1 e 5.

Un

Classificatore k-nearest neighbor

Valutiamo i risultati

 K Corretta %

della classificazione riconoscimenti

utilizzando k uguale 1 97%

ad 1, 3 e 5. 3 99%

Notiamo che avremo

 5 100%

una classificazione

molto efficiente.

Classificatore k-nearest neighbor

risultati ottenuti derivano essenzialmente

I

dal fatto che il dataset considerato è

facilmente clusterizzabile.

però si ha a che fare con dataset

Spesso

più complessi o con una quantità di

pattern e/o di features tali da rendere

questa tecnica inefficace.

PRINCIPAL

PRINCIPAL

COMPONENTS

ANALISYS

Principal Components Analisys

Il metodo delle componenti principali è un metodo

 utilizzato quando si hanno dataset che hanno parecchie

features, alcune delle quali in relazione tra loro.

Ciò si traduce in informazioni ridondanti che possono

 fare ‘esplodere’ la complessità dei problemi.

Questo metodo individua le relazioni tra le varie features

 del dataset e genera un nuovo set di variabili chiamate

componenti principali che sono ortogonali e che sono

una combinazione lineare delle variabili originali.

Le feature selezionate saranno quelle a cui

 corrispondono gli autovalori più grandi.

Principal Components Analisys

l’analisi spettrale della

Facciamo

correlazione del dataset con Matlab:

= cov(dataset)

C è la matrice di covarianza del dataset

C = eig(C)

[V,D]

è la matrice degli autovettori

V è la matrice diagonale degli autovalori.

D

Principal Components Analisys

La matrice diagonale degli autovalori è:

0.0042 0 0 0 0 0 0 0

0 0.0051 0 0 0 0 0 0

0 0 0.0063 0 0 0 0 0

0 0 0 0.0089 0 0 0 0

0 0 0 0 0.0134 0 0 0

0 0 0 0 0 0.0283 0 0

0 0 0 0 0 0 0.0399 0

0 0 0 0 0 0 0 0.1541

Principal Components Analisys

• Vediamo che avremo una componente

molto più grande delle altre. Analizzando

percentualmente il peso di ogni componente

a quello delle alle altre si ha:

= 60%

P6 = 15%

P5 = 11%

P4 = 5%

P3 somma delle rimanenti 3 solo il 9%.

La

Principal Components Analisys

Ricordando che la moltiplicazione di un vettore

 per una matrice effettua un cambio del sistema

di riferimento, il prodotto del dataset per la

matrice degli autovettori, provocherà il

passaggio ad un sistema di riferimento in cui ci

sono coordinate molto importanti ed altre meno.

Nel nostro caso potremo considerare solo le

 prime tre o quattro componenti che racchiudono

da sole il 91% delle informazioni sul dataset.

Classificazione

Hard C-Means

Hard C-Means

Lo scopo della hard c-means è quello di partizionare gli

 elementi del dataset in modo da ottenere gruppi compatti

e distinti.

Per ogni classe introdotta si può definire un centro,

 ottenuto dalla media delle componenti (features) dei

pattern che vi fanno parte (means).

Si introduce poi una funzione costo proporzionale alla

 distanza tra ciascun pattern ed il centro della classe a

cui appartiene.

Il costo totale sarà dato dalla somma di tutti i singoli

 costi.

Si deve infine minimizzare la funzione costo utilizzando il

 seguente algoritmo.

Hard C-Means

Inizializzazione:

ipotizza un certo numero di centroidi.

Si essendo un metodo non supervisionato, l’hard

Pur

C-Means richiede che venga esplicitato all’inizio il

numero delle classi in cui raggruppare i dati. Se tale

numero è errato, il risultato può essere scadente.

inizializzano i centroidi in modo random.

Si potrebbe sembrare un’ipotesi poco valida

Questa

ma bastano poche iterazioni dell’algoritmo per

cominciare a vedere risultati validi.

Hard C-Means

Algoritmo:

costruiscono le classi attorno ai centroidi

Si

iniziali. si vuole minimizzare il costo della partizione,

Poiché

ogni vettore sarà assegnato alla classe a lui più

“simile”, secondo la definizione di misura adottata.

calcolano le distanze tra i pattern ed i

Si

centroidi, si valutano i costi e si ricalcolano i

centroidi.

centroidi sono calcolati facendo la media delle

I

features di tutti i record appartenenti ad ogni cluster.

Ad ogni iterazione i centroidi cambieranno così di

posizione.


PAGINE

44

PESO

675.72 KB

PUBBLICATO

+1 anno fa


DETTAGLI
Corso di laurea: Corso di laurea in ingegneria informatica
SSD:
Università: Catania - Unict
A.A.: 2013-2014

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher unigruppi di informazioni apprese con la frequenza delle lezioni di Sistemi adattativi e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Catania - Unict o del prof Fortuna Luigi.

Acquista con carta o conto PayPal

Scarica il file tutte le volte che vuoi

Paga con un conto PayPal per usufruire della garanzia Soddisfatto o rimborsato

Recensioni
Ti è piaciuto questo appunto? Valutalo!

Altri appunti di Corso di laurea in ingegneria informatica

Ingegneria del software - Relazione del Progetto Gestione Prenotazione Biglietti Ferroviari
Appunto
Elettrotecnica Parte 1
Appunto
Elettrotecnica parte 2
Appunto
Appunti di Basi di Dati - Progettazione
Appunto