Sistemi adattativi - la classificazione

Appunti di Sistemi adattativi sulle tecniche di classificazione per l'esame del professor Furtuna. Gli argomenti che vengono trattati sono i seguenti: l'area di progetto, il riconoscimento dei materiali mediante l’utilizzo di una sonda acustica, il dataset.

Esame Sistemi adattativi

Facoltà Ingegneria

Dal corso del Prof. Fortuna Luigi

Università Università degli Studi di Catania

Publisher unigruppi

A.A. 2012-2013

44 pagine

Appunto

Vota

Scarica

Estratto del documento

Dataset

[V] [V]2 3Ampiezza Ampiezza1 20 1-1 0-2 -10 0.02 0.04 0.06 0.08 0.1 0 0.02 0.04 0.06 0.08 0.1Tempo [s] Tempo [s]Lattina alluminio Vetro8 87 76 65 5[V] [V]4 4Ampiezza Ampiezza3 32 21 10 0-1 -10 0.02 0.04 0.06 0.08 0.1 0 0.02 0.04 0.06 0.08 0.1Tempo [s] Tempo [s]

Il Dataset

Del segnale originale è stata calcolata la densità spettrale di potenza e poi, dopo avere diviso la banda delle frequenze acustiche in 8 sottobande, si è calcolato il valore medio degli spettri in ognuno degli intervalli.

In questo modo, da ogni prova effettuata su quattro materiali diversi: plastica, alluminio, acciaio e vetro, si è ottenuto in corrispondenza un pattern che possiede 8 componenti, una per ogni sottobanda, ed una.

Intervalli di frequenza:

300 Hz - 900 Hz
900 Hz - 1500 Hz
1500 Hz - 2100 Hz
2100 Hz - 2700 Hz
2700 Hz - 3300 Hz
3300 Hz - 4800 Hz
4800 Hz - 6000 Hz
6000 Hz - 9000 Hz

Hzcomponente con un numero intero rappresentante il tipo di materiale.

Il Dataset

Alcuni esempi di pattern:

P1 P2 P3 P4 P5 P6 P7

0.1355 0.9000 0.9000 0.1470 0.9000 0.1534 0.9000

0.2879 0.1011 0.4709 0.3074 0.8658 0.3066 0.5951

0.9000 0.1001 0.4072 0.9000 0.8711 0.9000 0.5688

0.5024 0.1050 0.1746 0.4695 0.1951 0.2742 0.3825

0.1488 0.1030 0.2081 0.1427 0.2248 0.1051 0.1969

0.1669 0.1000 0.1605 0.1553 0.1798 0.1460 0.5344

0.1017 0.1010 0.1120 0.1000 0.1333 0.1049 0.1600

0.1000 0.1008 0.1000 0.1015 0.1000 0.1000 0.1000

Il Dataset

Caratteristiche del dataset utilizzato:

Numero di pattern: 400;
Numero delle classi: 4;
Numero delle features: 8.

CLASSIFICATORE

Il Dataset

Il nostro dataset è formato da otto dati per ogni record.

Esistono delle dipendenze tra le diverse componenti.

Calcoliamo la media e la varianza del dataset:

Media μ: 0.8387

Varianza σ: 0.0191

0.1873 0.0044

0.3097 0.1033

0.1090 0.0002

0.1195 0.0010

0.1135 0.0002

0.1418 0.0082

0.1331 0.0045

Il Dataset

Calcoliamo adesso

Plastica

Media: 0.9000
Varianza: 0.0001

Acciaio

Media: 0.9000
Varianza: 0.0001

Alluminio

Media: 0.6549
Varianza: 0.0315

Vetro

Media: 0.9000
Varianza: 0.0001

Il Dataset

La media del dataset è: 0.9

Amplitude

Features

Il Dataset

La varianza del dataset è: 0.12

Ampiezza

Features

Il Dataset

Le medie relative alle quattro classi sono:

PLASTICA ACCIAIO

AMPIEZZE AMPIEZZE

FEATURES

FEATURES

ALLUMINIO VETRO

1 10.8 0.8

AMPIEZZE AMPIEZZE

0.6 0.6

0.4 0.4

0.2 0.2

0 0

1 2 3 4 5 6 7 8

FEATURES

CLUSTER ANALISYS

Cluster analisys

È un modo per partizionare un set di oggetti in gruppi o clusters, in modo che gli oggetti contenuti nello stesso cluster siano molto simili e quelli contenuti in clusters differenti siano invece diversi.

Per utilizzare tale metodo è molto importante definire il concetto di distanza tra due pattern.

Viene spesso utilizzata la distanza euclidea tra i pattern ma si potrebbero utilizzare anche altre definizioni di distanza.

Cluster analisys

Si deve sottolineare che i risultati dell'analisi dipendono molto dal tipo di metrica utilizzata.

Prima di eseguire le misure delle distanze tra i pattern, il dataset deve essere normalizzato in quanto molto spesso le varie componenti di ogni record possono avere significati e valori anche molto diversi.

Classificatore k-nearest neighbor

Classificatore k-nearest neighbor

Un classificatore di tipo supervisionato, ovvero che fa uso di conoscenze pregresse sul numero ed il tipo delle classi.

Il dataset utilizzato per la fase di "addestramento" è detto learning set o training set.

Il learning set è etichettato, ovvero, ad ogni pattern corrisponde un campo che identifica la classe a cui esso appartiene.

Classificatore k-nearest neighbor

Tale metodo utilizza un numero intero dispari k.

Dato un learning set etichettato, per ogni pattern da classificare, si calcoleranno i k elementi del learning set ad esso più vicini secondo una certa metrica.

La classificazione viene fatta semplicemente andando a valutare a quale classe appartengono il maggior numero di vicini.

Classificatore k-nearest neighbor

È un metodo molto semplice da implementare ma ha qualche difetto:

Se il training set è molto grande e k è grande, i calcoli diventano onerosi.

Per superare questa difficoltà si usano due

algoritmi:

Il multiediting che consente di eliminare dal dataset tutti quei pattern che possono causare ambiguità.

Il condensing che elimina dal dataset di learning dei pattern che non inficiano l'efficienza del classificatore.

Classificatore k-nearest neighbor

Utilizzeremo:

pattern come learning set, in particolare 400100 pattern per ognuno dei quattro materiali diversi pattern, 25 per ogni tipo di materiale, per 100 la fase di test per verificare la percentuale di successo del classificatore.

valore di k compreso tra 1 e 5.

Un Classificatore k-nearest neighbor

Valutiamo i risultati utilizzando k uguale 1, 3 e 5.

Notiamo che avremo una classificazione molto efficiente.

Classificatore k-nearest neighbor

risultati ottenuti derivano essenzialmente dal fatto che il dataset considerato è facilmente clusterizzabile. però si ha a che fare con dataset spesso più complessi o con una

quantità di pattern e/o di features tali da rendere questa tecnica inefficace.

Principal Components Analysis

Il metodo delle componenti principali è utilizzato quando si hanno dataset che hanno parecchie features, alcune delle quali in relazione tra loro. Ciò si traduce in informazioni ridondanti che possono fare 'esplodere' la complessità dei problemi. Questo metodo individua le relazioni tra le varie features del dataset e genera un nuovo set di variabili chiamate componenti principali che sono ortogonali e che sono una combinazione lineare delle variabili originali. Le feature selezionate saranno quelle a cui corrispondono gli autovalori più grandi.

Principal Components Analysis

L'analisi spettrale della correlazione del dataset con Matlab:

C = cov(dataset)
[V,D] = eig(C)

dove:

C è la matrice di covarianza del dataset
V è la matrice degli autovettori

La matrice diagonale degli autovalori è:

0.0042 0 0 0 0 0 0 0
0 0.0051 0 0 0 0 0 0
0 0 0.0063 0 0 0 0 0
0 0 0 0.0089 0 0 0 0
0 0 0 0 0.0134 0 0 0
0 0 0 0 0 0.0283 0 0
0 0 0 0 0 0 0.0399 0
0 0 0 0 0 0 0 0.1541

Principal Components Analisys:

Vediamo che avremo una componente molto più grande delle altre. Analizzando percentualmente il peso di ogni componente rispetto alle altre si ha:
- P1 = 60%
- P6 = 15%
- P5 = 11%
- P4 = 5%
- P3 somma delle rimanenti 3 solo il 9%
La Principal Components Analisys:
- Ricordando che la moltiplicazione di un vettore per una matrice effettua un cambio del sistema di riferimento, il prodotto del dataset per la matrice degli autovettori provocherà il passaggio ad un sistema di riferimento in cui ci sono coordinate molto importanti ed altre meno.
- Nel nostro caso potremo considerare solo le prime tre o quattro componenti che racchiudono da sole il 91% delle informazioni sul dataset.

Il tuo compito è formattare il testo fornito utilizzando tag html.

ATTENZIONE: non modificare il testo in altro modo, NON aggiungere commenti, NON utilizzare tag h1;

dataset.ClassificazioneHard C-MeansHard C-Means

Lo scopo della hard c-means è quello di partizionare gli elementi del dataset in modo da ottenere gruppi compatti e distinti.

Per ogni classe introdotta si può definire un centro, ottenuto dalla media delle componenti (features) dei pattern che vi fanno parte (means).

Si introduce poi una funzione costo proporzionale alla distanza tra ciascun pattern ed il centro della classe a cui appartiene.

Il costo totale sarà dato dalla somma di tutti i singoli costi.

Si deve infine minimizzare la funzione costo utilizzando il seguente algoritmo.

Hard C-Means

Inizializzazione: ipotizza un certo numero di centroidi.

Si essendo un metodo non supervisionato, l'hard C-Means richiede che venga esplicitato all'inizio il numero delle classi in cui raggruppare i dati. Se tale numero è errato, il risultato può essere scadente.

inizializzano i centroidi in modo random.

Si potrebbe sembrare

o il costo della partizione non diminuisce più significativamente dopo un certo numero di iterazioni o quando viene raggiunto un numero massimo di iterazioni predefinito.

Anteprima

Vedrai una selezione di 10 pagine su 44