Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
Dataset
[V] [V]2 3Ampiezza Ampiezza1 20 1-1 0-2 -10 0.02 0.04 0.06 0.08 0.1 0 0.02 0.04 0.06 0.08 0.1Tempo [s] Tempo [s]Lattina alluminio Vetro8 87 76 65 5[V] [V]4 4Ampiezza Ampiezza3 32 21 10 0-1 -10 0.02 0.04 0.06 0.08 0.1 0 0.02 0.04 0.06 0.08 0.1Tempo [s] Tempo [s]
Il Dataset
Del segnale originale è stata calcolata la densità spettrale di potenza e poi, dopo avere diviso la banda delle frequenze acustiche in 8 sottobande, si è calcolato il valore medio degli spettri in ognuno degli intervalli.
In questo modo, da ogni prova effettuata su quattro materiali diversi: plastica, alluminio, acciaio e vetro, si è ottenuto in corrispondenza un pattern che possiede 8 componenti, una per ogni sottobanda, ed una.
Intervalli di frequenza:
- 300 Hz - 900 Hz
- 900 Hz - 1500 Hz
- 1500 Hz - 2100 Hz
- 2100 Hz - 2700 Hz
- 2700 Hz - 3300 Hz
- 3300 Hz - 4800 Hz
- 4800 Hz - 6000 Hz
- 6000 Hz - 9000 Hz
Hzcomponente con un numero intero rappresentante il tipo di materiale.
Il Dataset
Alcuni esempi di pattern:
P1 P2 P3 P4 P5 P6 P7
0.1355 0.9000 0.9000 0.1470 0.9000 0.1534 0.9000
0.2879 0.1011 0.4709 0.3074 0.8658 0.3066 0.5951
0.9000 0.1001 0.4072 0.9000 0.8711 0.9000 0.5688
0.5024 0.1050 0.1746 0.4695 0.1951 0.2742 0.3825
0.1488 0.1030 0.2081 0.1427 0.2248 0.1051 0.1969
0.1669 0.1000 0.1605 0.1553 0.1798 0.1460 0.5344
0.1017 0.1010 0.1120 0.1000 0.1333 0.1049 0.1600
0.1000 0.1008 0.1000 0.1015 0.1000 0.1000 0.1000
Il Dataset
Caratteristiche del dataset utilizzato:
- Numero di pattern: 400;
- Numero delle classi: 4;
- Numero delle features: 8.
CLASSIFICATORE
Il Dataset
Il nostro dataset è formato da otto dati per ogni record.
Esistono delle dipendenze tra le diverse componenti.
Calcoliamo la media e la varianza del dataset:
Media μ: 0.8387
Varianza σ: 0.0191
0.1873 0.0044
0.3097 0.1033
0.1090 0.0002
0.1195 0.0010
0.1135 0.0002
0.1418 0.0082
0.1331 0.0045
Il Dataset
Calcoliamo adesso
- Plastica
- Media: 0.9000
- Varianza: 0.0001
- Acciaio
- Media: 0.9000
- Varianza: 0.0001
- Alluminio
- Media: 0.6549
- Varianza: 0.0315
- Vetro
- Media: 0.9000
- Varianza: 0.0001
Il Dataset
La media del dataset è: 0.9
Amplitude
Features
Il Dataset
La varianza del dataset è: 0.12
Ampiezza
Features
Il Dataset
Le medie relative alle quattro classi sono:
PLASTICA ACCIAIO
AMPIEZZE AMPIEZZE
FEATURES
FEATURES
ALLUMINIO VETRO
1 10.8 0.8
AMPIEZZE AMPIEZZE
0.6 0.6
0.4 0.4
0.2 0.2
0 0
1 2 3 4 5 6 7 8
1 2 3 4 5 6 7 8
FEATURES
CLUSTER ANALISYS
Cluster analisys
È un modo per partizionare un set di oggetti in gruppi o clusters, in modo che gli oggetti contenuti nello stesso cluster siano molto simili e quelli contenuti in clusters differenti siano invece diversi.
Per utilizzare tale metodo è molto importante definire il concetto di distanza tra due pattern.
Viene spesso utilizzata la distanza euclidea tra i pattern ma si potrebbero utilizzare anche altre definizioni di distanza.
Cluster analisys
Si deve sottolineare che i risultati dell'analisi dipendono molto dal tipo di metrica utilizzata.
Prima di eseguire le misure delle distanze tra i pattern, il dataset deve essere normalizzato in quanto molto spesso le varie componenti di ogni record possono avere significati e valori anche molto diversi.
Classificatore k-nearest neighbor
Classificatore k-nearest neighbor
Un classificatore di tipo supervisionato, ovvero che fa uso di conoscenze pregresse sul numero ed il tipo delle classi.
Il dataset utilizzato per la fase di "addestramento" è detto learning set o training set.
Il learning set è etichettato, ovvero, ad ogni pattern corrisponde un campo che identifica la classe a cui esso appartiene.
Classificatore k-nearest neighbor
Tale metodo utilizza un numero intero dispari k.
Dato un learning set etichettato, per ogni pattern da classificare, si calcoleranno i k elementi del learning set ad esso più vicini secondo una certa metrica.
La classificazione viene fatta semplicemente andando a valutare a quale classe appartengono il maggior numero di vicini.
Classificatore k-nearest neighbor
È un metodo molto semplice da implementare ma ha qualche difetto:
Se il training set è molto grande e k è grande, i calcoli diventano onerosi.
Per superare questa difficoltà si usano due
algoritmi:
Il multiediting che consente di eliminare dal dataset tutti quei pattern che possono causare ambiguità.
Il condensing che elimina dal dataset di learning dei pattern che non inficiano l'efficienza del classificatore.
Classificatore k-nearest neighbor
Utilizzeremo:
pattern come learning set, in particolare 400100 pattern per ognuno dei quattro materiali diversi pattern, 25 per ogni tipo di materiale, per 100 la fase di test per verificare la percentuale di successo del classificatore.
valore di k compreso tra 1 e 5.
Un Classificatore k-nearest neighbor
Valutiamo i risultati utilizzando k uguale 1, 3 e 5.
Notiamo che avremo una classificazione molto efficiente.
Classificatore k-nearest neighbor
risultati ottenuti derivano essenzialmente dal fatto che il dataset considerato è facilmente clusterizzabile. però si ha a che fare con dataset spesso più complessi o con una
quantità di pattern e/o di features tali da rendere questa tecnica inefficace.
Principal Components Analysis
Il metodo delle componenti principali è utilizzato quando si hanno dataset che hanno parecchie features, alcune delle quali in relazione tra loro. Ciò si traduce in informazioni ridondanti che possono fare 'esplodere' la complessità dei problemi. Questo metodo individua le relazioni tra le varie features del dataset e genera un nuovo set di variabili chiamate componenti principali che sono ortogonali e che sono una combinazione lineare delle variabili originali. Le feature selezionate saranno quelle a cui corrispondono gli autovalori più grandi.
Principal Components Analysis
L'analisi spettrale della correlazione del dataset con Matlab:
C = cov(dataset) [V,D] = eig(C)
dove:
C
è la matrice di covarianza del datasetV
è la matrice degli autovettori
0.0042 0 0 0 0 0 0 0 0 0.0051 0 0 0 0 0 0 0 0 0.0063 0 0 0 0 0 0 0 0 0.0089 0 0 0 0 0 0 0 0 0.0134 0 0 0 0 0 0 0 0 0.0283 0 0 0 0 0 0 0 0 0.0399 0 0 0 0 0 0 0 0 0.1541Principal Components Analisys:
- Vediamo che avremo una componente molto più grande delle altre. Analizzando percentualmente il peso di ogni componente rispetto alle altre si ha:
- P1 = 60%
- P6 = 15%
- P5 = 11%
- P4 = 5%
- P3 somma delle rimanenti 3 solo il 9%
- La Principal Components Analisys:
- Ricordando che la moltiplicazione di un vettore per una matrice effettua un cambio del sistema di riferimento, il prodotto del dataset per la matrice degli autovettori provocherà il passaggio ad un sistema di riferimento in cui ci sono coordinate molto importanti ed altre meno.
- Nel nostro caso potremo considerare solo le prime tre o quattro componenti che racchiudono da sole il 91% delle informazioni sul dataset.
Il tuo compito è formattare il testo fornito utilizzando tag html.
ATTENZIONE: non modificare il testo in altro modo, NON aggiungere commenti, NON utilizzare tag h1;
dataset.ClassificazioneHard C-MeansHard C-Means
Lo scopo della hard c-means è quello di partizionare gli elementi del dataset in modo da ottenere gruppi compatti e distinti.
Per ogni classe introdotta si può definire un centro, ottenuto dalla media delle componenti (features) dei pattern che vi fanno parte (means).
Si introduce poi una funzione costo proporzionale alla distanza tra ciascun pattern ed il centro della classe a cui appartiene.
Il costo totale sarà dato dalla somma di tutti i singoli costi.
Si deve infine minimizzare la funzione costo utilizzando il seguente algoritmo.
Hard C-Means
Inizializzazione: ipotizza un certo numero di centroidi.
Si essendo un metodo non supervisionato, l'hard C-Means richiede che venga esplicitato all'inizio il numero delle classi in cui raggruppare i dati. Se tale numero è errato, il risultato può essere scadente.
inizializzano i centroidi in modo random.
Si potrebbe sembrare
o il costo della partizione non diminuisce più significativamente dopo un certo numero di iterazioni o quando viene raggiunto un numero massimo di iterazioni predefinito.