Estratto del documento

Indice

  • 1. Introduzione e descrizione del problema pag. 2
  • 2. Training Set pag. 3
  • 3. La classificazione pag. 4
  • 4. Classificatore KNIME pag. 5
    • 4.1. File Reader pag. 6
    • 4.2. Attribute Selected Classifier pag. 7
      • 4.2.1. Features Selection pag. 7
    • 4.3. Column Filter pag. 10
    • 4.4. Partitioning pag. 11
    • 4.5. Decision Tree pag. 12
      • 4.5.1. Albero Decisionale pag. 14
    • 4.6. Scorer pag. 16
  • 5. Stime e misura dell’accuratezza del classificatore pag. 17

Introduzione e descrizione del problema

L'obiettivo del presente elaborato è la realizzazione di un classificatore di dati di rete, in grado di classificare correttamente i campioni contenuti in un Training Set (TS) fornito dal docente. Si richiede quindi che tale classificatore possieda una capacità di generalizzazione sufficiente a massimizzare le prestazioni di classificazione su un Test Set incognito, a disposizione del docente, completamente disgiunto dal TS, ma presumibilmente contenente campioni omogenei a quelli del TS fornito.

Tale classificatore è stato realizzato attraverso l’uso dell’ambiente di sviluppo KNIME 2.0. Si è proceduto quindi prima di tutto al download del software direttamente dal sito dell'autore: www.knime.org e poi ho integrato in tale ambiente la classe di librerie WEKA le quali, come vedremo, hanno aggiunto dei nodi grazie ai quali si è realizzata la feature selection.

KNIME è un ambiente modulare di esportazione di dati che consente all’utente di creare visivamente flussi di dati, eseguire operazioni di analisi su tali dati e poi indagare sui risultati attraverso viste interattive e modelli. Esso è una piattaforma open-source.

Training Set

Il Training Set assegnato è contenuto in un file di testo (training set.txt) compatibile con l’ambiente KNIME. Esso è composto da 6 classi equivalenti ciascuna ad un determinato tipo di traffico di rete (il numero di classe possiamo osservare che si riferisce alla porta utilizzata nella trasmissione dei dati dei diversi protocolli di rete). In definitiva il numero totale dei campioni presenti nel training set è suddiviso tra le varie classi come segue:

Classe Tipo di traffico N° campioni
110 Pop3 1961
11863 MSN 10242
21 FTP 6296
25 SMTP 19427
6861 Bittorrent 5057
80 HTTP 7063
Totale delle istanze (campioni): 58478

Gli attributi (features) presenti in tale file sono i seguenti:

  • ID: rappresenta il numero sequenziale del campione
  • Size + segno: rappresentano la dimensione (payload-size) del pacchetto alla quale viene aggiunto un segno che indica la direzione del pacchetto: dal client verso il server (+) o dal server verso il client (-)
  • Classe di appartenenza

La classificazione

Un sistema di classificazione o di riconoscimento, considerato in senso ampio, ha il compito di fornire ad un utente (uomo o calcolatore) una valutazione della realtà fisica osservata e tale valutazione si avvale di una suddivisione della realtà (costituita da oggetti detti campioni o “pattern”) in insiemi, aventi caratteristiche omogenee, detti classi. L'obiettivo dell'analisi di classificazione è la verifica dell'esistenza di differenze tra le classi in funzione delle variabili considerate e la formulazione di un modello che sia in grado di assegnare ciascun campione alla classe cui esso appartiene.

La classificazione può essere di tipo supervisionato, nel qual caso l’insieme delle classi è definito a priori, oppure non supervisionato, nel qual caso è il classificatore che deve individuare le classi naturali presenti nei dati. Un metodo supervisionato ha il compito di decidere a quale classe di appartenenza (definita a priori) debba essere assegnato ciascun campione (“pattern”) basandosi sul vettore delle misure (“feature”) fornito in ingresso al sistema di classificazione.

Al termine del processo di classificazione, il risultato da noi ottenuto può essere valutato dall'analisi di una tabella, detta "matrice di confusione" o "matrice di classificazione", nella quale sono visibili gli oggetti realmente appartenenti a ciascuna classe (classe vera) e gli oggetti assegnati a ciascuna classe dal modello (classe assegnata). Da questa matrice si deducono le percentuali di classificazione corretta (non error rate, NER%) totali e all'interno di ogni classe e del corrispondente errore di classificazione (error rate, ER%), che è complementare al NER%. In questo modo è possibile valutare gli eventuali errori di assegnazione degli oggetti alle varie classi.

I parametri di valutazione dei modelli di classificazione sopra descritti si riferiscono solo all'insieme di oggetti esaminato e sono una misura della capacità descrittiva del modello. Nell'analisi di classificazione è invece importante valutare...

Anteprima
Vedrai una selezione di 5 pagine su 19
Intelligenza artificiale - tesina Knime Pag. 1 Intelligenza artificiale - tesina Knime Pag. 2
Anteprima di 5 pagg. su 19.
Scarica il documento per vederlo tutto.
Intelligenza artificiale - tesina Knime Pag. 6
Anteprima di 5 pagg. su 19.
Scarica il documento per vederlo tutto.
Intelligenza artificiale - tesina Knime Pag. 11
Anteprima di 5 pagg. su 19.
Scarica il documento per vederlo tutto.
Intelligenza artificiale - tesina Knime Pag. 16
1 su 19
D/illustrazione/soddisfatti o rimborsati
Acquista con carta o PayPal
Scarica i documenti tutte le volte che vuoi
Dettagli
SSD
Ingegneria industriale e dell'informazione ING-INF/05 Sistemi di elaborazione delle informazioni

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher Menzo di informazioni apprese con la frequenza delle lezioni di Intelligenza Artificiale e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli studi di Napoli Federico II o del prof Sansone Carlo.
Appunti correlati Invia appunti e guadagna

Domande e risposte

Hai bisogno di aiuto?
Chiedi alla community