Intelligenza Artificiale - tesina

Tesina per il corso di Intelligenza Artificiale del prof. Sansone su: Rete Neurale MLP, Il Contest, Operazioni sul DataSet (File Reader, Shuffle e Normalizer), Feature Selection, Addestramento …

Esame Intelligenza Artificiale

Facoltà Ingegneria

Dal corso del Prof. Sansone Carlo

Università Università degli studi di Napoli Federico II

Publisher Daniele

A.A. 2012-2013

37 pagine

1 download

Appunto

Vota 3,0 / 5 (1)

Scarica

Estratto del documento

Analisi dei risultati dell'elaborazione

Il risultato dell'elaborazione restituisce un set di features di cardinalità (pari a 4) molto inferiore rispetto all'insieme iniziale di partenza (cardinalità pari a 21).

Dunque l'insieme di features ottenuto per noi rappresenta il sottoinsieme di caratteristiche del DS più discriminante; utilizzeremo questo risultato per eliminare dal DS l'insieme di colonne che non sono state selezionate in fase di features selection permettendo così sia di ridurre la quantità di dati su cui lavorare, senza degradare in maniera significativa la capacità di classificazione, e di ridurre il tempo di addestramento della rete neurale.

Illustrazione 6: DS dopo l'operazione di filtraggio

In fase di feature selection, per una maggiore garanzia dei risultati ottenuti, sono stati provati ulteriori algoritmi di ricerca oltre a quello Exhaustive search. Tali algoritmi sono il BestFirst, Genetic Search, GreedyStepwise e...

RankSearch i quali hanno prodotto i qualihanno prodotto i seguenti risultati: il BestFirst ha prodotto risultati uguali al metodoExhaustive Search; il Genetic Search insieme al GreedyStepwise hanno restituito comerisultato il segiente insieme di features "Pk_size1","Pk_size2","Pk_size3", "Pk_size4","Pk_size6" e "Pk_size8"; infine il RankSearch ha dato come risultato il seguente insieme "Pk_size1","Pk_size2","Pk_size3", "Pk_size5", "Pk_size6" e "Pk_size8". Per tale motivo11effettueremo l'addestramento della rete su questi 3 insiemi di features e a valle di ciò faremola nostra.Volendo analizzare in modo differente i risultati ottenuti faremo riferimento alla figura 7dove è riportato un grafico scatter sulle cui ascisse è stato posto la feature PK_size1 mentresulle ordinate PK_size2, ebbene notiamo come già queste

Due features permettono di discriminare tra due gruppi di classi. Il primo formato dalle classi di colore fucsia, giallo e blu, mentre il secondo dalle classi di colore rosso, verde e ciano. La situazione resta comunque un po' confusa.

Illustrazione 7: Scatter plot PK_size1, PK_size2

Arrestiamo qui l'analisi del DS per passare alla fase di addestramento delle rete neurale MLP sugli insiemi di features selezionati.

Addestramento rete neurale MLP

Passiamo ora, come già detto, alla fase di addestramento della rete neurale MLP. Ricordiamo che MLP sta per MultiLayerPerceptron ed è una rete a più strati o livelli (layers), per la precisione almeno 3: le componenti di un vettore di input X di cardinalità N entrano nell'layer di ingresso e si propagano, attraverso gli N neuroni che compongono questo strato, direttamente in quello successivo senza subire alcuna modifica (non sono quindi, a rigore, neuroni in senso stretto perché non effettuano alcuna).

elaborazione); esiste almeno un layer nascosto che “non vede” né gli ingressi né le uscite della rete; infine, il layer di uscita emette un vettore Y di cardinalità M che costituisce l'output della rete. Ciascun neurone (stiamo implicitamente escludendo quelli del primo strato) riceve un numero di ingressi pari al numero dei neuroni dello strato precedente - più naturalmente la solita Bias Unit – ed effettua il prodotto scalare tra tali ingressi e il proprio vettore dei pesi (rappresentativi della memoria locale del singolo percettrone) cui viene sommato il peso associato alla Bias Unit; calcolata questa combinazione, ad essa viene poi applicata la funzione di attivazione producendo l'uscita effettiva del neurone che si propaga nella rete esclusivamente in avanti (nessuna comunicazione laterale, quindi, tra neuroni dello stesso strato). La funzione di attivazione può essere di diversi tipi (e addirittura neuroni di strati diversi possono

avere funzioni di attivazione diverse) e non necessariamente lineare, il che costituisce il vero vantaggio del modello, dal momento che consente di risolvere anche problemi nonlinearmente separabili.

Per contro, il ricorso a funzioni di attivazione non lineari determina una forma diversa per la superficie di errore, che non è più necessariamente un paraboloide ma un agglomerato di monti e valli spesso molto complesso e irregolare, il che complica la ricerca del minimo soprattutto perché in generale si hanno più minimi locali...

L'addestramento di una rete MLP avviene mediante l'algoritmo di back-propagation (BP), che è supervisionato e rientra nella categoria del performance learning, ovvero è finalizzato alla minimizzazione dell'errore, che può essere definito come:

con Yj l'uscita attesa e Y'j quella effettiva del neurone j-esimo, con riferimento all'ingresso corrente X.

Dunque le elaborazioni sono state eseguite utilizzando il

Il seguente insieme di nodi così distribuiti nell'ambiente di Knime:

Illustrazione 8: Parte del progetto Knime che realizza la rete neurale

Si vede come a valle del nodo Partitioning, che esegue una suddivisione del DS filtrato in Test Set e Training Test Set (la prima partizione costituita dall'80% del DS è utilizzata per addestrare la rete mentre la seconda partizione formata dal 20% restante del DS è utilizzata per verificare la bontà del classificatore in termini di errore %), siano presenti due reti MLP caratterizzate entrambe da una stessa configurazione di ingresso tutto ciò al fine di poter plottare sia l'errore commesso sul TS che quello sul TTS e quindi osservare il numero di epoche in corrispondenza del quale si ha il minimo valore assoluto di errore di riconoscimento.

I test che seguiranno saranno divisi in tre gruppi dove ciascun gruppo sarà caratterizzato da un particolare insieme di features. Per ciascun gruppo verranno...

Eseguiti 4 test; a loro volta questi quattro test verranno suddivisi in due sottogruppi (ciascuno con 2 test) ognuno caratterizzato da una particolare configurazione data alla rete. Per gruppo di test verranno riportati i parametri per la configurazione della rete ed i risultati dell'elaborazione sia in forma numerica (riportando solo i valori medi) che in forma grafica. In ciascun test il DS è stato opportunamente mescolato.

GRUPPO A : FEATURES "Pk_size1","Pk_size2","Pk_size3" e "Pk_size8".

Abbiamo settato il nodo learner MultilayerPerceptron con i seguenti parametri:

hiddenlayer : a (numero di neuroni pari (#attributi+#classe)/2)
laerningrate : 0,5
momentum : 0,5

MediaEpoche	Errore % TTS	Errore % TS
25	20,35%	19,73%
50	19,93%	19,44%
75	19,71%	19,20%
100	19,67%	19,20%
125	19,46%	19,04%
150	19,44%	18,97%
175	19,43%	18,94%
200	19,45%	18,96%
225	19,36%	18,87%
250	19,32%	18,82%
275	19,35%	18,84%
300	19,31%	18,81%
325	19,34%	18,80%

18,84%350 19,39% 18,86%375 19,27% 18,73%400 19,32% 18,79%425 19,41% 18,86%450 19,25% 18,74%475 19,38% 18,84%500 19,43% 18,91%600 20,35% 19,73%700 19,93% 19,44%800 19,71% 19,20% 1617

GRUPPO A : FEATURES “Pk_size1”,“Pk_size2”,“Pk_size3” e “Pk_size8”.Abbiamo settando il nodo learner MultilayerPerceptron con i seguenti parametri:

hiddenlayer : t (numero di neuroni pari (#attributi+#classe))
laerningrate : 0,5
momentum : 0,5

MediaEpoche Errore % TTS Errore % TS

25 15,39% 15,35%

50 12,83% 12,93%

75 8,66% 8,73%

100 8,76% 8,75%

125 8,36% 8,26%

150 7,41% 7,45%

175 6,39% 6,22%

200 6,24% 6,22%

225 5,88% 5,96%

250 5,41% 5,53%

275 5,48% 5,51%

300 5,50% 5,56%

325 5,08% 5,24%

350 5,16% 5,30%

375 5,42% 5,52%

400 5,41% 5,52%

425 5,21% 5,33%

450 5,32% 5,42%

475 5,39% 5,50%

500 5,87% 5,35%

600 5,31% 5,39%

700 5,26% 5,32%

800 5,04% 5,06%

1819GRUPPO B : FEATURES “Pk_size1”,“Pk_size2”,“Pk_size3”, “Pk_size4”,

“Pk_size6” e“Pk_size8”

Abbiamo settando il nodo learner MultilayerPerceptron con i seguenti parametri:

hiddenlayer : a (numero di neuroni pari (#attributi+#classe)/2)
laerningrate : 0,5
momentum : 0,5

MediaEpoche	Errore % TTS	Errore % TS
25	9,61%	9,36%
50	9,09%	8,87%
75	8,95%	8,74%
100	8,55%	8,35%
125	8,42%	8,28%
150	8,36%	8,20%
175	8,37%	8,21%
200	8,42%	8,30%
225	8,49%	8,31%
250	8,43%	8,30%
275	8,33%	8,17%
300	8,29%	8,11%

202122GRUPPO B : FEATURES “Pk_size1”,“Pk_size2”,“Pk_size3”, “Pk_size4”, “Pk_size6” e“Pk_size8”

Abbiamo settando il nodo learner MultilayerPerceptron con i seguenti parametri:

hiddenlayer : t (numero di neuroni pari (#attributi+#classe))
laerningrate : 0,5
momentum : 0,5

MediaEpoche	Errore % TTS	Errore % TS
25	8,05%	7,89%
50	7,72%	7,30%
75	7,31%	7,08%
100	7,10%	6,85%
125	6,45%	6,23%
150	5,99%	6,00%
175	6,20%	6,01%
200	8,47%	8,43%
225	7,94%	7,80%
250	7,80%

7,90%275 5,39% 5,24%300 7,48% 7,11%325 5,35% 5,31%350 5,05% 4,95%375 5,54% 5,37%400 5,04% 4,91%425 5,37% 5,19%450 5,48% 5,27%475 4,67% 4,49%500 5,18% 4,93%600 5,38% 5,24%700 5,03% 4,80%800 4,60% 4,34% 2324

GRUPPO C : FEATURES “Pk_size1”,“Pk_size2”,“Pk_size3”, “Pk_size5”, “Pk_size6” e“Pk_size8”

Abbiamo settando il nodo learner MultilayerPerceptron con i seguenti parametri:

hiddenlayer : a (numero di neuroni pari (#attributi+#classe)/2)
laerningrate : 0,5
momentum : 0,5

MediaEpoche Errore % TTS Errore % TS

25 11,01% 11,00%

50 10,21% 10,16%

75 10,38% 10,30%

100 10,13% 10,03%

125 9,75% 9,66%

150 9,79% 9,74%

175 9,68% 9,64%

200 9,41% 9,35%

225 9,35% 9,35%

250 9,24% 9,22%

275 9,62% 9,51%

300 9,56% 9,50% 2526

GRUPPO C : FEATURES “Pk_size1”,“Pk_size2”,“Pk_size3”, “Pk_size5”, “Pk_size6” e“Pk_size8”

Abbiamo settando il nodo learner

MediaEpoche	Errore % TTS	Errore % TS
25	7,94%	7,89%
50	7,15%	7,25%
75	6,20%	6,16%
100	5,34%	5,40%
125	5,11%	5,14%
150	5,45%	5,44%
175	5,07%	5,04%
200	5,70%	5,63%
225	5,07%	5,02%
250	4,68%	4,59%
275	4,63%	4,49%
300	4,67%	4,47%
325	4,55%	4,37%
350	4,51%	4,31%
375	4,32%	4,05%
400	4,31%	4,

Anteprima

Vedrai una selezione di 9 pagine su 37