Data Analystics
Bimbati Alan
Contents
I Introduzione 3
0.1 Alcuni esempi . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
0.2 Tecniche di Machine Learning . . . . . . . . . . . . . . . . . . 4
0.3 Inductive Learning . . . . . . . . . . . . . . . . . . . . . . . . 4
1 Data set 5
1.1 Training Set . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2 Validation Set . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.1 Cross Validation Set . . . . . . . . . . . . . . . . . . . 5
1.3 Test set . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3.1 Esempio . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2 Alberi di decisione 8
3 Reti bayesiane 8
4 Linguaggi Proposizionali 9
5 Linguaggi di Primo Ordine 9
6 Metodo di valutazione 10
7 Calcolo Combinatorio 11
7.1 Regola della somma . . . . . . . . . . . . . . . . . . . . . . . 11
7.2 Regola del prodotto . . . . . . . . . . . . . . . . . . . . . . . 11
8 Apprendimento di Ricerca 12
8.1 Update-S . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
8.2 Update-G . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
9 Attributi mancanti 13
10 c4.5 14
1
11 Dimensione dell’albero di decisione 14
12 Ridurre la dimensione dell’albero 15
12.1 Pessimistic pruning . . . . . . . . . . . . . . . . . . . . . . . . 15
13 ARFF 17
14 Inferenza 17
15 Nomenclatura 18
II Reti Bayesiane 19
16 Come costruire la rete 19
17 Indipendenza tra i nodi 19
18 Markov Blanket 20
19 Marker Netwroks (MN) 20
2
Part I
Introduzione
Il Machine Learning é nato negli anni ’60-’70. Esso é la costruzione o la
modifica di un qualcosa attraverso l’esperienza.
Essa si divide in
• Estrazione di conoscenza, per classificare un sistema o per essere
presentato ad un umano
• Miglioramento delle performance di una macchina, per esempio
il miglioramento del movimento di un robot.
0.1 Alcuni esempi
• Spam, riconoscere che un’indirizzo e-mail é o non é un messaggio di
spam (problema di classificazione).
• Suggerimenti delle ricerche, Google riconosce e personalizza le
ricerche attraverso un periodico apprendimento.
• Ricerca dei documenti, ricercare in breve tempo un determinato
file in una grande quantitá.
• Sistemi di raccomandazione, suggerimenti di prodotti correlati,
un esempio é Amazon che apprende quali sono i vostri interessi e vi
consiglia quali prodotti potrebbero interessarvi.
• Computer vision, estrarre delle informazioni da immagini (riconosci-
mento facciale, o di oggetti)
• Elaborazione del linguaggio naturale, la comprensione di un lin-
guaggio naturale (italiano, inglese ecc...)
• Bioinformatica, analizza dati come DNA, molecole ecc... per rac-
cogliere un grande insieme di dati e riconoscerli.
• Chemioinformatica... 3
0.2 Tecniche di Machine Learning
• Tecniche simboliche, rappresentano un linguaggio (Applicazioni A
e B)
– Proposizionale
– Di primo ordine
• Tecniche statistiche, si basano su dati statistici (applicazioni A e
B) – Proposizionale
– Di primo ordine
• Reti neurali, sono tecniche particolari per cui distinguono diversi
pesi (applicazioni B)
0.3 Inductive Learning 4
1 Data set
Nelle tecniche di Machine Learning si hanno 3 tipi di data set:
• Training Set
• Validation Set
• Test Set
1.1 Training Set
É un insieme di dati utili per classificarli in modo discreto, in poche parole
data una tabella di dati, la macchina ”impara” a riconoscerli. Piú é grande
l’insieme, piú é accurata la classificazione, per questo motivo solitamente é
il ”set” piú grande dei 3.
L’output di questo algoritmo, é un vettore di metadata contenenti le
proprietá di classificazione del training set.
1.2 Validation Set
É una tecnica per controllare dei parametri del training set, viene infatti
utilizzato insieme al training set, la tecnica piú comune é il cross validation
set
1.2.1 Cross Validation Set
É una tecnica di validazione statistica per fare delle predizioni sui test.
1.3 Test set
É l’ultimo dei tre, infatti viene utilizzato solo dopo il training e il valida-
tion set, perché é una verifica che le classificazioni sono corrette. In caso
l’output sia negativo, si fa back tracking al training set, e si ripete succes-
sivamente il test. Il
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.