Estratto del documento

Data Analystics

Bimbati Alan

Contents

I Introduzione 3

0.1 Alcuni esempi . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

0.2 Tecniche di Machine Learning . . . . . . . . . . . . . . . . . . 4

0.3 Inductive Learning . . . . . . . . . . . . . . . . . . . . . . . . 4

1 Data set 5

1.1 Training Set . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.2 Validation Set . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.2.1 Cross Validation Set . . . . . . . . . . . . . . . . . . . 5

1.3 Test set . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.3.1 Esempio . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2 Alberi di decisione 8

3 Reti bayesiane 8

4 Linguaggi Proposizionali 9

5 Linguaggi di Primo Ordine 9

6 Metodo di valutazione 10

7 Calcolo Combinatorio 11

7.1 Regola della somma . . . . . . . . . . . . . . . . . . . . . . . 11

7.2 Regola del prodotto . . . . . . . . . . . . . . . . . . . . . . . 11

8 Apprendimento di Ricerca 12

8.1 Update-S . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

8.2 Update-G . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

9 Attributi mancanti 13

10 c4.5 14

1

11 Dimensione dell’albero di decisione 14

12 Ridurre la dimensione dell’albero 15

12.1 Pessimistic pruning . . . . . . . . . . . . . . . . . . . . . . . . 15

13 ARFF 17

14 Inferenza 17

15 Nomenclatura 18

II Reti Bayesiane 19

16 Come costruire la rete 19

17 Indipendenza tra i nodi 19

18 Markov Blanket 20

19 Marker Netwroks (MN) 20

2

Part I

Introduzione

Il Machine Learning é nato negli anni ’60-’70. Esso é la costruzione o la

modifica di un qualcosa attraverso l’esperienza.

Essa si divide in

• Estrazione di conoscenza, per classificare un sistema o per essere

presentato ad un umano

• Miglioramento delle performance di una macchina, per esempio

il miglioramento del movimento di un robot.

0.1 Alcuni esempi

• Spam, riconoscere che un’indirizzo e-mail é o non é un messaggio di

spam (problema di classificazione).

• Suggerimenti delle ricerche, Google riconosce e personalizza le

ricerche attraverso un periodico apprendimento.

• Ricerca dei documenti, ricercare in breve tempo un determinato

file in una grande quantitá.

• Sistemi di raccomandazione, suggerimenti di prodotti correlati,

un esempio é Amazon che apprende quali sono i vostri interessi e vi

consiglia quali prodotti potrebbero interessarvi.

• Computer vision, estrarre delle informazioni da immagini (riconosci-

mento facciale, o di oggetti)

• Elaborazione del linguaggio naturale, la comprensione di un lin-

guaggio naturale (italiano, inglese ecc...)

• Bioinformatica, analizza dati come DNA, molecole ecc... per rac-

cogliere un grande insieme di dati e riconoscerli.

• Chemioinformatica... 3

0.2 Tecniche di Machine Learning

• Tecniche simboliche, rappresentano un linguaggio (Applicazioni A

e B)

– Proposizionale

– Di primo ordine

• Tecniche statistiche, si basano su dati statistici (applicazioni A e

B) – Proposizionale

– Di primo ordine

• Reti neurali, sono tecniche particolari per cui distinguono diversi

pesi (applicazioni B)

0.3 Inductive Learning 4

1 Data set

Nelle tecniche di Machine Learning si hanno 3 tipi di data set:

• Training Set

• Validation Set

• Test Set

1.1 Training Set

É un insieme di dati utili per classificarli in modo discreto, in poche parole

data una tabella di dati, la macchina ”impara” a riconoscerli. Piú é grande

l’insieme, piú é accurata la classificazione, per questo motivo solitamente é

il ”set” piú grande dei 3.

L’output di questo algoritmo, é un vettore di metadata contenenti le

proprietá di classificazione del training set.

1.2 Validation Set

É una tecnica per controllare dei parametri del training set, viene infatti

utilizzato insieme al training set, la tecnica piú comune é il cross validation

set

1.2.1 Cross Validation Set

É una tecnica di validazione statistica per fare delle predizioni sui test.

1.3 Test set

É l’ultimo dei tre, infatti viene utilizzato solo dopo il training e il valida-

tion set, perché é una verifica che le classificazioni sono corrette. In caso

l’output sia negativo, si fa back tracking al training set, e si ripete succes-

sivamente il test. Il

Anteprima
Vedrai una selezione di 6 pagine su 21
Data mining Pag. 1 Data mining Pag. 2
Anteprima di 6 pagg. su 21.
Scarica il documento per vederlo tutto.
Data mining Pag. 6
Anteprima di 6 pagg. su 21.
Scarica il documento per vederlo tutto.
Data mining Pag. 11
Anteprima di 6 pagg. su 21.
Scarica il documento per vederlo tutto.
Data mining Pag. 16
Anteprima di 6 pagg. su 21.
Scarica il documento per vederlo tutto.
Data mining Pag. 21
1 su 21
D/illustrazione/soddisfatti o rimborsati
Acquista con carta o PayPal
Scarica i documenti tutte le volte che vuoi
Dettagli
SSD
Scienze matematiche e informatiche INF/01 Informatica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher alan.bimbati di informazioni apprese con la frequenza delle lezioni di Data mining e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Ferrara o del prof Riguzzi Fabrizio.
Appunti correlati Invia appunti e guadagna

Domande e risposte

Hai bisogno di aiuto?
Chiedi alla community