Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
DATA WAREHOUSE - Generazione di alberi decisionali
• ID3 (Iterative Dichotomizer) - Ross Quinlan (1982)
• derivato da CLS (Concept Learning System) - Hunt (1966)
• Input = tabella
• Output = procedura decisionale rappresentabile come:
- regole
- albero
- procedura
Albero generato da ID3:
statura capelli occhi aspetto basso biondi blu bello alto biondi scuri brutto alto rossi blu bello basso scuri blu brutto alto biondi blu bello alto scuri blu brutto alto scuri blu brutto basso biondi scuri brutto
L'idea base di ID3:
- cercare l'attributo più simile al concetto da apprendere (cioè la colonna "bellezza")
- considerare la frequenza di ogni valore possibile ("alto", "basso",...)
- scegliere l'attributo che discrimina meglio
- ripartire daccapo considerando la sotto-tabella rimanente
- finché ottengo una sotto-tabella vuota
Teoria dell'informazione di Shannon:
su 8 esempi,
3 sono di belli e 5 di brutti-3/8 log 3/8 - 5/8 log 5/8 = 0.954 bit2 quindi ho un'informazione di 0.954 bits. Quanto conta la statura? - media pesata degli alti belli rispetto ai brutti: belli5/8 * 0.971 + 3/8 * 0.918 = 0.951 bit. L'attributo che conta di più è "capelli". Si genera il nodo "capelli" e si riparte. Esercizio: - Visitare http://www.planasia.it/DemoMine.html - Definire interattivamente il concetto da far apprendere - Analizzare le tre forme di conoscenza generata - Riuscite a generare la regola "sei malato se hai la febbre oppure se starnutisci"? Apprendimento non-supervisionato: - Sistema in grado di creare tassonomie a partire da un insieme di dati "sciolti" - Vengono notate le similarità fra i dati - Viene scoperta l'esistenza di categorie - Si forma una partizione (clustering) dei dati - I dati appartenenti alla stessa classe- "Cluster" (R. Michalski, 1983)
- "Unimem" (M. Lebowitz, 1986)
- "Cobweb" (D. Fisher, 1987)
Approfondiamo Unimem
L'input è una tabella "disordinata"
fiat_tipo | cc1600 | abbordabile | posti(5) | porte(5) | consumo(medio) | ||
---|---|---|---|---|---|---|---|
renault_clio | economica | corta | cc1200 | posti(5) | porte(3) | consumo(basso) | |
jeep | non_veloce | cc2000 | alta | porte(5) | cara | consumo(alto) | |
subaru_legacy | lunga | cara | veloce | cc2000 | posti(5) | consumo(medio) | vol2 |
renault_19 | abbordabile | cc1400 | posti(5) | porte(5) | consumo(medio) | ||
toyota_4x4 | cara | non_veloce | cc2500 | alta | porte(5) | consumo(alto) | |
citroen_zx | abbordabile | cc1600 | posti(5) | porte(5) | consumo(medio) | ||
opel_omegaSW | cara | veloce | lunga | cc2000 | posti(5) | consumo(medio) | vol2 |
rolls_royce | carissima | lunga | vol3 | posti(5) | porte(4) | consumo(alto) | |
peugeot_205 | corta | cc1000 | posti(5) | economica | porte(3) | consumo(basso) | |
range_rover | cara |
alta, cc2500, posti(6), porte(5), consumo(alto)
vw_golf abbordabile, cc1600, posti(5), porte(5), consumo(medio)
fiat_uno economica, cc1100, posti(5), porte(3), consumo(basso)
porshe carissima, velocissima, cc3600, posti(2), porte(2), consumo(alto)
fiat_tempra_SW lunga, cara, veloce, cc1800, consumo(medio), vol2
renault_nevada cara, veloce, cc2000, posti(7), consumo(medio), lunga, vol2
mercedes_500 carissima, vol3, cc5000, posti(5), porte(4), consumo(alto)
ferrari carissima, velocissima, cc5000, posti(2), porte(2), consumo(alto)
Cos'ha scoperto ?
radice [ ]
range_rover renault_nevada
classe_a [abbordabile,posti(5),porte(5),consumo(medio)]
renault_19 /* e' una 1400 cc */
classe_c [cc1600]
fiat_tipo citroen_zx vw_golf
classe_b [cara,non_veloce,alta,porte(5),consumo(alto)]
jeep toyota_4x4
classe_d [cara,veloce,lunga,cc2000,posti(5),consumo(medio),vol2]
subaru_legacy opel_omegaSW fiat_tempra_SW
classe_e [corta,posti(5),economica,porte(3),consumo(basso)]
renault_clio peugeot_205 fiat_uno
classe_f
[carissima,vol3,posti(5),porte(4),consumo(alto)]rolls_royce mercedes_500classe_g
[carissima,velocissima,posti(2),porte(2),consumo(alto)]porshe ferrari