Anteprima
Vedrai una selezione di 8 pagine su 35
Ingegneria della conoscenza - strumenti di supporto alle decisioni Pag. 1 Ingegneria della conoscenza - strumenti di supporto alle decisioni Pag. 2
Anteprima di 8 pagg. su 35.
Scarica il documento per vederlo tutto.
Ingegneria della conoscenza - strumenti di supporto alle decisioni Pag. 6
Anteprima di 8 pagg. su 35.
Scarica il documento per vederlo tutto.
Ingegneria della conoscenza - strumenti di supporto alle decisioni Pag. 11
Anteprima di 8 pagg. su 35.
Scarica il documento per vederlo tutto.
Ingegneria della conoscenza - strumenti di supporto alle decisioni Pag. 16
Anteprima di 8 pagg. su 35.
Scarica il documento per vederlo tutto.
Ingegneria della conoscenza - strumenti di supporto alle decisioni Pag. 21
Anteprima di 8 pagg. su 35.
Scarica il documento per vederlo tutto.
Ingegneria della conoscenza - strumenti di supporto alle decisioni Pag. 26
Anteprima di 8 pagg. su 35.
Scarica il documento per vederlo tutto.
Ingegneria della conoscenza - strumenti di supporto alle decisioni Pag. 31
1 su 35
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

DATA WAREHOUSE - Generazione di alberi decisionali

• ID3 (Iterative Dichotomizer) - Ross Quinlan (1982)

• derivato da CLS (Concept Learning System) - Hunt (1966)

• Input = tabella

• Output = procedura decisionale rappresentabile come:

  • regole
  • albero
  • procedura

Albero generato da ID3:

statura   capelli   occhi   aspetto
basso     biondi    blu     bello
alto      biondi    scuri   brutto
alto      rossi     blu     bello
basso     scuri     blu     brutto
alto      biondi    blu     bello
alto      scuri     blu     brutto
alto      scuri     blu     brutto
basso     biondi    scuri   brutto

L'idea base di ID3:

  • cercare l'attributo più simile al concetto da apprendere (cioè la colonna "bellezza")
  • considerare la frequenza di ogni valore possibile ("alto", "basso",...)
  • scegliere l'attributo che discrimina meglio
  • ripartire daccapo considerando la sotto-tabella rimanente
  • finché ottengo una sotto-tabella vuota

Teoria dell'informazione di Shannon:

su 8 esempi,

3 sono di belli e 5 di brutti-3/8 log 3/8 - 5/8 log 5/8 = 0.954 bit2 quindi ho un'informazione di 0.954 bits. Quanto conta la statura? - media pesata degli alti belli rispetto ai brutti: belli5/8 * 0.971 + 3/8 * 0.918 = 0.951 bit. L'attributo che conta di più è "capelli". Si genera il nodo "capelli" e si riparte. Esercizio: - Visitare http://www.planasia.it/DemoMine.html - Definire interattivamente il concetto da far apprendere - Analizzare le tre forme di conoscenza generata - Riuscite a generare la regola "sei malato se hai la febbre oppure se starnutisci"? Apprendimento non-supervisionato: - Sistema in grado di creare tassonomie a partire da un insieme di dati "sciolti" - Vengono notate le similarità fra i dati - Viene scoperta l'esistenza di categorie - Si forma una partizione (clustering) dei dati - I dati appartenenti alla stessa classe Tassonomia
  • "Cluster" (R. Michalski, 1983)
  • "Unimem" (M. Lebowitz, 1986)
  • "Cobweb" (D. Fisher, 1987)

Approfondiamo Unimem

L'input è una tabella "disordinata"

fiat_tipo cc1600 abbordabile posti(5) porte(5) consumo(medio)
renault_clio economica corta cc1200 posti(5) porte(3) consumo(basso)
jeep non_veloce cc2000 alta porte(5) cara consumo(alto)
subaru_legacy lunga cara veloce cc2000 posti(5) consumo(medio) vol2
renault_19 abbordabile cc1400 posti(5) porte(5) consumo(medio)
toyota_4x4 cara non_veloce cc2500 alta porte(5) consumo(alto)
citroen_zx abbordabile cc1600 posti(5) porte(5) consumo(medio)
opel_omegaSW cara veloce lunga cc2000 posti(5) consumo(medio) vol2
rolls_royce carissima lunga vol3 posti(5) porte(4) consumo(alto)
peugeot_205 corta cc1000 posti(5) economica porte(3) consumo(basso)
range_rover cara

alta, cc2500, posti(6), porte(5), consumo(alto)

vw_golf abbordabile, cc1600, posti(5), porte(5), consumo(medio)

fiat_uno economica, cc1100, posti(5), porte(3), consumo(basso)

porshe carissima, velocissima, cc3600, posti(2), porte(2), consumo(alto)

fiat_tempra_SW lunga, cara, veloce, cc1800, consumo(medio), vol2

renault_nevada cara, veloce, cc2000, posti(7), consumo(medio), lunga, vol2

mercedes_500 carissima, vol3, cc5000, posti(5), porte(4), consumo(alto)

ferrari carissima, velocissima, cc5000, posti(2), porte(2), consumo(alto)

Cos'ha scoperto ?

radice [ ]

range_rover renault_nevada

classe_a [abbordabile,posti(5),porte(5),consumo(medio)]

renault_19 /* e' una 1400 cc */

classe_c [cc1600]

fiat_tipo citroen_zx vw_golf

classe_b [cara,non_veloce,alta,porte(5),consumo(alto)]

jeep toyota_4x4

classe_d [cara,veloce,lunga,cc2000,posti(5),consumo(medio),vol2]

subaru_legacy opel_omegaSW fiat_tempra_SW

classe_e [corta,posti(5),economica,porte(3),consumo(basso)]

renault_clio peugeot_205 fiat_uno

classe_f

[carissima,vol3,posti(5),porte(4),consumo(alto)]rolls_royce mercedes_500classe_g

[carissima,velocissima,posti(2),porte(2),consumo(alto)]porshe ferrari

Dettagli
Publisher
A.A. 2012-2013
35 pagine
SSD Ingegneria industriale e dell'informazione ING-INF/05 Sistemi di elaborazione delle informazioni

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher Menzo di informazioni apprese con la frequenza delle lezioni di Ingegneria della conoscenza e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi dell' Insubria o del prof Mazzetti Alessandro.