Che materia stai cercando?

Anteprima

ESTRATTO DOCUMENTO

Importazione di tabelle

Immettere il nome della tabella da dare

Importazione di tabelle

Importazione di tabelle

La tabella MINING_DATA_APPLY è importata!!

Importazione di tabelle

Importare in modo analogo anche le tabelle

• MINING_DATA_BUILD.csv

• MINING_DATA_TEST.csv

Dopo averle importate l’utente dmuser dovrebbe avere le seguenti tre

tabelle.

Importazione di tabelle

Nota importante!!!

Nelle slide successive tutte le operazioni che vengono mostrate sulle viste:

• MINING_DATA_APPLY_V.csv

• MINING_DATA_BUILD_V.csv

• MINING_DATA_TEST_V.csv

Devono essere riprodotte sulle corrispondenti tabelle:

• MINING_DATA_APPLY.csv

• MINING_DATA_BUILD.csv

• MINING_DATA_TEST.csv

precedentemente create

Trasformare i dati

Visualizzatore di dati e di statistiche

•Cliccare sul nome di una tabella o di una vista per visualizzare la

struttura

Trasformare i dati

Visualizzatore di dati e di statistiche

•Cliccare sulla voce “Data” per visualizzare i dati della tabella/vista

Trasformare i dati

Visualizzatore di dati e di statistiche

•Cliccare col tasto destro del mouse sul nome della tabella o vista,

verrà visualizzato un menu a tendina con altre opzioni

Trasformare i dati

Visualizzatore di dati e di statistiche

•Per visualizzare un resoconto statistico dei dati, cliccare “Show

Summary Single-Record”

Trasformare i dati

Visualizzatore di dati e di statistiche

Trasformare i dati

Visualizzatore di dati e di statistiche

•Per visualizzare la distribuzione dei valori di un attributo occorre

selezionarlo e cliccare “Histogram”. I valori vendono divisi in range

(detti bin). Gli attributi numerici vengono divisi in bin di uguale

ampiezza, gli attributi categorici sono suddivisi utilizzando il

metodo “Top N” (dove N è il numero totale di bin).

Trasformare i dati Filtrare singoli record

•Si supponga di voler concentrare l’attenzione sui clienti che

hanno un’età compresa tra i 21 e i 35 anni.

•Cliccare col tasto desto del mouse sul nome della tabella per

accedere al wizard che si occupa della trasformazione

•Selezionare “Transformations” dal menu “Data” e quindi scegliere

“Filter Single-Record” per lanciare il wizard

Trasformare i dati Trasformazione dei dati

•Il wizard richiede di selezionare a tabella, dare un nome alla

nuova tabella creata e specificare le condizioni di filtro tramite

menu grafico

Trasformare i dati Trasformare i campi

•Il processo di trasformazione dei campi permette di rimpiazzare i

valori degli attributi con nuovi valori (dividere i dati in fasce)

•Selezionare “Transform” dal menu “Data” e quindi scegliere

“Recode”.

Trasformare i dati Trasformare i campi

•Seguire i passi del wizard per selezionare la tabella d’origine,

scegliere il nome della nuova tabella, selezionare l’attributo da

ridefinire e scegliere l’operazione di trasformazione attraverso

un’interfaccia grafica Se il valore è

minore di 10

viene inserito

‘LOW’ altrimenti

viene

inserito‘HIGH’

Trasformare i dati Costruire nuovi campi

•Quando vengono preparati i dati per un processo di data mining,

è spesso necessario derivare una nuova colonna dalle colonne

esistenti

•Per effettuare tale tipo di operazione selezionare “Transform” dal

menu “Data” e quindi scegliere “Compute Field”

Trasformare i dati Costruire nuovi campi

•I passi del wizard permetteranno di scegliere la tabella di origine,

specificare il nome della nuova tabella costruita e definire

(attraverso un’interfaccia grafica) la nuova colonna Cliccare su New

per creare la

nuova colonna

tramite

l’interfaccia

grafica

Trasformare i dati Creare una vista dei dati

•E` spesso utile combinare i dati da differenti tabelle relazionali

•Selezionare “Create View” dal menu “Data”

Trasformare i dati Creare una vista dei dati

•Cliccare sul segno “+” accanto alla connessione di database ed

espandere la lista ad albero degli schemi disponibili.

•Espandere gli schemi per identificare le tabelle e le viste

disponibili.

•Fare doppio click sul nome della tabella o vista che si intende

selezionare per portarla nell’area di lavoro a destra

•Cliccare sulle checkbox accanto ai nomi degli attributi per

includere i corrispettivi campi sulla vista

•E`possibile effettuare delle join tra tabelle

Attribute Importance Avviare la procedura

•Se i dati hanno troppi attributi, è probabile che non tutti sono utili

per predire un modello; infatti, alcuni possono semplicemente

contenere del “rumore”

•Per avviare tale funzione cliccare su “Activity->Build”

Attribute Importance Configurazione

•Selezionare “Attribute Importance”

Attribute Importance Configurazione

•Selezionare L’attributo target e cliccare su “Next”

•Completare il resto del wizard inserendo il nome dell’attività e

cliccare su “Finish” per avviare la procedura

Attribute Importance Visualizzare i risultati

•Quando tutti i passi vengono completati, cliccare su “Result” nella

voce “Build” per visualizzare il grafico contenente la lista degli

attributi classificati per importanza

Attribute Importance Visualizzare i risultati

Classificazione Configurazione

•Oracle Data Mining fornisce quattro metodi per risolvere i

problemi di classificazione, in questa guida sarà illustrato

l’algoritmo “Naive Bayes”

Classificazione Configurazione

•Seguire il wizard, nell’ultima schermata selezionare “Advanced

Settings”

Classificazione Configurazione

•La voce “Sample” non `e abilitata. Infatti Oracle Data Mining è

scalabile per tabelle di qualsiasi dimensione; tuttavia, se vi sono

delle limitazioni hardware potrebbe essere preferibile abilitare tale

voce Selezionando “Random” si

sceglie un numero di casi

che hanno

approssimativamente la

stessa distribuzione del

valore target dei dati

originali

Selezionando “Stratified” si

sceglie un numero di casi

che hanno

approssimativamente lo

stesso numero dei casi per

ciascun valore target. E`

consigliabile utilizzare tale

metodo solo in situazioni in

cui il valore target

interessante è raro

Classificazione Configurazione

•Nella voce “Discretize” è possibile gestire la discretizzazione dei

dati. I dati numerici saranno raggruppati in range di valori, i dati

categorici saranno divisi in gruppi (o bin), uno per ciascun valore

E` possibile scegliere il

raggruppamento numerico tra

“Quantile” che crea bin con

un numero di casi circa uguali

su ciascun bin e “Equi-width”

che crea bin di ampiezza

identica indipendentemente

dal numero di casi di ciascun

bin (tenere conto che tale

strategia potrebbe anche

creare dei bin vuoti)

Classificazione Configurazione

•Attraverso la voce “Split” è possibile modificare la percentuale dei

casi destinati a testare il modello (detti dataset di test) e dei casi

destinati alla costruzione del modello di classificazione

Classificazione Configurazione

•Nella voce “Build” si trovano due sotto-voci: “General” e “Algorithm

Setting”.

Dal pannello “General” è possibile scegliere se preferire un’accuratezza

media migliore o un’accuratezza globale migliore; dal pannello

“Algorithm Setting”, invece, è possibile gestire ed eliminare rari e

possibili casi di “rumore”

Classificazione Configurazione

•Nella voce “Test Metrics” sono disponibili metriche di controllo per

il problema di classificazione ROC è un metodo che

sperimenta l’analisi “what

if”: se la soglia di

probabilità viene cambiata,

come questa influenza il

modello?

La Confusion Matrix indica

il tipo di errori che il

modello è predisposto a

fare

Lift è un tipo differente di

test e misura quanto

“velocemente” il modello

trova i valori target

realmente positivi

Classificazione Visualizzare i risultati

•Per avviare la procedura cliccare su “ok” per terminare il wizard di

configurazione

•Quando tutti i passi vengono eseguiti cliccare su “Result” nella

voce “Test Metric”

Classificazione Visualizzare i risultati

•“Predictive Confidence” è un’indice della efficacia del modello

Classificazione Visualizzare i risultati

•“Accuracy” mostra differenti interpretazioni dell’accuratezza del

modello quando applicato ai dataset di test. Nei dataset di test il

valore dell’attributo target è conosciuto, così le predizioni possono

essere confrontate col valore reale

Classificazione Visualizzare i risultati

•Cliccando sulla checkbox “Show Cost” si ha un’altra misura di

accuratezza. Minore è tale misura, migliore sarà il modello.

•Cliccando su “More Detail” verrà visualizzata la Confusion Matrix,

questa mostra le tipologie di errori che possono capitare

utilizzando il modello La Confusion Matrix

viene calcolata

applicando il modello al

dataset di test. I valori

dell’attributo target sono

conosciuti e vengono

rappresentati da righe,

le colonne

rappresentano

predizioni effettuate dal

Classificazione Visualizzare i risultati

•La pagina “Lift” mostra due grafici che denotano differenti

interpretazioni dei calcoli lift. Oracle Data Mining applica il modello sui

dataset di test e ordina i risultati per probabilità e suddivide la lista in

parti eguali (detti Quantile - il numero totale di Quantile di default `e

pari a 10) e conta i reali-positivi in ciascun Quantile I risultati di questo test

indicano l’incremento di

valori positivi che si

ottengono considerando

la percentuale di clienti

che statisticamente,

secondo le predizioni

del modello, hanno

probabilità maggiore di

rispondere

positivamente, rispetto

al caso in cui viene

selezionata una

percentuale di clienti

completamente random

Classificazione Visualizzare i risultati

•La finestra “ROC” esplora possibili cambiamenti nei parametri del

modello. La metrica “ROC” osserva come differenti impostazioni

sul modello hanno effetto sulla Confusion Matrix Muovendo la linea

verticale rossa è

possibile osservare i

cambiamenti della

Confusion Matrix

Classificazione Visualizzare i risultati

•La finestra precedente rappresenta un’area di test per trovare la

configurazione più appropriata, per rendere la configurazione

permanente cliccare su “Select ROC Threshold”


PAGINE

86

PESO

3.23 MB

AUTORE

Atreyu

PUBBLICATO

+1 anno fa


DESCRIZIONE DISPENSA

Questo materiale didattico è una presentazione Power Point su Installazione ed utilizzo di ODM per Oracle 11gR2. Viene illustrato l'utilizzo di ODM con degli schemi d’esempio:
- Creazione utente
- Connessione
- Importazione di tabelle
- Trasformare i dati
- Attribute Importance
- Classificazione
- Regressione
- Clustering
- Regole Associative
- Anomaly detection
- Feature Extraction.


DETTAGLI
Corso di laurea: Corso di laurea in ingegneria delle telecomunicazioni
SSD:
A.A.: 2011-2012

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher Atreyu di informazioni apprese con la frequenza delle lezioni di Sistemi informativi e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Mediterranea - Unirc o del prof Ursino Domenico.

Acquista con carta o conto PayPal

Scarica il file tutte le volte che vuoi

Paga con un conto PayPal per usufruire della garanzia Soddisfatto o rimborsato

Recensioni
Ti è piaciuto questo appunto? Valutalo!

Altri appunti di Sistemi informativi

Oracle Data Integrator
Dispensa
Project Management
Dispensa
ISIPM Certificazione
Dispensa
PM Certificazioni Internazionali
Dispensa