Estratto del documento

CRISP (Cross-Industry Standard Process for Data Mining)

La domanda che ci potremmo porre è “perché dovrebbe esistere un processo standard?”

Il presupposto di questa metodologia CRISP è che il processo del “Data Mining” deve essere reliable

(affidabile) e repeatable (ripetibile) da persone con un background di data mining ridotto.

La metodologia fornisce un framework per registrare esperienze, in modo tale da permettere di

replicare progetti. Aiuta alla pianificazione e gestione del progetto. Per nuovi utenti fornisce una specie

di “Comfort factor”: dimostrando la maturità del Data Mining e riducendo la dipendenza dalle “stars”.

CRIPS-DM

È un metodo di comprovata efficacia per l’esecuzione di operazioni di data mining. Come metodologia,

comprende descrizioni delle tipiche fasi di un progetto e delle attività incluse in ogni fase e fornisce una

spiegazione delle relazioni esistenti tra tali attività. Come modello di elaborazione, CRISP-DM fornisce

una panoramica del ciclo di vita del data mining.

Caratteristiche Principali:

- Non-proprietary (quindi framework non proprietario)

- usato nell’applicazione/industria neurale

- è un tool neutrale

- si concentra sulle “business issues” (questioni legati al business e all’azienda), oltre che all’analisi

tecnica. Questa metodologia è come uno standard ed è business oriented. Dà delle linee guida

- è un framework utile per guidare le analisi

- si basa sull’esperienza e fornisce “templates” per le analisi

Il modello del ciclo di vita è costituito da sei fasi con frecce

che indicano le dipendenze più importanti e frequenti tra le

diverse fasi. Possono essere ripetute ciclicamente con

l’obiettivo di revisionare e rifinire il modello previsionale:

- Business Understanding

- Data Understanding

- Data Preparation

- Modeling

- Evaluation

- Deployment

La sequenza delle fasi non è rigorosa. Nella maggior parte

dei progetti, infatti, ci si sposta avanti e indietro tra le fasi

in base alle necessità.

Il modello CRISP-DM è flessibile e può essere facilmente personalizzato. Se, ad esempio, l'azienda mira a

rilevare il riciclaggio di denaro, è probabile che saranno passate in rassegna enormi quantità di dati

senza uno specifico obiettivo di modellazione. Invece che sulla modellazione, il lavoro si concentrerà

sulla visualizzazione e l'esplorazione dati al fine di individuare schemi sospetti nei dati finanziari. CRISP-

DM consente di creare modelli di data mining adeguati alle diverse esigenze.

In una situazione come quella citata, le fasi di modellazione, valutazione e distribuzione potrebbero

essere meno rilevanti di quelle di Data Understanding e Data Preparation. È tuttavia importante

analizzare alcune delle domande emerse durante le tre ultime fasi del progetto per una pianificazione a

lungo termine e futuri obiettivi di data mining.

FASI DEL CRISP-DM

Ogni fase è divisa in task, che sono le linee guida per organizzare il lavoro.

- Business Understanding: comprensione degli obiettivi e dei requisiti del progetto – Definizione del

problema di Data Mining

- Data Understanding: Raccolta dei dati iniziali e familiarizzazione con essi – Identificazione dei problemi

sulla qualità dei dati

- Data Preparation: Selezione di tabelle, record e attributi – Data trasformation e cleaning

- Modeling: Selezione delle tecniche di modellazione e applicazione delle stesse – Calibrazione dei

parametri

- Evaluation: Valutazione degli obiettivi di business e del loro raggiungimento

- Deployment: Deployment del modello risultante – Implementazione del processo di data mining

ripetibile

Fase 1 – Business Understanding

In questa fase si ragiona su:

- Obiettivo di business

- Obiettivo di Data Mining

- Criteri di successo

Si concentra sulla comprensione degli obiettivi e dei requisiti del progetto dal punto di vista aziendale,

quindi sulla conversione di queste conoscenze in una definizione del problema di data mining e in un

piano preliminare progettato per raggiungere gli obiettivi. In questo caso il focus è la “company”

Determinare gli obiettivi di business:

- comprendere a fondo, dal punto di vista aziendale, ciò che il cliente vuole veramente realizzare

- scoprire all'inizio importanti fattori che possono influenzare il risultato del progetto

- trascurare questo passaggio equivale a spendere molto sforzo nel produrre risposte giuste a domande

sbagliate

Assess situation (Valutare la situazione):

- accertamenti di fatti più dettagliati su tutte le risorse, i vincoli (constraints), i presupposti

(assumptions) e altri fattori che dovrebbero essere considerati

- arricchire i dettagli

Determine data mining goals:

- Un obiettivo di business stabilisce obiettivi nella terminologia aziendale

- un obiettivo del data mining indica obiettivi in termini tecnici.

ESEMPIO) Un obiettivo di business: "Aumentare le vendite del catalogo ai clienti esistenti". Un obiettivo

di data mining: "Prevedere quanti widget acquisterà un cliente, dati i suoi acquisti negli ultimi tre anni,

informazioni demografiche (età, stipendio, città) e il prezzo dell'articolo".

Produrre piano di progetto:

- descrivere il piano previsto per il raggiungimento degli obiettivi di data mining e degli obiettivi di

business

- il piano dovrebbe specificare la serie di steps anticipata da eseguire durante il resto del progetto,

inclusa una selezione iniziale di strumenti e tecniche

Fase 2 – Data Understanding

In questa fase si ragiona su:

- Esplorare i dati

- Verificare la qualità (dei dati)

- Trovare i valori anomali (outliers)

Inizia con una raccolta iniziale di dati e procede con le attività al fine di acquisire familiarità con i dati,

identificare i problemi di qualità dei dati, scoprire i primi approfondimenti sui dati o rilevare sottoinsiemi

interessanti per formare ipotesi per informazioni nascoste.

Collect initial data:

- acquisire all'interno del progetto i dati elencati nelle risorse del progetto

- include il caricamento (loading) dei dati se necessario per il data understanding

- eventualmente porta a fasi iniziali di preparazione dei dati

- se si acquisiscono dati da più origini, un ulteriore problema è l'integrazione da fare qui o nella

successiva fare di “data preparation”

Descrivere i dati:

- esaminare le proprietà "grossolane" o "superficiali" dei dati acquisiti

- riportare il tutto nei risultati (documentare)

Esplora i dati:

- affronta le domande sul data mining, che possono essere affrontate utilizzando query, visualizzazione e

report, tra cui:

- distribuzione di attributi chiave, attraverso aggregazioni;

- relazioni tra coppie di attributi

- proprietà di sottopopolazioni significative

- può indirizzare direttamente gli obiettivi del datamining

- può contribuire alla descrizione dei dati e ai rapporti sulla qualità

- può alimentare la trasformazione e la preparazione necessaria dei dati

Verificare la qualità dei dati:

- esaminare la qualità dei dati, affrontando domande come: "I dati sono completi?", Ci sono valori

mancanti nei dati? "

Fase 3 – Data Preparation

Occupa di solito il 90% del tempo

- Collezione

- Valutazione

- Consolidamento e pulizia

- Selezione dei dati

- Trasformazioni

Copre tutte le attività per costruire il set di dati finale dai dati grezzi iniziali. È probabile che le attività di

preparazione dei dati vengano eseguite più volte e non nell'ordine prescritto. Le attività includono la

selezione di tabelle, record e attributi, nonché la trasformazione e la pulizia dei dati per gli strumenti di

modellazione.

Select data:

- decidere i dati da utilizzare per l'analisi

- i criteri includono la pertinenza rispetto agli obiettivi del data mining, i vincoli di qualità e tecnici come

limiti sul volume o sui tipi di dati

- copre la selezione degli attributi e la selezione dei record appartenenti ad una tabella

Clean Data: elevare la qualità dei dati al livello richiesto dalle tecniche di analisi selezionate - possono

comportare la selezione di sottoinsiemi puliti dei dati, l'inserimento di valori predefiniti adeguati o

tecniche più ambiziose come la stima dei dati mancanti mediante la modellazione

Construct data:

- operazioni costruttive di preparazione dei dati come la produzione di attributi derivati, interi nuovi

record o valori trasformati per attributi esistenti

Integrazione dati:

- metodi in base ai quali le informazioni vengono combinate da più tabelle o record per creare nuovi

record o valori

Format data:

- il formato delle trasformazioni si riferisce principalmente a modifiche sintattiche apportate ai dati che

non ne cambiano il significato, ma potrebbero essere richieste dallo strumento di modellazione

Fase 4 – Modeling

- Seleziona la tecnica di modellazione: in base agli obiettivi di data mining

- Costruisci il modello: Impostazioni dei parametri

- Valuta modello: classifica i modelli

Vengono selezionate e applicate varie tecniche di modellazione e i loro parametri sono calibrati su valori

ottimali. Alcune tecniche hanno requisiti specifici sulla forma dei dati. Pertanto, è spesso necessario

tornare alla fase di preparazione dei dati.

Select modeling technique: seleziona la tecnica di modellazione effettiva da utilizzare ad es. Albero

decisionale, rete neurale. Se vengono applicate più tecniche, eseguire questa attività per ciascuna

tecnica separatamente

Generate test design: Prima di creare effettivamente un modello, generare una procedura o

meccanismo per testare la qualità e la validità del modello. Per esempio, nella classificazione, è comune

utilizzare i tassi di errore (error rates) come misure di qualità per i modelli di data mining. Pertanto, in

genere separare il set di dati in training e set di test, costruire il modello sul set di traiing e stimarne la

qualità sul set di test separatamente

Build model: eseguilo sul dataset preparato al fine di creare uno o più modelli. di modellazione sul set di

dati preparato per creare uno o più modelli

Asses model: interpreta i modelli in base al dominio di conoscenze, ai criteri di successo del data mining

e al test di progettazione desiderato. Giudica il successo dell'applicazione della modellazione e le

tecniche di scoperta più tecnicamente. Contatta gli analisti del business e gli esperti del dominio in un

secondo momento per discutere i risultati del data mining nel contesto aziendale. Considera solo i

modelli mentre la fase di valutazione tiene conto anche di tutti gli altri risultati prodotti nel corso del

progetto

Fase 5 – Evaluation

Dobbiamo stabilire come valutare il modello. Se in questo punto falliamo c’è un arco per tornare al

primo step nel workflow

- Valutazione del modello: quanto performa bene rispetto ai dati di test

- Metodi e criteri: dipendono dal tipo di modello

- Interpretazione del modello: importanza e complessità dipendono dall'algoritmo

Valuta attentamente il modello e rivedi i passaggi eseguiti per costruire il modello per essere certi di

raggiunge correttamente gli obiettivi di business. Un obiettivo chiave è determinare se vi sono

importanti problemi commerciali che non sono stati sufficientemente considerati. Alla fine di questa

fase, dovrebbe essere presa una decisione sull'uso dei risultati del data mining

Evaluate results: Valuta il grado in cui il modello soddisfa gli obiettivi aziendali. Cerca di determinare se

esiste qualche motivo commerciale per cui questo modello è carente. Verifica il modello/i sulle

applicazioni di test nell'applicazione reale se i limiti di tempo e budget lo consentono. Valuta anche altri

risultati di data mining generati: svela ulteriori sfide, informazioni o suggerimenti per direzioni future

Review process: Fare una revisione più approfondita dell'impegno del data mining al fine di determinare

se vi sono fattori o attività importanti che sono stati in qualche modo trascurati. Rivedere i problemi di

garanzia della qualità. Per esempio: Abbiamo costruito correttamente il modello?".

Determine next steps: In questa fase si decide come procedere, se terminare il progetto e passare alla

distribuzione se appropriato o se avviare ulteriori iterazioni o impostare nuovi progetti di data mining. Si

decide se includere analisi delle risorse rimanenti e del budget che influenza le decisioni.

Fase 6 – Deployment

In questa fase si determina come utilizzare i risultati; chi deve utilizzarli; con quale frequenza devono

essere utilizzati; Fare il deployment dei risultati di DataMining.

Le conoscenze acquisite dovranno essere organizzate e presentate in modo tale che il cliente possa

utilizzarle. Tuttavia, a seconda dei requisiti, la fase di implementazione può essere semplice come

generare un report o complessa come implementare un processo di data mining ripetibile in tutta

l'azienda.

Plan deployment: Al fine di distribuire i risultati del data mining nell'azienda, prende i risultati della

valutazione e conclude una strategia per l'implementazione. Documenta la procedura per

l'implementazione successiva

Plan monitoring and maintenance: Importante se i risultati del data mining diventano parte del business

quotidiano e dell'ambiente. Aiuta ad evitare inutilmente lunghi periodi di utilizzo errato dei risultati del

data mining. Richiede un processo di monitoraggio dettagliato. Tiene conto del tipo specifico di

implementazione

Produce final report: il responsabile del progetto e il suo team redigono un rapporto finale. Può essere

solo una sintesi del progetto e delle sue esperienze. Può essere una presentazione finale e completa dei

risultati del data mining

Review project: Valutare cosa è andato giusto e cosa è andato storto, cosa è stato fatto bene e cosa

deve essere migliorato

REWIND: perché fare CRISP-DM?

Il processo di data mining deve essere affidabile e ripetibile da persone con scarse competenze di data

mining

- CRISP-DM fornisce un framework uniforme per avere linee guida e la documentazione dell’esperienza

- CRISP-DM è flessibile nel tenere conto delle differenze: Problemi di business / agenzia diversi; Dati

diversi

CRISP-DM è il modello analitico più analizzato. La metodologia CRISP-DM è descritta in termini id un

modello di processo gerarchico, costituito da insiemi di attività prescritte a quattro livelli di astrazione

(da generale a specifico): fase, task generico, task specializzato, e istanza di processo.

Orizzontalmente, la metodologia CRISP-DM distingue tra il modello di riferimento e la guida per l'utente.

- Business understanding: Questa fase iniziale si concentra sulla comprensione degli obiettivi e dei

requisiti del progetto dal punto di vista aziendale, quindi sulla conversione di queste conoscenze in una

definizione del problema di data mining e in un piano preliminare progettato per raggiungere gli

obiettivi.

- Data understanding: La fase di comprensione dei dati inizia con la raccolta iniziale dei dati e procede

con le attività che consentono di acquisire familiarità con i dati, identificare i problemi di qualità dei dati,

scoprire i primi approfondimenti sui dati e / o rilevare sottoinsiemi interessanti per formare ipotesi

relative alle informazioni nascoste.

- Data preparation: La fase di preparazione dei dati copre tutte le attività necessarie per costruire il set

di dati finale [dati che verranno inseriti negli strumenti di modellazione] dai dati grezzi iniziali. È

probabile che le attività di preparazione dei dati vengano eseguite più volte e non nell'ordine prescritto.

Le attività includono la selezione di tabelle, record e attributi, nonché la trasformazione e la pulizia dei

dati per gli strumenti di modellazione.

- Modeling: In questa fase, vengono selezionate e applicate varie tecniche di modellazione e i loro

parametri sono calibrati su valori ottimali. In genere, esistono diverse tecniche per lo stesso tipo di

problema di data mining. Alcune tecniche hanno requisiti specifici sulla forma dei dati. Pertanto, è

spesso necessario tornare alla fase di preparazione dei dati.

- Evaluation: In questa fase del progetto, è stato creato un modello (o modelli) che sembra avere un'alta

qualità dal punto di vista dell'analisi dei dati. Prima di procedere alla distribuzione finale del modello, è

importante valutarlo attentamente e rivedere i passaggi eseguiti per crearlo, per essere certi che il

modello raggiunga correttamente gli obiettivi aziendali. Un obiettivo chiave è determinare se vi sono

importanti problemi commerciali che non sono stati sufficientemente considerati. Alla fine di questa

fase, dovrebbe essere presa una decisione sull'uso dei risultati del data mining.

- Deployment: La creazione del modello non è generalmente la fine del progetto. Anche se lo scopo del

modello è aumentare la conoscenza dei dati, le conoscenze acquisite dovranno essere organizzate e

presentate in modo tale che il cliente possa utilizzarle. Spesso comporta l'applicazione di modelli "live"

all'interno dei processi decisionali di un'organizzazione, ad esempio personalizzazione in tempo reale

delle pagine Web o punteggio ripetuto dei database di marketing. A seconda dei requisiti, la fase di

implementazione può essere semplice come generare un report o complessa quanto implementare un

processo di data mining ripetibile in tutta l'azienda. In molti casi, è il cliente, non l'analista di dati, che

esegue le fasi di implementazione. Tuttavia, anche se l'analista effettuerà lo sforzo di implementazione,

è importante che il cliente comprenda in anticipo quali azioni devono essere eseguite per utilizzare

effettivamente i modelli creati.

SVM (Support Vector M

Anteprima
Vedrai una selezione di 20 pagine su 133
Appunti Esame Data Mining 2 Pag. 1 Appunti Esame Data Mining 2 Pag. 2
Anteprima di 20 pagg. su 133.
Scarica il documento per vederlo tutto.
Appunti Esame Data Mining 2 Pag. 6
Anteprima di 20 pagg. su 133.
Scarica il documento per vederlo tutto.
Appunti Esame Data Mining 2 Pag. 11
Anteprima di 20 pagg. su 133.
Scarica il documento per vederlo tutto.
Appunti Esame Data Mining 2 Pag. 16
Anteprima di 20 pagg. su 133.
Scarica il documento per vederlo tutto.
Appunti Esame Data Mining 2 Pag. 21
Anteprima di 20 pagg. su 133.
Scarica il documento per vederlo tutto.
Appunti Esame Data Mining 2 Pag. 26
Anteprima di 20 pagg. su 133.
Scarica il documento per vederlo tutto.
Appunti Esame Data Mining 2 Pag. 31
Anteprima di 20 pagg. su 133.
Scarica il documento per vederlo tutto.
Appunti Esame Data Mining 2 Pag. 36
Anteprima di 20 pagg. su 133.
Scarica il documento per vederlo tutto.
Appunti Esame Data Mining 2 Pag. 41
Anteprima di 20 pagg. su 133.
Scarica il documento per vederlo tutto.
Appunti Esame Data Mining 2 Pag. 46
Anteprima di 20 pagg. su 133.
Scarica il documento per vederlo tutto.
Appunti Esame Data Mining 2 Pag. 51
Anteprima di 20 pagg. su 133.
Scarica il documento per vederlo tutto.
Appunti Esame Data Mining 2 Pag. 56
Anteprima di 20 pagg. su 133.
Scarica il documento per vederlo tutto.
Appunti Esame Data Mining 2 Pag. 61
Anteprima di 20 pagg. su 133.
Scarica il documento per vederlo tutto.
Appunti Esame Data Mining 2 Pag. 66
Anteprima di 20 pagg. su 133.
Scarica il documento per vederlo tutto.
Appunti Esame Data Mining 2 Pag. 71
Anteprima di 20 pagg. su 133.
Scarica il documento per vederlo tutto.
Appunti Esame Data Mining 2 Pag. 76
Anteprima di 20 pagg. su 133.
Scarica il documento per vederlo tutto.
Appunti Esame Data Mining 2 Pag. 81
Anteprima di 20 pagg. su 133.
Scarica il documento per vederlo tutto.
Appunti Esame Data Mining 2 Pag. 86
Anteprima di 20 pagg. su 133.
Scarica il documento per vederlo tutto.
Appunti Esame Data Mining 2 Pag. 91
1 su 133
D/illustrazione/soddisfatti o rimborsati
Acquista con carta o PayPal
Scarica i documenti tutte le volte che vuoi
Dettagli
SSD
Scienze matematiche e informatiche INF/01 Informatica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher MeagerAxis_MB di informazioni apprese con la frequenza delle lezioni di Data Mining 2 e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Pisa o del prof Guidotti Riccardo.
Appunti correlati Invia appunti e guadagna

Domande e risposte

Hai bisogno di aiuto?
Chiedi alla community