CRISP (Cross-Industry Standard Process for Data Mining)
La domanda che ci potremmo porre è “perché dovrebbe esistere un processo standard?”
Il presupposto di questa metodologia CRISP è che il processo del “Data Mining” deve essere reliable
(affidabile) e repeatable (ripetibile) da persone con un background di data mining ridotto.
La metodologia fornisce un framework per registrare esperienze, in modo tale da permettere di
replicare progetti. Aiuta alla pianificazione e gestione del progetto. Per nuovi utenti fornisce una specie
di “Comfort factor”: dimostrando la maturità del Data Mining e riducendo la dipendenza dalle “stars”.
CRIPS-DM
È un metodo di comprovata efficacia per l’esecuzione di operazioni di data mining. Come metodologia,
comprende descrizioni delle tipiche fasi di un progetto e delle attività incluse in ogni fase e fornisce una
spiegazione delle relazioni esistenti tra tali attività. Come modello di elaborazione, CRISP-DM fornisce
una panoramica del ciclo di vita del data mining.
Caratteristiche Principali:
- Non-proprietary (quindi framework non proprietario)
- usato nell’applicazione/industria neurale
- è un tool neutrale
- si concentra sulle “business issues” (questioni legati al business e all’azienda), oltre che all’analisi
tecnica. Questa metodologia è come uno standard ed è business oriented. Dà delle linee guida
- è un framework utile per guidare le analisi
- si basa sull’esperienza e fornisce “templates” per le analisi
Il modello del ciclo di vita è costituito da sei fasi con frecce
che indicano le dipendenze più importanti e frequenti tra le
diverse fasi. Possono essere ripetute ciclicamente con
l’obiettivo di revisionare e rifinire il modello previsionale:
- Business Understanding
- Data Understanding
- Data Preparation
- Modeling
- Evaluation
- Deployment
La sequenza delle fasi non è rigorosa. Nella maggior parte
dei progetti, infatti, ci si sposta avanti e indietro tra le fasi
in base alle necessità.
Il modello CRISP-DM è flessibile e può essere facilmente personalizzato. Se, ad esempio, l'azienda mira a
rilevare il riciclaggio di denaro, è probabile che saranno passate in rassegna enormi quantità di dati
senza uno specifico obiettivo di modellazione. Invece che sulla modellazione, il lavoro si concentrerà
sulla visualizzazione e l'esplorazione dati al fine di individuare schemi sospetti nei dati finanziari. CRISP-
DM consente di creare modelli di data mining adeguati alle diverse esigenze.
In una situazione come quella citata, le fasi di modellazione, valutazione e distribuzione potrebbero
essere meno rilevanti di quelle di Data Understanding e Data Preparation. È tuttavia importante
analizzare alcune delle domande emerse durante le tre ultime fasi del progetto per una pianificazione a
lungo termine e futuri obiettivi di data mining.
FASI DEL CRISP-DM
Ogni fase è divisa in task, che sono le linee guida per organizzare il lavoro.
- Business Understanding: comprensione degli obiettivi e dei requisiti del progetto – Definizione del
problema di Data Mining
- Data Understanding: Raccolta dei dati iniziali e familiarizzazione con essi – Identificazione dei problemi
sulla qualità dei dati
- Data Preparation: Selezione di tabelle, record e attributi – Data trasformation e cleaning
- Modeling: Selezione delle tecniche di modellazione e applicazione delle stesse – Calibrazione dei
parametri
- Evaluation: Valutazione degli obiettivi di business e del loro raggiungimento
- Deployment: Deployment del modello risultante – Implementazione del processo di data mining
ripetibile
Fase 1 – Business Understanding
In questa fase si ragiona su:
- Obiettivo di business
- Obiettivo di Data Mining
- Criteri di successo
Si concentra sulla comprensione degli obiettivi e dei requisiti del progetto dal punto di vista aziendale,
quindi sulla conversione di queste conoscenze in una definizione del problema di data mining e in un
piano preliminare progettato per raggiungere gli obiettivi. In questo caso il focus è la “company”
Determinare gli obiettivi di business:
- comprendere a fondo, dal punto di vista aziendale, ciò che il cliente vuole veramente realizzare
- scoprire all'inizio importanti fattori che possono influenzare il risultato del progetto
- trascurare questo passaggio equivale a spendere molto sforzo nel produrre risposte giuste a domande
sbagliate
Assess situation (Valutare la situazione):
- accertamenti di fatti più dettagliati su tutte le risorse, i vincoli (constraints), i presupposti
(assumptions) e altri fattori che dovrebbero essere considerati
- arricchire i dettagli
Determine data mining goals:
- Un obiettivo di business stabilisce obiettivi nella terminologia aziendale
- un obiettivo del data mining indica obiettivi in termini tecnici.
ESEMPIO) Un obiettivo di business: "Aumentare le vendite del catalogo ai clienti esistenti". Un obiettivo
di data mining: "Prevedere quanti widget acquisterà un cliente, dati i suoi acquisti negli ultimi tre anni,
informazioni demografiche (età, stipendio, città) e il prezzo dell'articolo".
Produrre piano di progetto:
- descrivere il piano previsto per il raggiungimento degli obiettivi di data mining e degli obiettivi di
business
- il piano dovrebbe specificare la serie di steps anticipata da eseguire durante il resto del progetto,
inclusa una selezione iniziale di strumenti e tecniche
Fase 2 – Data Understanding
In questa fase si ragiona su:
- Esplorare i dati
- Verificare la qualità (dei dati)
- Trovare i valori anomali (outliers)
Inizia con una raccolta iniziale di dati e procede con le attività al fine di acquisire familiarità con i dati,
identificare i problemi di qualità dei dati, scoprire i primi approfondimenti sui dati o rilevare sottoinsiemi
interessanti per formare ipotesi per informazioni nascoste.
Collect initial data:
- acquisire all'interno del progetto i dati elencati nelle risorse del progetto
- include il caricamento (loading) dei dati se necessario per il data understanding
- eventualmente porta a fasi iniziali di preparazione dei dati
- se si acquisiscono dati da più origini, un ulteriore problema è l'integrazione da fare qui o nella
successiva fare di “data preparation”
Descrivere i dati:
- esaminare le proprietà "grossolane" o "superficiali" dei dati acquisiti
- riportare il tutto nei risultati (documentare)
Esplora i dati:
- affronta le domande sul data mining, che possono essere affrontate utilizzando query, visualizzazione e
report, tra cui:
- distribuzione di attributi chiave, attraverso aggregazioni;
- relazioni tra coppie di attributi
- proprietà di sottopopolazioni significative
- può indirizzare direttamente gli obiettivi del datamining
- può contribuire alla descrizione dei dati e ai rapporti sulla qualità
- può alimentare la trasformazione e la preparazione necessaria dei dati
Verificare la qualità dei dati:
- esaminare la qualità dei dati, affrontando domande come: "I dati sono completi?", Ci sono valori
mancanti nei dati? "
Fase 3 – Data Preparation
Occupa di solito il 90% del tempo
- Collezione
- Valutazione
- Consolidamento e pulizia
- Selezione dei dati
- Trasformazioni
Copre tutte le attività per costruire il set di dati finale dai dati grezzi iniziali. È probabile che le attività di
preparazione dei dati vengano eseguite più volte e non nell'ordine prescritto. Le attività includono la
selezione di tabelle, record e attributi, nonché la trasformazione e la pulizia dei dati per gli strumenti di
modellazione.
Select data:
- decidere i dati da utilizzare per l'analisi
- i criteri includono la pertinenza rispetto agli obiettivi del data mining, i vincoli di qualità e tecnici come
limiti sul volume o sui tipi di dati
- copre la selezione degli attributi e la selezione dei record appartenenti ad una tabella
Clean Data: elevare la qualità dei dati al livello richiesto dalle tecniche di analisi selezionate - possono
comportare la selezione di sottoinsiemi puliti dei dati, l'inserimento di valori predefiniti adeguati o
tecniche più ambiziose come la stima dei dati mancanti mediante la modellazione
Construct data:
- operazioni costruttive di preparazione dei dati come la produzione di attributi derivati, interi nuovi
record o valori trasformati per attributi esistenti
Integrazione dati:
- metodi in base ai quali le informazioni vengono combinate da più tabelle o record per creare nuovi
record o valori
Format data:
- il formato delle trasformazioni si riferisce principalmente a modifiche sintattiche apportate ai dati che
non ne cambiano il significato, ma potrebbero essere richieste dallo strumento di modellazione
Fase 4 – Modeling
- Seleziona la tecnica di modellazione: in base agli obiettivi di data mining
- Costruisci il modello: Impostazioni dei parametri
- Valuta modello: classifica i modelli
Vengono selezionate e applicate varie tecniche di modellazione e i loro parametri sono calibrati su valori
ottimali. Alcune tecniche hanno requisiti specifici sulla forma dei dati. Pertanto, è spesso necessario
tornare alla fase di preparazione dei dati.
Select modeling technique: seleziona la tecnica di modellazione effettiva da utilizzare ad es. Albero
decisionale, rete neurale. Se vengono applicate più tecniche, eseguire questa attività per ciascuna
tecnica separatamente
Generate test design: Prima di creare effettivamente un modello, generare una procedura o
meccanismo per testare la qualità e la validità del modello. Per esempio, nella classificazione, è comune
utilizzare i tassi di errore (error rates) come misure di qualità per i modelli di data mining. Pertanto, in
genere separare il set di dati in training e set di test, costruire il modello sul set di traiing e stimarne la
qualità sul set di test separatamente
Build model: eseguilo sul dataset preparato al fine di creare uno o più modelli. di modellazione sul set di
dati preparato per creare uno o più modelli
Asses model: interpreta i modelli in base al dominio di conoscenze, ai criteri di successo del data mining
e al test di progettazione desiderato. Giudica il successo dell'applicazione della modellazione e le
tecniche di scoperta più tecnicamente. Contatta gli analisti del business e gli esperti del dominio in un
secondo momento per discutere i risultati del data mining nel contesto aziendale. Considera solo i
modelli mentre la fase di valutazione tiene conto anche di tutti gli altri risultati prodotti nel corso del
progetto
Fase 5 – Evaluation
Dobbiamo stabilire come valutare il modello. Se in questo punto falliamo c’è un arco per tornare al
primo step nel workflow
- Valutazione del modello: quanto performa bene rispetto ai dati di test
- Metodi e criteri: dipendono dal tipo di modello
- Interpretazione del modello: importanza e complessità dipendono dall'algoritmo
Valuta attentamente il modello e rivedi i passaggi eseguiti per costruire il modello per essere certi di
raggiunge correttamente gli obiettivi di business. Un obiettivo chiave è determinare se vi sono
importanti problemi commerciali che non sono stati sufficientemente considerati. Alla fine di questa
fase, dovrebbe essere presa una decisione sull'uso dei risultati del data mining
Evaluate results: Valuta il grado in cui il modello soddisfa gli obiettivi aziendali. Cerca di determinare se
esiste qualche motivo commerciale per cui questo modello è carente. Verifica il modello/i sulle
applicazioni di test nell'applicazione reale se i limiti di tempo e budget lo consentono. Valuta anche altri
risultati di data mining generati: svela ulteriori sfide, informazioni o suggerimenti per direzioni future
Review process: Fare una revisione più approfondita dell'impegno del data mining al fine di determinare
se vi sono fattori o attività importanti che sono stati in qualche modo trascurati. Rivedere i problemi di
garanzia della qualità. Per esempio: Abbiamo costruito correttamente il modello?".
Determine next steps: In questa fase si decide come procedere, se terminare il progetto e passare alla
distribuzione se appropriato o se avviare ulteriori iterazioni o impostare nuovi progetti di data mining. Si
decide se includere analisi delle risorse rimanenti e del budget che influenza le decisioni.
Fase 6 – Deployment
In questa fase si determina come utilizzare i risultati; chi deve utilizzarli; con quale frequenza devono
essere utilizzati; Fare il deployment dei risultati di DataMining.
Le conoscenze acquisite dovranno essere organizzate e presentate in modo tale che il cliente possa
utilizzarle. Tuttavia, a seconda dei requisiti, la fase di implementazione può essere semplice come
generare un report o complessa come implementare un processo di data mining ripetibile in tutta
l'azienda.
Plan deployment: Al fine di distribuire i risultati del data mining nell'azienda, prende i risultati della
valutazione e conclude una strategia per l'implementazione. Documenta la procedura per
l'implementazione successiva
Plan monitoring and maintenance: Importante se i risultati del data mining diventano parte del business
quotidiano e dell'ambiente. Aiuta ad evitare inutilmente lunghi periodi di utilizzo errato dei risultati del
data mining. Richiede un processo di monitoraggio dettagliato. Tiene conto del tipo specifico di
implementazione
Produce final report: il responsabile del progetto e il suo team redigono un rapporto finale. Può essere
solo una sintesi del progetto e delle sue esperienze. Può essere una presentazione finale e completa dei
risultati del data mining
Review project: Valutare cosa è andato giusto e cosa è andato storto, cosa è stato fatto bene e cosa
deve essere migliorato
REWIND: perché fare CRISP-DM?
Il processo di data mining deve essere affidabile e ripetibile da persone con scarse competenze di data
mining
- CRISP-DM fornisce un framework uniforme per avere linee guida e la documentazione dell’esperienza
- CRISP-DM è flessibile nel tenere conto delle differenze: Problemi di business / agenzia diversi; Dati
diversi
CRISP-DM è il modello analitico più analizzato. La metodologia CRISP-DM è descritta in termini id un
modello di processo gerarchico, costituito da insiemi di attività prescritte a quattro livelli di astrazione
(da generale a specifico): fase, task generico, task specializzato, e istanza di processo.
Orizzontalmente, la metodologia CRISP-DM distingue tra il modello di riferimento e la guida per l'utente.
- Business understanding: Questa fase iniziale si concentra sulla comprensione degli obiettivi e dei
requisiti del progetto dal punto di vista aziendale, quindi sulla conversione di queste conoscenze in una
definizione del problema di data mining e in un piano preliminare progettato per raggiungere gli
obiettivi.
- Data understanding: La fase di comprensione dei dati inizia con la raccolta iniziale dei dati e procede
con le attività che consentono di acquisire familiarità con i dati, identificare i problemi di qualità dei dati,
scoprire i primi approfondimenti sui dati e / o rilevare sottoinsiemi interessanti per formare ipotesi
relative alle informazioni nascoste.
- Data preparation: La fase di preparazione dei dati copre tutte le attività necessarie per costruire il set
di dati finale [dati che verranno inseriti negli strumenti di modellazione] dai dati grezzi iniziali. È
probabile che le attività di preparazione dei dati vengano eseguite più volte e non nell'ordine prescritto.
Le attività includono la selezione di tabelle, record e attributi, nonché la trasformazione e la pulizia dei
dati per gli strumenti di modellazione.
- Modeling: In questa fase, vengono selezionate e applicate varie tecniche di modellazione e i loro
parametri sono calibrati su valori ottimali. In genere, esistono diverse tecniche per lo stesso tipo di
problema di data mining. Alcune tecniche hanno requisiti specifici sulla forma dei dati. Pertanto, è
spesso necessario tornare alla fase di preparazione dei dati.
- Evaluation: In questa fase del progetto, è stato creato un modello (o modelli) che sembra avere un'alta
qualità dal punto di vista dell'analisi dei dati. Prima di procedere alla distribuzione finale del modello, è
importante valutarlo attentamente e rivedere i passaggi eseguiti per crearlo, per essere certi che il
modello raggiunga correttamente gli obiettivi aziendali. Un obiettivo chiave è determinare se vi sono
importanti problemi commerciali che non sono stati sufficientemente considerati. Alla fine di questa
fase, dovrebbe essere presa una decisione sull'uso dei risultati del data mining.
- Deployment: La creazione del modello non è generalmente la fine del progetto. Anche se lo scopo del
modello è aumentare la conoscenza dei dati, le conoscenze acquisite dovranno essere organizzate e
presentate in modo tale che il cliente possa utilizzarle. Spesso comporta l'applicazione di modelli "live"
all'interno dei processi decisionali di un'organizzazione, ad esempio personalizzazione in tempo reale
delle pagine Web o punteggio ripetuto dei database di marketing. A seconda dei requisiti, la fase di
implementazione può essere semplice come generare un report o complessa quanto implementare un
processo di data mining ripetibile in tutta l'azienda. In molti casi, è il cliente, non l'analista di dati, che
esegue le fasi di implementazione. Tuttavia, anche se l'analista effettuerà lo sforzo di implementazione,
è importante che il cliente comprenda in anticipo quali azioni devono essere eseguite per utilizzare
effettivamente i modelli creati.
SVM (Support Vector M
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
-
Appunti di Analisi dei Dati e Data Mining
-
Appunti di Data Mining
-
Data Mining 1 - Appunti
-
Appunti Data Mining