Data mining - domande aperte

Esercizi di data mining elaborati dal publisher sulla base di appunti personali e frequenza delle lezioni della professoressa Antonelli, dell'università degli Studi Ecampus - Uniecampus, della facoltà di ingegneria. Scarica il file con le esercitazioni in formato PDF!

Esame Data mining

Facoltà Ingegneria

Dal corso del Prof. Antonelli Michela

Università Università telematica "e-Campus" di Novedrate (CO)

Publisher desmone

A.A. 2019-2020

68 pagine

Esercitazione

Vota 3,0 / 5 (1)

Scarica

Estratto del documento

DBSCAN: Pro e Contro dell'algoritmo di clustering

DBSCAN (Density-Based Spatial Clustering of Applications with Noise) è un algoritmo di clustering che si basa sulla densità dei punti nello spazio. Di seguito sono elencati i pro e i contro di questo algoritmo:

Vantaggi:

Non richiede di specificare a priori il numero di cluster da generare.
In grado di identificare cluster di forma arbitraria e di dimensioni diverse.
In grado di gestire rumore e punti isolati.
Efficiente nel trovare cluster in grandi dataset.

Svantaggi:

Sensibile ai parametri di input, come il raggio di vicinanza e il numero minimo di punti.
Può produrre cluster sovrapposti o non desiderati in presenza di densità variabili.
Non adatto per dataset di alta dimensionalità.
Richiede una buona comprensione dei dati e una scelta accurata dei parametri per ottenere risultati significativi.

Differenze tra Apriori e FP-growth

Apriori e FP-growth sono due algoritmi utilizzati per l'estrazione di itemset frequenti da dataset transazionali. Di seguito sono elencate le principali differenze tra i due:

Apriori:

Evita di generare tutte le possibili combinazioni di itemset, non considerando isovrainsiemi di itemset non frequenti.
Effettua il pruning del traliccio di itemset per ridurre il numero di candidati generati.

FP-growth:

Proietta il database sui suoi patterns frequenti per ridurre la dimensione del problema.
Comprime il database in una struttura compatta chiamata FP-tree.
Non genera candidati, ma utilizza l'FP-tree per estrarre gli itemset frequenti.

L'FP-tree è la rappresentazione compressa delle transazioni del database, considerando un supporto minimo. Viene creato attraverso i seguenti passi:

Si costruisce l'FP-tree a partire dalle transazioni del database.
Si estraggono gli itemset frequenti dall'FP-tree.

identificano tutti gli 1-itemset frequenti dal database:

Si crea una lista L degli 1-itemset frequenti ordinati secondo il loro supporto o frequenza
Si scandisce il database una seconda volta, analizzando ogni transazione (non considerando gli item non frequenti) e ordinandola seguendo l'ordine specificato nella lista L. Da ogni transazione si crea un percorso nell'albero o porzioni di percorso. Per la creazione dell'albero, il nodo radice viene sempre etichettato come null{}.

Discutere brevemente i passi dell'algoritmo Apriori per la generazione di itemset frequenti. Discutere la differenza fra modelli predittivi e descrittivi. I modelli predittivi, tipici degli algoritmi di classificazione e regressione, utilizzano i loro parametri e meccanismi caratteristici per effettuare delle previsioni future che possono essere utili nei processi decisionali. Per esempio, un algoritmo di classificazione consente di assegnare una etichetta caratteristica ad una nuova transazione che vienegestita dal sistema di data mining. Un algoritmo di regressione consente di effettuare delle previsioni future sul valore che potrà assumere una determinata variabile, sulla base dei suoi valori passati o sulla base dei valori di altre variabili. I modelli descrittivi, identificati tipicamente da algoritmi di clustering o regole associative, vengono utilizzati per descrivere la struttura organizzativa e la distribuzione dei dati. L'obiettivo di questi modelli è quello di approfondire la conoscenza nascosta dietro ai dati. Con il clustering, per esempio, si riesce a verificare se i dati sono organizzati in gruppi che hanno caratteristiche simili. Le regole associative consentono di prevedere tendenze e relazioni esistenti fra le variabili/attributi che caratterizzano le transazioni gestite dal sistema di data mining. Discutere il processo della cross validation. Quando non si ha a disposizione molti dati oppure quando si vuole ridurre al minimo la dipendenza dai dati del processo di identificazione, si utilizza la tecnica della cross validation. Questa tecnica consiste nel dividere il dataset in due parti: un training set e un test set. Il training set viene utilizzato per addestrare il modello, mentre il test set viene utilizzato per valutare le prestazioni del modello. In particolare, si calcola l'errore di previsione sul test set e si confronta con l'errore di previsione sul training set. Se l'errore sul test set è significativamente più alto rispetto all'errore sul training set, significa che il modello è stato sovradattato ai dati di addestramento e potrebbe non generalizzare bene su nuovi dati. La cross validation può essere eseguita in diverse varianti, come ad esempio la k-fold cross validation. In questa variante, il dataset viene diviso in k parti uguali. Si addestra il modello su k-1 parti e si valuta sul rimanente. Questo processo viene ripetuto k volte, in modo che ogni parte del dataset venga utilizzata sia per addestrare che per valutare il modello. Alla fine si calcola la media degli errori di previsione ottenuti nelle k iterazioni. La cross validation è una tecnica molto utile per valutare le prestazioni di un modello e per evitare problemi di sovradattamento.

E valutazione del modello si utilizza una tecnica chiamata Cross Validation. Supposto si avere N istanze o transazioni a disposizione, si divide l'insieme dei dati in K partizioni (gruppi di dati) casuali, detti fold. Si ripete l'addestramento e la valutazione del modello K volte utilizzando, in maniera ciclica, K-1 partizioni come training set e la restante partizione come test set. In pratica si creano ogni volta K modelli con un training set diverso formato da K-1 partizioni e si valuta la capacità di generalizzazione di ciascun modello con la partizione che non è stata utilizzata per l'addestramento. Alla fine del processo si ottengono K valori di errore o di accuratezza calcolati utilizzando i K test set. Il valore medio di questi valori prende il nome di errore o accuratezza cross-validato.

Elencare le differenze fra boosting e bagging.

La cross validation stratificata o anche multicross-validation, è una estensione della cross-validation e si applica spesso per...

problemi di classificazione. Nella cross-validation stratificata, i sottoinsiemi sono partizionati in modo tale che la distribuzione degli oggetti rispetto alla classe da predire in ogni fold, è approssimativamente la stessa riscontrabile nei dati iniziali. Nel caso in cui le partizioni K della cross validation siano uguali a N (numero delle istanze a disposizione) si ha il leave one out. Iterativamente N-1 istanze vengono utilizzate per addestrare il modello e su una si valuta la capacità di generalizzazione. Alla fine, si calcola l'errore o l'accuratezza media considerando gli N risultati del test set (costituito ogni volta da un unico campione). Discutere il problema dell'overfitting. Quando in fase di addestramento un modello si adatta al campione osservato e perde la capacità di generalizzazione si ha il problema dell'overfitting. In pratica i parametri si allineano ai dati osservati facendo seguire al modello il trend dei dati. Se i dati non sono rappresentativi.di bilanciare la complessità del modello con la quantità di dati disponibili. Se il modello diventa troppo complesso rispetto al numero di dati, si rischia di incorrere in un overfitting, cioè il modello si adatta troppo ai dati di addestramento e non riesce a generalizzare bene su nuovi dati. Per evitare l'overfitting, è importante selezionare un sottoinsieme rappresentativo dei dati durante il processo di campionamento. Inoltre, è necessario valutare la complessità del modello e cercare di semplificarlo se necessario. Ad esempio, nel caso di un modello per le previsioni del livello di pioggia in una determinata zona, è importante considerare sia i dati relativi alla stagione estiva che quelli relativi alla stagione invernale. Se il modello viene addestrato solo utilizzando i dati della stagione estiva, sarà difficile generalizzare correttamente sui dati invernali, poiché le tendenze possono essere molto diverse. In conclusione, è fondamentale trovare un equilibrio tra la complessità del modello e la quantità di dati disponibili, al fine di evitare l'overfitting e ottenere previsioni accurate e generalizzabili.

cercare di ottenere modellisemplici con pochi parametri. Questi saranno quelliin grado di generalizzare meglio.

Nel data mining, il problema dell'overfitting è moltosentito. Infatti, gli algoritmi che generano i modelli infase di apprendimento potrebbero adattarsi troppo aidati.Questo può succedere se questa fase dura troppo alungo o se ci sono troppi pochi dati a disposizione.

Discutere i passi principali dell'algoritmo DIANA.

Discutere l'importanza dell'area sotto la curva ROC (AUC).

Disegnare e discutere lo schema e i parametridi una rete feedforward.

Discutere lo schema base di un un algoritmo diclustering gerarchico agglomerativo.

L'approccio agglomerativo inizia considerando cheogni oggetto formi un cluster separato. Quindi,unisce i cluster più vicini fino a quando tutti i clustersono raggruppati in un solo cluster oppure unacondizione di terminazione è verificata.

Fornire un esempio in cui potrebbe esserenecessario effettuare data

Data Cleaning: Vengono utilizzate delle routine di lavoro per "pulire" i dati. Tali routine, ad esempio, vengono utilizzate per:

Riempire con dei valori opportunamente scelti i dati mancanti (missing value)
Filtrare i dati rumorosi
Identificare e rimuovere outlier (dati con valori molto distanti da quelli di tutti gli altri dati dello stesso tipo)
Risolvere le inconsistenze trovate

Data Integration: Durante questa fase, si effettua un'integrazione multipla delle sorgenti d'informazione eterogenee che si hanno, come per esempio database, file, e data cube. Vi sono dei problemi che possono nascere dopo tale fase. Dal momento che uno stesso concetto può essere espresso con nomi distinti all'interno di due sorgenti informative diverse, si possono generare inconsistenze e ridondanze (per esempio NomeCliente e Cliente o Id_Cliente e ID_Cli). Può anche accadere che il valore di un attributo sia diverso in due sorgenti distinte.

HTML:

Sebbene il concetto espresso da tale valore sia lo stesso (ad esempio, in un database si ha NomeCliente: "Bill Clinton", in un altro NomeCliente appare: "William Clinton").

Fornire un esempio di distribuzione e del suo istogramma.

In cosa consiste l'addestramento di un percettrone? Discutere l'algoritmo delta rule.

In cosa consiste la creazione del modello di classificatore bayesiano? Introdurre il teorema di Bayes.

In che punto dell'algoritmo FP-growth è presente la parte ricorsiva?

L'estrazione degli itemset frequenti con FP-growth segue un approccio bottom-up: si parte ad esplorare l'albero dei pattern frequenti a partire dalle foglie verso la radice.

Si segue una filosofia divide et impera: si scompone il problema in sottoproblemi più piccoli in maniera ricorsiva, fino a quando l'ultimo problema trovato è risolvibile in maniera diretta o banale.

Mostrare una implementazione del DBSCAN usando un pseudocodice o un linguaggio.

di programmazione. Mostrare e discutere uno pseudocodice per in classificatore KNN. Paragonare brevemente le misure di rilevanza degli attributi. Perché l'algoritmo C4.5 prevede una fase di potatura dell'albero? Come può essere fatta? Perché è necessario il trattamento preliminare dei dati? Effettuare operazioni di pre-elaborazione dei dati facilita enormemente il successivo processo di analisi e garantisce risultati migliori. Infatti, rimuovere le anomalie il prima possibile e diminuire il numero dei dati da processare, riduce la possibilità che questi possano generare errori e produrre risultati falsati. I principali passaggi che caratterizzano la fondamentale fase della pre-elaborazione dei dati sono:

Data Cleaning (Pulizia dei dati)
Data Integration (Integrazione dei dati)
Data Reduction (Riduzione dei dati)
Data Trasformation (Trasformazione dei dati)

Perché il processo di data mining è da considerarsi interattivo? In generale,

è un processo iterativo che richiede pazienza e attenzione ai dettagli. Durante la fase di esplorazione dei dati, è importante analizzare attentamente i dati disponibili e identificare eventuali pattern o tendenze. Questa fase può richiedere diverse iterazioni per ottenere risultati significativi. Nella fase di modellazione, è necessario selezionare e applicare gli algoritmi di data mining appropriati per creare modelli predittivi o descrittivi. Questa fase richiede una buona comprensione degli algoritmi disponibili e delle loro caratteristiche. Infine, nella fase di valutazione, è importante valutare la qualità dei modelli creati e verificarne l'efficacia. Questa fase può richiedere ulteriori iterazioni per ottimizzare i modelli e migliorare i risultati. In conclusione, per ottenere modelli di buona qualità nel data mining, è fondamentale seguire attentamente le tre fasi descritte e essere disposti a tornare indietro e apportare modifiche quando necessario.

Anteprima

Vedrai una selezione di 15 pagine su 68