Data mining
Data preparation
Missing values
Strategia passiva
Strategia attiva
Classification
Introduzione
Bayes
bias-variance trade-off
Overfitting
KNN
LDA e QDA
LDA
QDA
Confronto
ROC curve
Clustering
Hierarchical Algorithms
Partitional Clustering
Text mining
Associazione tra le parole
Data preparation
- Business understanding: capire obiettivi progetto dal pov utente, tradurre il problema dall'utente in un problema di data mining e definire un primo piano di progetto
- Data understanding: raccolta preliminare dei dati finalizzata a identificare problemi di qualità e a svolgere analisi preliminari che permettano di identificarne le caratteristiche salienti
Data mining 1
- Data preparation: comprendere tutte le attività necessarie e creare il dataset finale: selezione di attributi e record, trasformazione e pulizia dei dati
- Modeling: diverse tecniche di data mining sono applicate al dataset anche con parametri diversi al fine di individuare quella che permette di costruire il modello più accurato
- Evaluation: il modello/i ottenuti dalla fase precedente sono analizzati al fine di verificare che siano sufficientemente precisi e robusti da rispondere adeguatamente agli obiettivi dell'utente
- Deployment: creazione di un report o implementare un sistema di data mining controllabile direttamente dall'utente
Nella preparazione del dataset vanno controllati differenti aspetti delle variabili:
- Outliers
- Range di variazione variabili
- Massimo e minimo di ogni variabile
- Missing values
- Normalizzazione: riscalare la variabile così che i valori siano contenuti all'interno di (0, 1) compresi, per riportare tutte le variabili all'interno di una scala di variazione comune. Questo però mantiene invariato il range di variazione relativo. Richiesto quando le variabili si definiscono in intervalli diversi. Si può utilizzare quando la distribuzione non è nota o non è normale.
- Standardizzazione: sottrazione di una misura di posizione (media) e divisione per la variabilità. In presenza di una variabile con distribuzione normale si sottrae media e si divide per la deviazione standard così da ottenere una variabile che si distribuisce come una normale standard (0, 1). La variabile viene quindi centrata in 0 e con una varianza pari a 1. Utile quando abbiamo osservazioni con unità di misura diversa.
Queste tecniche vanno utilizzate dopo la rimozione degli outlier se presenti.
Missing values
La possibilità che almeno un dato sia mancante cresce al crescere della dimensione del dataset. Il motivo può essere dato dalla fusione di due dataset o in fallimenti nella misurazione.
Data mining 2
La serietà del problema dipende dalla struttura dei dati mancanti. La struttura deve essere infatti casuale, altrimenti è difficile generalizzare i risultati che si ottengono. Bisogna però testare questo andamento casuale. Se in un campione i dati mancanti sono pochi, il problema è quasi irrilevante.
- MCAR: Il processo che ha determinato la non rilevazione è completamente indipendente dal valore mancante e da qualsiasi altra variabile disponibile. Quindi i valori missing sono distribuiti aleatoriamente.
- MAR: Il processo che ha determinato la non rilevazione è completamente indipendente dal valore mancante ma può dipendere da altre variabili.
- NMAR: La probabilità che un valore sia mancante è collegata alla variabile stessa di cui si stanno raccogliendo i valori.
Steps da seguire
- Individuare i missing utilizzando le funzioni di calcolo per le frequenze oltre a errori di inserimento e dati anomali
- Assegnare un valore univoco ai dati mancanti (NA)
Strategia passiva
In questo caso i mv vengono ignorati: analisi fatta solo su dati presenti (complete case).
- Casewise deletion: vengono analizzati solo i casi completi (osservazioni e/o variabili). (deletion delle osservazioni) Ottimale se le osservazioni con dati mancanti sono poche. (deletion delle variabili) Si eliminano le variabili in cui c'è concentrazione di dati mancanti se sono in numero ridotto o non critiche per l'analisi o fortemente correlate ad altre variabili.
- Se i dati sono distribuiti a macchia tra le osservazioni, questa procedura non va bene.
- Treshold: 5% dei dati o meno sono missing, allora si procede con la casewise
- Pairwise deletion: L'eliminazione del dato mancante viene considerata in base all'analisi da effettuare.
Strategia attiva
Si sostituisce ciascun valore mancante con uno plausibile, stimato sulla base di dati non mancanti.
- Imputazione della media/mediana: utile se non si ha altri dati. Diminuisce però la varianza che implica una riduzione del coefficiente di correlazione.
- Imputazione della media/mediana condizionata: si inserisce sulla base gruppi specifici condizionatamente a tali gruppi. Si ridurrà molto la varianza entro i gruppi ma aumenterà molto la varianza tra i gruppi.
- Imputazione attraverso il metodo della regressione: modello di regressione in cui la variabile con i na è usata come variabile risposta e le altre come covariate. Può soffrire di problemi dovuti alla natura del modello stimato. Si migliora in modo fittizio l'adattamento dei dati e si riduce la varianza poiché valore stimato vicino alla media. Funziona se le variabili utilizzate per la stima sono dei buoni predittori. Stime utilizzabili se ricadono nel range min max assunti dalla variabile risposta.
Data mining 3
Per verificarne gli effetti si può confrontare le analisi ottenute con e senza il trattamento dei dati mancanti (casi completi vs casi incompleti). Si preferisce utilizzare una strategia passiva solo se la struttura dei na è casuale e se la numerosità non è elevata (5%). Altrimenti si preferisce usare una strategia attiva.
Classification
Introduzione
- Feature vector: Il vettore della variabile contenente tutti i valori osservati per quella variabile
- Feature space: Lo spazio vettoriale creato dallo span delle variabili
- Training set: Set di osservazioni in cui la variabile dipendente è nota
- Validation set: Set di osservazioni dove ottimizzare i parametri del modello
- Test set: Set usato solo per verificare la capacità di previsione del modello
- Generalizzazione: Fondamentale della classificazione è di identificare modelli che prevedono correttamente la classe di una nuova istanza
- Funzione obiettivo: Esistono diverse funzioni obiettivo che possono essere ottimizzate. → Minimum error rate: il metodo di classificazione deve minimizzare la percentuale di nuove istanze assegnate alla classe sbagliata.
Curse of dimensionality: dimostrabile che sopra una certa soglia aggiungere features non migliora il modello. Bassa accuratezza: può darsi sia dovuto alla selezione di un modello sbagliato o a un limitato numero di punti sperimentali rispetto al numero di features (n/p > 10). Si può risolvere il problema riducendo la dimensionalità o semplificando il modello in modo che generalizzi meglio.
Riduzione della dimensionalità: si può selezionare un sottoinsieme di features o combinando features esistenti. Combinando features linearmente ci dà il vantaggio di poter anche visualizzare i dati in 2 o 3 dimensioni.
PCA: Proiezione delle osservazioni da uno spazio p-dimensionale a uno spazio (p-k)-dimensioni.
Data mining 4
- Sequential forward selection: prima si seleziona la singola migliore variabile. Poi coppie di variabili sono formate insieme alla migliore già selezionata e viene presa la coppia migliore. Poi triplette di variabile contenenti le due selezionate precedentemente e così via. Continua fino a che non si raggiunge un numero prefissato di variabili o si è stoppati da una regola con penalità (AIC).
- Sequential backward selection: procedimento analogo ma invertito. Si parte da tutte le variabili e si prova ricorsivamente a togliere ogni variabile e si prende il set p-1 di variabili migliore e così via finché non ci si ferma.
Supervised approaches: Training data includono sia features di input sia le features di output. La target feature è usata anche nel processo di learning del modello.
Unsupervised approaches: Il modello non ha come input la target feature che è usata solo per il processo di verifica del modello. Possono essere usati per raggruppare le features in input in classi senza sapere la classe di appartenenza a priori. Sensitivity: percentuali di osservazioni correttamente classificate come positive. Specificity: percentuale di osservazioni correttamente classificate come negative.
Il classificatore minimizza il bayes rate che è una misura generale di accuratezza e non mira a migliorare le performance su determinate classi di un problema. I falsi positivi sono associati all'errore di prima specie mentre i falsi negativi sono associati all'errore di seconda specie.
Bayes
Fondamentale per quantificare il trade-off tra l'assegnazione di una classe e il costo di questa azione. (y) è la probabilità a priori che un'osservazione sia di classe 1.