DATA MINING.
CAPITOLO 1: COS’E IL DATAMINING?
data mining
Il è un misto tra tecniche informatiche e statistiche. Il data mining
(letteralmente dall'inglese “estrazione di dati”) è l'insieme di tecniche e metodologie che hanno
per oggetto l'estrazione di informazioni utili da grandi quantità di dati (es. banche dati, ecc.),
attraverso metodi automatici o semi-automatici (es. apprendimento automatico= machine
learning) e l'utilizzo scientifico, aziendale, industriale o operativo delle stesse.
Utilizzare queste tecniche da sole potrebbero non essere sufficienti quando:
i dataset sono troppo grandi;
dati complessi;
dati eterogenei;
dati distribuiti in modo specifico.
Il datamining è una componente essenziale per il data scientist, il quale deve essere quello
che ha a disposizione i dati, conosce le tecniche e sa quali applicare in maniera adeguata, e ha
due funzionalità:
metodi di previsione di un fenomeno (supervised learning= apprendimento super
visionato)l’intervento dell’utente è molto più presente;
metodi di descrizione di un fenomeno (unsupervised learning).
Quello che accomuna tutte le tecniche di data mining è il percorso che porta alla definizione
dell’informazione.
Partiamo da una matrice di dati e su questa facciamo una analisi esplorativa, perché i dati non
sempre si presentano in maniera adeguata, ad esempio vengono da fonti e risorse diverse ecc,
quando i dati sono grandi ci potrebbero essere problemi con la stima di questi dati, quindi si
estraggono delle info dal dataset e si riducono le dimensioni (es. con l’analisi delle componenti
principali).
Una volta fatto il data processing si applica un metodo a seconda dello scopo del dataset
(data mining) e infine, una volta applicato il data mining, abbiamo il postprocessing per vedere
che utilità possono avere i risultati e analizzare quello che viene fuori dal data mining.
Le sfide a cui è sottoposto il datamining sono:
scalabilità;
apire come gestire i dati di dimensione grande;
rendere eterogenei i dati complessi;
i dati sono detenuti da produttori di dati diversi e capire come relazionarli;
non utilizzare tecniche tradizionali.
CAPITOLO 2: I DATI.
I dati possono portare a problemi e interpretazioni diverse a seconda del tipo di dato e
dell’ipotesi di chi lo sta valutando.
Un dato è una collezione di oggetti o data objects (es. righe di un foglio excel)), sono quindi
tutte le caratteristiche di un’unità statistica.
Gli attributi dell’oggetto sono le variabili che contengono le informazioni.
Una raccolta di caratteristiche per una singola unità definisce un oggetto.
Ci sono diverse tipologie di attributi:
nominali: variabili qualitative che non possono essere ordinate;
ordinali: variabili qualitative che possono essere ordinate (es. titolo di studio e livello di
istruzione);
intervalli: variabili quantitative in cui lo 0 non ha valore identificativo di assenza di quella
caratteristica (es. 0 gradi celsius non indica che non ci possono essere temperature al di
sotto);
rapporti: variabili quantitative in cui lo zero ha valore (es. se una persona ha 0 malattia
significa che non ce l’ha);
Le operazioni che si possono applicare a questi dati sono le cose che li differenziano.
Ad esempio, media e deviazione standard non possono essere calcolate su variabili qualitative,
posso però calcolare la mediana. L’unica cosa che posso fare con una variabile nominale è
calcolare la moda (caratteristica con frequenza più alta), la contingenza ecc.
Ovviamente all’interno delle variabili quantitative possiamo fare una distinzione ulteriore,
queste possono essere:
discrete: possono essere contate in termini finiti o hanno un’infinità numerabile (es.
persone in coda ad un casello). La differenza con le variabili continue sta nel fatto che in
una variabile discreta da una realizzazione di supporto a quella successiva non ci sono
relazioni (es. tra 0 e 1 non c’è nessun valorequindi non ci possono essere variabili con
valori 0.5, 0.8, 1.3 ecc).
continua: tra un valore e l’altro esistono infiniti valori (es. variabile altezza di un’intera
popolazione).
In termini di analisi la differenza di utilizzo è quasi nulla, l’unica differenza è invece in termini di
visualizzazione.
Spesso i dati hanno molte più sfaccettature rispetto a queste quattro, il modo più diffuso per
capire se hanno altri significati è analizzarli con la significatività statistica.
2.1 Quali sono i tipi di dati?
Abbiamo:
1. matrici di dati (es. fogli excel e tabelle viste in precedenza);
2. graf;
3. dati che dipendono da qualcosa (es. spatial data dipendono dallo spazio).
Quali sono le caratteristiche importanti dei dati che analizzeremo in questo corso?
Dimensionalità: i nostri database tendenzialmente potrebbero essere grandi sia dal
punto di visa delle colonne che delle righe (portano problematiche sulla qualità del dato e
sull’analisi dei dati);
Dati sparsi: spesso ci sono tantissime osservazioni che sono 0 (es. morti da covid che nel
periodo estivo se uno osservasse le analisi dei vari dati avrebbe un sacco di 0);
Risoluzione: spesso i pattern (schemi) dipendono dalla dimensione della variabile (es. tra
0 e un milione o tra 0 e 10);
Dimensione dei dati (peso specifico delle tabelle e delle immagini utilizzate): es. se
lavorassi con le immagini della nasa non potrei analizzare tutto il cielo
contemporaneamente ma solo una parte di quello che è stato raccolto.
1. matrice di dati
Quello che interessa nello specifico è la , cioè una matrice di attributi
per ogni unità statistica.
Abbiamo due tipi di matrice:
1. La matrice di dati generica la utilizzeremo in qualsiasi ambito:
Se gli oggetti hanno lo stesso numero di attributi possiamo immaginarlo come uno
spazio multidimensionale (che è possibile guardare da più prospettive). Il dataset ha
m n m x n
righe e colonne, quindi la matrice è .
2. La matrice che si può estrarre da un documento la utilizzeremo nel text
mining (una forma particolare di data mining nella quale i dati consistono in testi in
lingua naturale, in altre parole, documenti "destrutturati". Il text mining unisce la
tecnologia della lingua con gli algoritmi del data mining. L'obiettivo è sempre lo
stesso: l'estrazione di informazione implicita contenuta in un insieme di
documenties. trovare quante volte si ripete una parola in un documento):
3. La matrice sulle transazioni la utilizzeremo per la valutazione delle associazioni:
un’unica colonna con più osservazioni dentro.
Abbiamo
2. Graf (non li trattiamo).
3. Dati che dipendono da qualcosa (vedremo solo brevemente qualcosa).
2.2 La qualità del dato.
Finita la questione sulla tipologia dei dati cerchiamo di capire la qualità del dato, cioè se un
dato è già pronto per essere analizzato o ha bisogno di un processo di preparazione.
Capire la qualità del dato è il primo step del data mining.
Quali sono i possibili problemi che portano al dato di scarsa qualità?
Noise: i dati sono disturbati da qualcosa (ad esempio se prendiamo le immagini della
nasa questi subiscono tanti disturbi);
Outlier: sorta di distorsione dei dati;
Valori mancanti;
Dati duplicati;
Dati rilevati in maniera errata.
Come rileviamo questi problemi?
noise
1. Il è un disturbo esterno all’osservazione.
Esempio di un suono a forma di seno:
Un modo di pulire il noise, ad esempio nelle serie storiche, è pre-fltrare il noise per cercare di
ridurlo.
outliers
2. Gli sono dei dati con caratteristiche sensibilmente diverse dal resto dei dati.
Spesso gli outliers interferiscono con i dati (diventano noise).
Quali sono le possibili cause? Potrebbe essere la vera e propria analisi realizzata, cioè
dobbiamo evitare gli outliers rimuovendo quell’osservazione a meno che non sia propria l’analisi
da dover fare. valori mancanti
3. Qualche volta ci sono , questo succede tantissimo negli open data.
Le cause dei dati mancanti possono essere:
informazioni non raccolte;
attributi non applicati a tutte le categorie.
Come risolvere il problema dei dati mancanti?
Si possono eliminare gli oggetti o le variabili oppure si possono stimare i valori mancanti.
Ci sono diverse modalità per la stima dei dati mancanti.
Alcune volte si ignora che un’informazione manca, si stima un po’ il modello ma c’è comunque
qualcosa mancante.
Esempio nel caso delle serie storiche.
Facciamo finta che t sia il tempo e y(t) sia la variabile dipendente dal tempo.
ho un missing nel quattro e devo trovarlo. ipotizzo
dove si trova il quattro e lo inserisco stimandolo.
Ci sono diversi tipi di dati mancanti:
missing casuale o random: mancanza indipendente dal valore delle altre variabili e
l’analisi può comunque essere condotta (nel caso si ignorasse il missing);
missing di una variabile dovuto ad altre variabili;
dati duplicati
4. Potrebbe capitare che ci siano , ad esempio capita quando ci sono dati da
fonti diversi.
In questo caso bisogna rimuovere il duplicato, ma quale? Qual è il duplicato dell’altro?
Se l’informazione ha solo delle informazioni anagrafiche (ad esempio) è indifferente quale
andremo a togliere; ma quando una delle due info porta dietro l’informazione dell’origine da cui
deriva cosa facciamo? Bisogna analizzare dunque caso per caso.
Il modo per fare dei confronti è sintetizzare quanto una variabile differisca da un’altra
attraverso:
misure di similarità : ci dicono quanto simili sono delle unità statistiche tra di loro a
seconda degli attributi;
misure di dissimilarità : sono delle misure numeriche che ci dicono quanto differenti
sono le unità statistiche tra di loro.
Nel caso di misure simili si normalizzano portandole ad un valore tra 0 ed 1 e lo stesso si fa
nelle misure diverse, ma in questo caso possono esserci anche numeri da 0 a infinito. Il valore è
0 se le misure non si somigliano, 1 quando si somigliano nel caso della similarità, viceversa nel
caso della dissimilarità (1 se non si somigliano, 0 se si somigliano).
distanze di dissimilarità
Utilizzeremo diverse :
distanza euclidea
1. La è quella che utilizziamo maggiormente: per due
variabili confronta tutte le coppie di valori per tutte le unità statistiche.
i è 1 e j è 2 e k rappresenta la posizione dell’attributo.
Si standardizza la distanza, quindi si sottrae ad ogni variabile la sua media e la si
divide per la sua deviazione standard.
Esempio.
Come calcoliamo la distanza euclidea tra questi quattro soggetti? A coppie.
Per calcolare la distanza euclidea tra il soggetto 1 e il soggetto 2, dovrei fare la radice
quadrata di:
Se facessi questo calcolo per ogni coppia otterrei una matrice simmetrica, cioè la
distanza tra p1 e p2 deve essere uguale alla distanza tra p2 e p1.
2. distanza di
La generalizzazione della distanza euclidea è quella della
Minkowski :
Se r=2 si ritornerebbe al caso della distanza euclidea.
Esempio.
Calcolo di come cambia la distanza di Minkowski a seconda del valore di r:
3. se io avessi due variabili x e y potrei calcolare altre tipologie di distanze, ad
esempio la Mahanobis distance che tiene conto di quanto è la varianza di ogni
variabile e di quanto variano tra di loro (covarianza tra le variabili x e y).
Qual è la differenza tra le ultime due distanze? Si tiene conto della matrice di
covarianza: è una matrice dove sulla diagonale ci sono le varianze delle singole variabili e sul
fuori diagonali ci sono come covariano tra di loro le variabili.
Quali sono le proprietà necessarie di una distanza?
In generale le proprietà sono tre:
Defnitezza positiva: la distanza tra due unità statistiche è sempre >=0 (la distanza è
o nulla se le unità statistiche sono uguali)
Simmetria: se un’unità statistica dista un tot dall’altra è vero lo stesso per l’inverso;
o Ineguaglianza triangolare: la distanza tra due punti A e C sarà sempre inferiore alla
o somma delle distanze tra i punti intermedi;
In generale un indice di dissimilarità rispetta solo le prime due.
misure di similarità
Passiamo ad analizzare le :
1. Cosine similarity (la vedremo più applicata che teorica nel text mining): la
utilizzeremo specialmente per due vettori di documenti, ad esempio per il conteggio
di parole tra due documenti.
Distanza coseno: prodotto di ogni osservazione per il suo adiacente nell’altro
documento:
2. Correlazione .
In generale è la covarianza fratto il prodotto della deviazione standard.
Grafcamente una correlazione ci dice quanto una variabile varia al variare
dell’altra. Una correlazione assume valori tra -1 e 1 compresi (se = 0 le due variabili
non correlano e abbiamo una nuvola di punti).
Esempio di come si calcola:
IMPORTANTE : quando due variabili sono correlate non è detto che siano dipendenti.
Esempio : tra il numero di passeggeri in Australia e il riso in Guinea.
Abbiamo una correlazione alta (se guardiamo la figura ce ne accorgiamo) ma senza rapporto di
causa-effetto:
Esercitazione 1 in R e Esercitazione 2 in R.
CAPITOLO 3: SUPERVISED LEARNING, CLASSIFICAZIONE E
REGRESSIONE LINEARE.
Regressione lineare .
Oggi parliamo di regressione lineare, che è una tecnica di classifcazione e sulla stessa si
basano altre tecniche di classificazione, cioè è uno strumento utile per poi partire su analisi
successive. La regressione lineare è un approccio supervisionato, cioè il ruolo di chi imposta
un modello di regressione lineare è attivo, cioè non viene applicata una tecnica su una matrice
ma vengono definite delle variabili da osservare/campionare e su quelle si fa la regressione
lineare.
È uno strumento che si utilizza, tendenzialmente, per prevedere una risposta di tipo
quantitativo.
In questo contesto abbiamo due tipi di variabili, una dipendente e una esplicativa.
OBIETTIVO DELLA REGRESSIONE:
Capire come una variabile è influenzata dal comportamento di una o più variabili e quindi
definire una forma per la relazione tra le variabili.
SCOPI DELLA REGRESSIONE:
Descrittivo:
o voglio vedere se effettivamente esiste una relazione tra x e y;
o studiare la forma analitica, cioè vedere se è effettivamente lineare la forma
o che esiste tra le due variabili.
Predittivo:
o prevedere una variabile dipendente y dati dei valori noti della x e viceversa.
o
Esempio : in figura abbiamo tre possibili relazioni di elementi, tra ammontare di euro
incassati per un prodotto e la spesa per quel prodotto:
Per vedere se esiste una relazione come prima cosa devo mettere la y sull’asse delle ordinate e
le x sull’asse delle ascisse e se queste formassero una retta allora potrebbe esistere una
relazione.
La retta di regressione lineare approssima al meglio i dati reali, quindi minimizza la distanza
di tutti i dati dalla retta per permettere di avere risultati reali.
1. Se mi chiedessi in quali di queste 3 immagini è maggiormente possibile ci sia
una relazione tra x ed y quale sarebbe la risposta? Nella prima figura perché c’è
meno dispersione tra i punti;
2. Quanto è forte la relazione tra il budget e le vendite? Questo si vede
dall’inclinazione della retta, quindi la sua pendenza (maggiore sarà pendente maggiore
sarà l’aumentare di x rispetto ad y, viceversa se è poco pendente);
3. La relazione è effettivamente lineare? Nel primo caso potrebbe esserla.
FORME DELLA REGRESSIONE LINEARE:
Modello semplice: abbiamo una sola variabile dipendente e indipendente
Modello multiplo: abbiamo una sola variabile dipendente e più regressori
CONCETTO DI CETERIS PARIBUS.
Quello che ci interessa è:
mantenendo fsse tutte le altre variabili quanto cambia y se io cambio la variabile x1?
Esempio
: abbiamo il seguente modello.
L’interpretazione del modello di regressione è che tenendo ferme le altre variabili si vuole
vedere quanto cambia la variabile y all’aumentare di un’unità della variabile x.
Noi non possiamo conoscere la relazione tra x e y esattamente, perché non analizziamo
un’intera popolazione ma un campione di quella popolazione. Quindi, avremo delle stime, che si
fanno attraverso il metodo dei minimi quadrati, cioè quello che mi minimizza la distanza dei
punti da una retta, e che ci possono essere utili per fare previsioni.
OBIETTIVO DELLA STIMA DEI COEFFICIENTI DELLA RETTA DI REGRESSIONE:
minimizzare tutte le distanze tra y e il valore predetto di y con il metodo dei minimi
quadrati, che minimizza la distanza dei punti da una retta.
Con il metodo dei minimi quadrati in primo luogo si stabilisce un residuo, cioè la parte di y che
non riesco a cogliere attraverso la regressione lineare .
SSR
Quindi i coefficienti possono essere stimati con l’ (somma dei residui al quadrato):
Abbiamo detto, quindi, che nel caso di un unico regressore dobbiamo minimizzare la somma
degli errori (o dei residui) al quadrato, quindi minimizzare nella retta la distanza tra i punti e la
retta.
Nel caso di più regressori la questione cambia perché non ho più una retta ma un piano (ho i
punti sulle tre dimensioni).
Esempio.
Abbiamo una matrice di dati e una variabile risposta o dipendente (nel nostro caso le vendite
di un prodotto in termini di milioni di euro) e dei regressori (spesa in pubblicità per tv, per radio
e sui giornali), vado a stimare il beta della retta di regressione vista in precedenza, cioè
e quello che ottengo è questo:
Quando si
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.