Estratto del documento

DATA MINING.

CAPITOLO 1: COS’E IL DATAMINING?

data mining

Il è un misto tra tecniche informatiche e statistiche. Il data mining

(letteralmente dall'inglese “estrazione di dati”) è l'insieme di tecniche e metodologie che hanno

per oggetto l'estrazione di informazioni utili da grandi quantità di dati (es. banche dati, ecc.),

attraverso metodi automatici o semi-automatici (es. apprendimento automatico= machine

learning) e l'utilizzo scientifico, aziendale, industriale o operativo delle stesse.

Utilizzare queste tecniche da sole potrebbero non essere sufficienti quando:

i dataset sono troppo grandi;

 dati complessi;

 dati eterogenei;

 dati distribuiti in modo specifico.

Il datamining è una componente essenziale per il data scientist, il quale deve essere quello

che ha a disposizione i dati, conosce le tecniche e sa quali applicare in maniera adeguata, e ha

due funzionalità:

metodi di previsione di un fenomeno (supervised learning= apprendimento super

 visionato)l’intervento dell’utente è molto più presente;

metodi di descrizione di un fenomeno (unsupervised learning).

Quello che accomuna tutte le tecniche di data mining è il percorso che porta alla definizione

dell’informazione.

Partiamo da una matrice di dati e su questa facciamo una analisi esplorativa, perché i dati non

sempre si presentano in maniera adeguata, ad esempio vengono da fonti e risorse diverse ecc,

quando i dati sono grandi ci potrebbero essere problemi con la stima di questi dati, quindi si

estraggono delle info dal dataset e si riducono le dimensioni (es. con l’analisi delle componenti

principali).

Una volta fatto il data processing si applica un metodo a seconda dello scopo del dataset

(data mining) e infine, una volta applicato il data mining, abbiamo il postprocessing per vedere

che utilità possono avere i risultati e analizzare quello che viene fuori dal data mining.

Le sfide a cui è sottoposto il datamining sono:

scalabilità;

 apire come gestire i dati di dimensione grande;

 rendere eterogenei i dati complessi;

 i dati sono detenuti da produttori di dati diversi e capire come relazionarli;

 non utilizzare tecniche tradizionali.

 CAPITOLO 2: I DATI.

I dati possono portare a problemi e interpretazioni diverse a seconda del tipo di dato e

dell’ipotesi di chi lo sta valutando.

Un dato è una collezione di oggetti o data objects (es. righe di un foglio excel)), sono quindi

tutte le caratteristiche di un’unità statistica.

Gli attributi dell’oggetto sono le variabili che contengono le informazioni.

Una raccolta di caratteristiche per una singola unità definisce un oggetto.

Ci sono diverse tipologie di attributi:

nominali: variabili qualitative che non possono essere ordinate;

 ordinali: variabili qualitative che possono essere ordinate (es. titolo di studio e livello di

 istruzione);

intervalli: variabili quantitative in cui lo 0 non ha valore identificativo di assenza di quella

 caratteristica (es. 0 gradi celsius non indica che non ci possono essere temperature al di

sotto);

rapporti: variabili quantitative in cui lo zero ha valore (es. se una persona ha 0 malattia

 significa che non ce l’ha);

Le operazioni che si possono applicare a questi dati sono le cose che li differenziano.

Ad esempio, media e deviazione standard non possono essere calcolate su variabili qualitative,

posso però calcolare la mediana. L’unica cosa che posso fare con una variabile nominale è

calcolare la moda (caratteristica con frequenza più alta), la contingenza ecc.

Ovviamente all’interno delle variabili quantitative possiamo fare una distinzione ulteriore,

queste possono essere:

discrete: possono essere contate in termini finiti o hanno un’infinità numerabile (es.

 persone in coda ad un casello). La differenza con le variabili continue sta nel fatto che in

una variabile discreta da una realizzazione di supporto a quella successiva non ci sono

relazioni (es. tra 0 e 1 non c’è nessun valorequindi non ci possono essere variabili con

valori 0.5, 0.8, 1.3 ecc).

continua: tra un valore e l’altro esistono infiniti valori (es. variabile altezza di un’intera

 popolazione).

In termini di analisi la differenza di utilizzo è quasi nulla, l’unica differenza è invece in termini di

visualizzazione.

Spesso i dati hanno molte più sfaccettature rispetto a queste quattro, il modo più diffuso per

capire se hanno altri significati è analizzarli con la significatività statistica.

2.1 Quali sono i tipi di dati?

Abbiamo:

1. matrici di dati (es. fogli excel e tabelle viste in precedenza);

2. graf;

3. dati che dipendono da qualcosa (es. spatial data dipendono dallo spazio).

Quali sono le caratteristiche importanti dei dati che analizzeremo in questo corso?

Dimensionalità: i nostri database tendenzialmente potrebbero essere grandi sia dal

 punto di visa delle colonne che delle righe (portano problematiche sulla qualità del dato e

sull’analisi dei dati);

Dati sparsi: spesso ci sono tantissime osservazioni che sono 0 (es. morti da covid che nel

 periodo estivo se uno osservasse le analisi dei vari dati avrebbe un sacco di 0);

Risoluzione: spesso i pattern (schemi) dipendono dalla dimensione della variabile (es. tra

 0 e un milione o tra 0 e 10);

Dimensione dei dati (peso specifico delle tabelle e delle immagini utilizzate): es. se

 lavorassi con le immagini della nasa non potrei analizzare tutto il cielo

contemporaneamente ma solo una parte di quello che è stato raccolto.

1. matrice di dati

Quello che interessa nello specifico è la , cioè una matrice di attributi

per ogni unità statistica.

Abbiamo due tipi di matrice:

1. La matrice di dati generica la utilizzeremo in qualsiasi ambito:

Se gli oggetti hanno lo stesso numero di attributi possiamo immaginarlo come uno

spazio multidimensionale (che è possibile guardare da più prospettive). Il dataset ha

m n m x n

righe e colonne, quindi la matrice è .

2. La matrice che si può estrarre da un documento la utilizzeremo nel text

mining (una forma particolare di data mining nella quale i dati consistono in testi in

lingua naturale, in altre parole, documenti "destrutturati". Il text mining unisce la

tecnologia della lingua con gli algoritmi del data mining. L'obiettivo è sempre lo

stesso: l'estrazione di informazione implicita contenuta in un insieme di

documenties. trovare quante volte si ripete una parola in un documento):

3. La matrice sulle transazioni la utilizzeremo per la valutazione delle associazioni:

un’unica colonna con più osservazioni dentro.

Abbiamo

2. Graf (non li trattiamo).

3. Dati che dipendono da qualcosa (vedremo solo brevemente qualcosa).

2.2 La qualità del dato.

Finita la questione sulla tipologia dei dati cerchiamo di capire la qualità del dato, cioè se un

dato è già pronto per essere analizzato o ha bisogno di un processo di preparazione.

Capire la qualità del dato è il primo step del data mining.

Quali sono i possibili problemi che portano al dato di scarsa qualità?

Noise: i dati sono disturbati da qualcosa (ad esempio se prendiamo le immagini della

 nasa questi subiscono tanti disturbi);

Outlier: sorta di distorsione dei dati;

 Valori mancanti;

 Dati duplicati;

 Dati rilevati in maniera errata.

 Come rileviamo questi problemi?

noise

1. Il è un disturbo esterno all’osservazione.

Esempio di un suono a forma di seno:

Un modo di pulire il noise, ad esempio nelle serie storiche, è pre-fltrare il noise per cercare di

ridurlo.

outliers

2. Gli sono dei dati con caratteristiche sensibilmente diverse dal resto dei dati.

Spesso gli outliers interferiscono con i dati (diventano noise).

Quali sono le possibili cause? Potrebbe essere la vera e propria analisi realizzata, cioè

dobbiamo evitare gli outliers rimuovendo quell’osservazione a meno che non sia propria l’analisi

da dover fare. valori mancanti

3. Qualche volta ci sono , questo succede tantissimo negli open data.

Le cause dei dati mancanti possono essere:

informazioni non raccolte;

 attributi non applicati a tutte le categorie.

Come risolvere il problema dei dati mancanti?

Si possono eliminare gli oggetti o le variabili oppure si possono stimare i valori mancanti.

Ci sono diverse modalità per la stima dei dati mancanti.

Alcune volte si ignora che un’informazione manca, si stima un po’ il modello ma c’è comunque

qualcosa mancante.

Esempio nel caso delle serie storiche.

Facciamo finta che t sia il tempo e y(t) sia la variabile dipendente dal tempo.

ho un missing nel quattro e devo trovarlo. ipotizzo

dove si trova il quattro e lo inserisco stimandolo.

Ci sono diversi tipi di dati mancanti:

missing casuale o random: mancanza indipendente dal valore delle altre variabili e

 l’analisi può comunque essere condotta (nel caso si ignorasse il missing);

missing di una variabile dovuto ad altre variabili;

 dati duplicati

4. Potrebbe capitare che ci siano , ad esempio capita quando ci sono dati da

fonti diversi.

In questo caso bisogna rimuovere il duplicato, ma quale? Qual è il duplicato dell’altro?

Se l’informazione ha solo delle informazioni anagrafiche (ad esempio) è indifferente quale

andremo a togliere; ma quando una delle due info porta dietro l’informazione dell’origine da cui

deriva cosa facciamo? Bisogna analizzare dunque caso per caso.

Il modo per fare dei confronti è sintetizzare quanto una variabile differisca da un’altra

attraverso:

misure di similarità : ci dicono quanto simili sono delle unità statistiche tra di loro a

 seconda degli attributi;

misure di dissimilarità : sono delle misure numeriche che ci dicono quanto differenti

 sono le unità statistiche tra di loro.

Nel caso di misure simili si normalizzano portandole ad un valore tra 0 ed 1 e lo stesso si fa

nelle misure diverse, ma in questo caso possono esserci anche numeri da 0 a infinito. Il valore è

0 se le misure non si somigliano, 1 quando si somigliano nel caso della similarità, viceversa nel

caso della dissimilarità (1 se non si somigliano, 0 se si somigliano).

distanze di dissimilarità

Utilizzeremo diverse :

distanza euclidea

1. La è quella che utilizziamo maggiormente: per due

variabili confronta tutte le coppie di valori per tutte le unità statistiche.

i è 1 e j è 2 e k rappresenta la posizione dell’attributo.

Si standardizza la distanza, quindi si sottrae ad ogni variabile la sua media e la si

divide per la sua deviazione standard.

Esempio.

Come calcoliamo la distanza euclidea tra questi quattro soggetti? A coppie.

Per calcolare la distanza euclidea tra il soggetto 1 e il soggetto 2, dovrei fare la radice

quadrata di:

Se facessi questo calcolo per ogni coppia otterrei una matrice simmetrica, cioè la

distanza tra p1 e p2 deve essere uguale alla distanza tra p2 e p1.

2. distanza di

La generalizzazione della distanza euclidea è quella della

Minkowski :

Se r=2 si ritornerebbe al caso della distanza euclidea.

Esempio.

Calcolo di come cambia la distanza di Minkowski a seconda del valore di r:

3. se io avessi due variabili x e y potrei calcolare altre tipologie di distanze, ad

esempio la Mahanobis distance che tiene conto di quanto è la varianza di ogni

variabile e di quanto variano tra di loro (covarianza tra le variabili x e y).

Qual è la differenza tra le ultime due distanze? Si tiene conto della matrice di

covarianza: è una matrice dove sulla diagonale ci sono le varianze delle singole variabili e sul

fuori diagonali ci sono come covariano tra di loro le variabili.

Quali sono le proprietà necessarie di una distanza?

In generale le proprietà sono tre:

Defnitezza positiva: la distanza tra due unità statistiche è sempre >=0 (la distanza è

o nulla se le unità statistiche sono uguali)

Simmetria: se un’unità statistica dista un tot dall’altra è vero lo stesso per l’inverso;

o Ineguaglianza triangolare: la distanza tra due punti A e C sarà sempre inferiore alla

o somma delle distanze tra i punti intermedi;

In generale un indice di dissimilarità rispetta solo le prime due.

misure di similarità

Passiamo ad analizzare le :

1. Cosine similarity (la vedremo più applicata che teorica nel text mining): la

utilizzeremo specialmente per due vettori di documenti, ad esempio per il conteggio

di parole tra due documenti.

Distanza coseno: prodotto di ogni osservazione per il suo adiacente nell’altro

documento:

2. Correlazione .

In generale è la covarianza fratto il prodotto della deviazione standard.

Grafcamente una correlazione ci dice quanto una variabile varia al variare

dell’altra. Una correlazione assume valori tra -1 e 1 compresi (se = 0 le due variabili

non correlano e abbiamo una nuvola di punti).

Esempio di come si calcola:

IMPORTANTE : quando due variabili sono correlate non è detto che siano dipendenti.

Esempio : tra il numero di passeggeri in Australia e il riso in Guinea.

Abbiamo una correlazione alta (se guardiamo la figura ce ne accorgiamo) ma senza rapporto di

causa-effetto:

Esercitazione 1 in R e Esercitazione 2 in R.

CAPITOLO 3: SUPERVISED LEARNING, CLASSIFICAZIONE E

REGRESSIONE LINEARE.

Regressione lineare .

Oggi parliamo di regressione lineare, che è una tecnica di classifcazione e sulla stessa si

basano altre tecniche di classificazione, cioè è uno strumento utile per poi partire su analisi

successive. La regressione lineare è un approccio supervisionato, cioè il ruolo di chi imposta

un modello di regressione lineare è attivo, cioè non viene applicata una tecnica su una matrice

ma vengono definite delle variabili da osservare/campionare e su quelle si fa la regressione

lineare.

È uno strumento che si utilizza, tendenzialmente, per prevedere una risposta di tipo

quantitativo.

In questo contesto abbiamo due tipi di variabili, una dipendente e una esplicativa.

OBIETTIVO DELLA REGRESSIONE:

Capire come una variabile è influenzata dal comportamento di una o più variabili e quindi

definire una forma per la relazione tra le variabili.

SCOPI DELLA REGRESSIONE:

Descrittivo:

o voglio vedere se effettivamente esiste una relazione tra x e y;

o studiare la forma analitica, cioè vedere se è effettivamente lineare la forma

o che esiste tra le due variabili.

Predittivo:

o prevedere una variabile dipendente y dati dei valori noti della x e viceversa.

o

Esempio : in figura abbiamo tre possibili relazioni di elementi, tra ammontare di euro

incassati per un prodotto e la spesa per quel prodotto:

Per vedere se esiste una relazione come prima cosa devo mettere la y sull’asse delle ordinate e

le x sull’asse delle ascisse e se queste formassero una retta allora potrebbe esistere una

relazione.

La retta di regressione lineare approssima al meglio i dati reali, quindi minimizza la distanza

di tutti i dati dalla retta per permettere di avere risultati reali.

1. Se mi chiedessi in quali di queste 3 immagini è maggiormente possibile ci sia

una relazione tra x ed y quale sarebbe la risposta? Nella prima figura perché c’è

meno dispersione tra i punti;

2. Quanto è forte la relazione tra il budget e le vendite? Questo si vede

dall’inclinazione della retta, quindi la sua pendenza (maggiore sarà pendente maggiore

sarà l’aumentare di x rispetto ad y, viceversa se è poco pendente);

3. La relazione è effettivamente lineare? Nel primo caso potrebbe esserla.

FORME DELLA REGRESSIONE LINEARE:

Modello semplice: abbiamo una sola variabile dipendente e indipendente

Modello multiplo: abbiamo una sola variabile dipendente e più regressori

CONCETTO DI CETERIS PARIBUS.

Quello che ci interessa è:

mantenendo fsse tutte le altre variabili quanto cambia y se io cambio la variabile x1?

Esempio

: abbiamo il seguente modello.

L’interpretazione del modello di regressione è che tenendo ferme le altre variabili si vuole

vedere quanto cambia la variabile y all’aumentare di un’unità della variabile x.

Noi non possiamo conoscere la relazione tra x e y esattamente, perché non analizziamo

un’intera popolazione ma un campione di quella popolazione. Quindi, avremo delle stime, che si

fanno attraverso il metodo dei minimi quadrati, cioè quello che mi minimizza la distanza dei

punti da una retta, e che ci possono essere utili per fare previsioni.

OBIETTIVO DELLA STIMA DEI COEFFICIENTI DELLA RETTA DI REGRESSIONE:

minimizzare tutte le distanze tra y e il valore predetto di y con il metodo dei minimi

quadrati, che minimizza la distanza dei punti da una retta.

Con il metodo dei minimi quadrati in primo luogo si stabilisce un residuo, cioè la parte di y che

non riesco a cogliere attraverso la regressione lineare .

SSR

Quindi i coefficienti possono essere stimati con l’ (somma dei residui al quadrato):

Abbiamo detto, quindi, che nel caso di un unico regressore dobbiamo minimizzare la somma

degli errori (o dei residui) al quadrato, quindi minimizzare nella retta la distanza tra i punti e la

retta.

Nel caso di più regressori la questione cambia perché non ho più una retta ma un piano (ho i

punti sulle tre dimensioni).

Esempio.

Abbiamo una matrice di dati e una variabile risposta o dipendente (nel nostro caso le vendite

di un prodotto in termini di milioni di euro) e dei regressori (spesa in pubblicità per tv, per radio

e sui giornali), vado a stimare il beta della retta di regressione vista in precedenza, cioè

e quello che ottengo è questo:

Quando si

Anteprima
Vedrai una selezione di 17 pagine su 77
Data mining - riassunto Pag. 1 Data mining - riassunto Pag. 2
Anteprima di 17 pagg. su 77.
Scarica il documento per vederlo tutto.
Data mining - riassunto Pag. 6
Anteprima di 17 pagg. su 77.
Scarica il documento per vederlo tutto.
Data mining - riassunto Pag. 11
Anteprima di 17 pagg. su 77.
Scarica il documento per vederlo tutto.
Data mining - riassunto Pag. 16
Anteprima di 17 pagg. su 77.
Scarica il documento per vederlo tutto.
Data mining - riassunto Pag. 21
Anteprima di 17 pagg. su 77.
Scarica il documento per vederlo tutto.
Data mining - riassunto Pag. 26
Anteprima di 17 pagg. su 77.
Scarica il documento per vederlo tutto.
Data mining - riassunto Pag. 31
Anteprima di 17 pagg. su 77.
Scarica il documento per vederlo tutto.
Data mining - riassunto Pag. 36
Anteprima di 17 pagg. su 77.
Scarica il documento per vederlo tutto.
Data mining - riassunto Pag. 41
Anteprima di 17 pagg. su 77.
Scarica il documento per vederlo tutto.
Data mining - riassunto Pag. 46
Anteprima di 17 pagg. su 77.
Scarica il documento per vederlo tutto.
Data mining - riassunto Pag. 51
Anteprima di 17 pagg. su 77.
Scarica il documento per vederlo tutto.
Data mining - riassunto Pag. 56
Anteprima di 17 pagg. su 77.
Scarica il documento per vederlo tutto.
Data mining - riassunto Pag. 61
Anteprima di 17 pagg. su 77.
Scarica il documento per vederlo tutto.
Data mining - riassunto Pag. 66
Anteprima di 17 pagg. su 77.
Scarica il documento per vederlo tutto.
Data mining - riassunto Pag. 71
Anteprima di 17 pagg. su 77.
Scarica il documento per vederlo tutto.
Data mining - riassunto Pag. 76
1 su 77
D/illustrazione/soddisfatti o rimborsati
Acquista con carta o PayPal
Scarica i documenti tutte le volte che vuoi
Dettagli
SSD
Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher toniapascarella di informazioni apprese con la frequenza delle lezioni di Data mining e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli studi Gabriele D'Annunzio di Chieti e Pescara o del prof Bucci Andrea.
Appunti correlati Invia appunti e guadagna

Domande e risposte

Hai bisogno di aiuto?
Chiedi alla community