Big Data
Analytics
● Introduzione alla materia
● Individuazione della tipologia di variabile
● Analisi dei dati
○ Analisi preliminare
■ Grafici
■ Tabelle
■ analisi descrittiva
● Misure di locazione
● Misure di variabilità
■ Preparazione e pulizia dei dati
● Tipologia di contaminazione
○ Outlier
○ Missing
■ Listwise deletion
■ Pairwise deletion
○ Analisi avanzata
■ Diminuzione numero di variabili
● Analisi fattoriale (quantitative)
● Analisi delle corrispondenze (qualitative)
■ Diminuzione numero di osservazioni
● Analisi dei gruppi (segmentazione generica)
● Segmentazione per obiettivi
Lo scopo del big data analytics è quello di esplorare ed analizzare in modo automatico e
semiautomatico dataset per scoprire regole e comportamenti sistematici ed estrarre info utili.
Come si sviluppa un processo di Data Analytic?
1. Preparazione dei dati e identificazioni delle variabili di interesse
2. Analisi preliminare delle variabili: grafiche e descrittive
3. Analisi avanzata delle variabili
Preparazione dei dati e identificazioni delle variabili di interesse
E’ importante andare a definire quali sono le varie tipologie di variabili.
A seconda del grado (crescente) di elaborazione che una variabile intrinsecamente ammette,
si è soliti distinguere:
1. VARIABILI QUALITATIVE
a. Variabile categorica : carattere qualitativo sconnesso (id)
b. Variabile ordinabile
: carattere qualitativo ordinabile (soddisfazione cliente)
2. VARIABILE QUANTITATIVE
a. Intervallo: hanno uno zero arbitrario (anni, temperatura)
b. Rapporto: hanno uno zero assoluto (conto in banca)
3. Variabile dicotomica : carattere binario, solitamente successo e insuccesso
4. Variabile politomica : poco utilizzata, ammette K>2
E’ possibile passare da una politomica ad una dicotomica tramite il processo di codifica
disgiuntiva , dove si costruiscono K variabili dummy, tali che
Analisi preliminare delle variabili:
Grafici
E’ utile però per l’analisi dei dati, andare a rappresentare i risultati in dei grafici
Di seguito i più utilizzati:
● Grafico a torta
● Grafico a barre
● Grafico di Pareto (serve per disporre la frequenza delle cause di un difetto)
ordina quindi in valore decrescente
Ad esempio dal grafico si evince immediatamente che le cause principali del difetto sono le
prime due.
● Grafico istogramma
● Grafico a dispersione (Scatter Plot)
○ Index Plot: molto utile per andare a rintracciare degli outlier
● Times series plot: analizza una serie storica
● Grafico Boxplot
○ Grafico molto utilizzato in statistica perché permette di avere in un colpo
d’occhio, in ordine:
■ Massimo, Q3, Mediana, Q1, Minimo.
Tabelle
La Distribuzione di frequenza è tabella utilizzata per analizzare i dati, dove a Sx si
raccolgono tutte le modalità di una variabile e Dx il numero di osservazioni per ogni valore.
A partire dalla distribuzione di frequenza assoluta poi si può arrivare a: frequenze relative,
frequenze percentuali, frequenze cumulative e percentuali cumulative.
La Tabella di Contingenza è invece una tabella che incrocia le frequenze di 2 variabili
categoriche/ordinabili.
Con le informazioni che si possono estrarre da questo tipo di tabelle, è interessante andare ad
effettuare un test chi-quadrato
Descrittive
Le variabili descrittive sono dei numeri di sintesi che sono fondamentali per avere un primo
approccio ai dati da analizzare.
Si dividono in
Misure di locazione:
● Media aritmetica
● Mediana
● Moda
● Quartili
○ 1° quartile (Q1): valore che separa il primo 25% dei dati dal resto
○ 3° quartile (Q3): valore che separa il primo 75% dei dati dal resto
Misure di variabilità
● Range interquartilico : IQR è la differenza tra Q3 e Q1, racchiude quindi il 50% dei
valori
● Varianza : esprime una sintesi delle distanze di tutti i dati dalla media.
Matematicamente è la media delle differenze al quadrato tra ogni variabile e la media
● Deviazione Standard : è la radice della varianza, è più utilizzata perché esprimere la
stessa informazione però nell’unità di misura della variabile
● coefficiente di correlazione: una misura standardizzata che, tramite una forchetta che
varia tra -1 e 1 esprime il grado di relazione lineare tra due variabili
!! Regola empirica !!
Solitamente, per un gran numero di situazioni con distribuzione normale a campana
il 68% delle osservazioni sta nell’insieme m+s
il 95% delle osservazioni sta nell’insieme m+2s
il 99% delle osservazioni sta nell’insieme m+3s
Preparazione e pulizia dei dati
Ovviamente i dati non si presentano subito pronti per l’analisi; hanno quindi bisogno di
essere “puliti”.
Le due principali tipologie di contaminazione sono:
● Dati anomali ( outlier ): è utile l’analisi esplorativa tramite index plot, che permette
identificarli immediatamente
Nel caso di presenza di outlier, lo si può:
○ sostituire con un dato missing
, se si pensa che sia un errore di data entry
○ rimuovere il record, se si crede che se pur raro sia vero
○ Sostituire il valore
, secondo delle regole di sostituzione
● Dati mancanti ( missing ) : in questo caso, le soluzioni sono due
○ Listwise deletion: conservo solo i record che sono completi, con un forte costo
informativo.
○ Pairwise deletion: lavoro solo sui dati che ho, ma attenzione al venirsi a creare
di situazioni di non comparabilità (se faccio una media su 100 valori non
posso confrontarla con una fatta su 150)
Analisi fattoriale
Nei casi pratici il numero di variabili può essere molto elevato.
Può quindi essere utile ridurre il numero delle variabili, raggruppandoli in un numero più
limitato, chiamate fattori, che contenendo l’informazione di più variabili, rappresentano le
dimensioni rilevanti del fenomeno analizzato.
I fattori, auspicabilmente, devono essere incorrelati o debolmente correlati
A questo scopo è fondamentale l’ analisi fattoriale, ovvero un metodo statistico usato per
identificare una struttura latente di relazioni tra più variabili al fine appunto di essere descritte
con un numero più limitato di variabili di sintesi, i fattori appunto.
Obiettivo:
1. Sintetizzare l’informazione (evita la ridondanza delle informazioni nei dati)
2. Rendere le informazioni più interpretabili e semplice
Presupposti:
1. basata su variabili quantitative (o poche variabili dummy qualitative)
2. basata su matrice di correlazione dei dati
Ma qual’è la logica?
Partizione della varianza delle variabili.
!Ogni varianza può essere scomposta in 2 componenti: una specifica e una comune, spiegata
dalla covarianza.
In questo caso vediamo come le covarianze sono relativamente basse, quindi c’è molta parte
specifica e bassa comunalità, con conseguente bassa ridondanza di informazioni.
Maggiori sono i valori all'interno della matrice di correlazione, maggiore sarà la varianza
comune e quindi la capacità dell'analisi fattoriale di trovare strutture latenti che permettano di
eliminare variabili e aumentare la leggibilità (riducendo la ridondanza)
Derivazione dei fattori
Come derivo i fattori? Tramite metodi di analisi dei dati; ogni fattore è una combinazione
lineare di tutte le variabili analizzate , ed è importante tenere a mente 3 cose:
1. il numero dei fattori nella soluzione iniziale è uguale al numero delle variabili
a. Infatti se chiediamo a SPSS di derivare il numero dei fattori=numero delle
variabili, le 14 variabili dell’esempio vengono implicitamente sottoposte
all ’operazione di standardizzazione, ottenendo quindi media 0 e varianza 1
Questo processo, che mantiene il numero di fattori uguali al numero delle
variabili, mantiene la varianza uguale.
Il metodo di estrazione è l ’analisi dei componenti principali
ogni fattore ha quindi in sé una parte di ogni variabile con peso diverso
notiamo però che anche se la varianza totale resta sempre uguale, il peso dei
singoli fattori non è assolutamente uguale, ed è disposto in senso decrescente.
Notiamo quindi che, ad esempio, i primi 4 componenti spiegano il 55% della
varianza cumulativa.
Il mio obiettivo è quindi di scartare quelli poco significativi e prendere solo
quelli che in maniera aggregata mi danno più info
2. i fattori sono tra loro indipendenti
3. I fattori sono ordinati in termini di varianza decrescente ( autovalori)
Estrazione dei valori
(Metodo di estrazione: Matrice dei Componenti , ovvero vado a fare una matrice di
correlazione tra fattori e variabili )
Ci sono varie regole che possono essere usate per l’estrazione dei fattori:
1. Kaiser : estraggo quelli con autovalore >1 (colonna “Totale”), utile in fase esplorativa
Qui abbiamo che quella iniziale era 1 poiché i fattori erano 14 come le variabili,
Ade
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.