Che cosa si intende per Big Data? un insieme di dati talmente grandi da
Il termine ha origine in ambito informatico e si riferisce a
non poter essere immagazzinati nella memoria di un singolo computer.
L’unico modo per gestire tali set di dati è spezzettando il sta set in blocchi di dimensioni più
ridotte, che vengono distribuiti su molti computer collegati in cloud.
Ogni minuto:
- 300.000 tweet
- 70.000 ore di video Netflix
- 30.000 app Apple
- 2.000.000 foto su instagram
I Big Data vengono definiti attraverso le 3 V:
- Volume: quantità di dati
- Velocità: rapidità con cui sono generati
- Varietà: diversità di formati e fonti
Un’azienda che intende sfruttare questo tipo di informazioni deve dotarsi di un sistema hardware
che sia in grado di gestire tali moli di dati attraverso la predisposizione di server adeguati.
L’azienda deve procurarsi, inoltre, personale con competenze informatiche necessarie per
organizzare i dati in un formato fruibile da chi poi deve effettuare le analisi.
Tipi di dati.
I dati che compongono un tipico set di tipo Big data possono avere diversa natura:
- dati strutturati: ovvero dati che sono rappresentabili in formato tabellare, ovvero che si trovano
in un file (solitamente Excel), nel quale i singoli campi sono ben separati e identificabili
- dati non strutturati: dati che non è possibile rappresentare in formato tabellare, come ad
esempio dati testuali (email, pdf, foto, tweet, video, audio). L’analisi di tal dati richiede l’uso di
tecniche ad hoc che solitamente prevedono delle operazioni preliminari di “pulizia e
trasformazione” dei dati stessi.
analytics
Gli come obiettivo quello di estrarre informazioni utili dai dati e includono anche
operazioni di raccolta, pulizia e sintesi degli stessi.
Tipi di analytics
- Descriptive analytics: l’obiettivo è riassumere ciò che è accaduto in passato. Gli output sono
generalmente report. Un esempio di descriptive consiste nel valutare quali sono le
caratteristiche dei clienti più attivi negli ultimi 3 mesi.
- Predictive analytics: l’obiettivo è determinare cosa potrebbe accadere in futuroo. Esempio:
quali segmenti di clienti hanno maggiori probabilità di rispondere a una nuova campagna
promozionale?
- Prescriptive analytics: forniscono indicazioni sui potenziali risultati di una decisione e indicano
cosa accadrà se tali risultati saranno raggiunti. Vengono solitamente utilizzate per individuare le
azioni ottimali da intraprendere per raggiungere gli obiettivi di business.
Esplorazione dei dati.
L’esplorazione dei dati consente di individuare pattern/relazioni potenzialmente di interesse ed
eventuali anomalie. L’esplorazione dei dati si effettua con gli strumenti di descriptive analytics.
Es. misurazioni di fatturato
Es. quanti articoli hai acquistato?
Es. genere, settore
Es. grado di soddisfazione, classe di merito
L’esplorazione dei dati si effettua dapprima analizzando le caratteristiche di ogni singola variabile
(analisi univariate) e successivamente verificando se le varie coppie di variabili sono legate da un
qualche tipo di relazione (analisi bivariate).
Gli strumenti principali per le analisi univariate sono:
- tabele delle frequenze
- Rappresentazioni grafiche univariate (diagrammi a barre o torta, istogrammi, box plot.)
- Statistiche d sintesi (media, mediana, deviazione standard…)
Gli strumenti principali per le analisi bivariate sono:
- tabelle a doppia entrata
- Rappresentazioni grafiche bivariate (diagrammi a barre impilate, box plot affiancati, diagrammi
di dispersione ecc.)
- Indici di sintesi delle associazioni tra variabili (indici di connessione, indici di correlazione
lineare)
Esempio: Donazioni di ex - alunni
Data set contenente le donazioni di ex-alunni di un’università americana.
Il set è composto da 1230 ex-studenti e contiene le somme di denaro che ognuno di essi ha
donato all’università negli anni 2000 - 2004 (fy00giving - fy04giving)
Il data sed include anche le seguenti variabili:
- gender
Genere -
- class_year
Anno di corso -
- marital_status
Stato civile -
- major
Materia in cui si sono diplomati -
- next_degree
Eventuali titoli conseguiti dopo la laurea -
- attendance_event
Indicatore di partecipazione a uno specifico evento per la raccolta di fondi -
L’obiettivo consiste nell’analisi di questi dati per identificare i principali driver delle donazioni
provenienti da questi ex - studenti.
Esempio di analisi univariate per variabili categoriche:
Analisi univariate per variabili numeriche fortemente influenzato dai valori
Attenzione:
estremi (outlier)
Non è influenzato da valori estremi.
Se mediana e media sono
approssimativamente uguali, la
distribuzione è
approssimativamente
simmetrica.
Attenzione:
estremamente sensibile
agli outlier.
E’ espresso come
percentuale, pertanto è
tipica utilizzato per
confrontare la variabilità di
diverse variabili
Principali misure di sintesi per le quattro variabili che riportano le donazioni effettuate dagli ex-
alunni negli anni 2000 - 2004 (fy00giving - fy04giving):
Il box plot ci permette di evidenziare asimmetrie nella distribuzione o potenziali valori anomali
Di fianco è riportato l’istogramma (a sinistra) e il box
plot (a destra) per la variabile totgiving, dai quali si
conclude che la distribuzione è fortemente
asimmetrica a destra a causa della presenza di
pochi valori molto estremi.
Per evidenziare meglio la distribuzione dei dati,
ripetiamo la stessa analisi ma tralasciando le
donazioni totali pari a 0 e quelle pù grandi di 1000$ verificare se due variabili sono
Dopo aver esplorato i dati con le analisi univariate, è opportuno
legate tra loro analisi
da qualche tipo di relazione, questo tipo di analisi vanno sotto il nome di
bivariate.
Analisi bivariate - Numerica vs categorica.
Supponiamo di voler confrontare l’importo complessivo delle donazioni nei due sottogruppi di ex-
studenti che hanno partecipato all’evento di raccolta fondi e quelli che non hanno partecipato al
medesimo evento.
se il fatto di aver partecipato a quell’evento ha determinato una
Vogliamo capire
distribuzione delle somme donate diversa.
Se così fosse, potremo concludere che esiste un’associazione tra il totale donato e la
partecipazione all’evento.
Una rappresentazione grafica adatta per fare questo è rappresentata dal confronto dei box plot
corrispondenti ai due gruppi.
Il grafico mostra che:
- l’importo totale mediano donato da coloro che hanno
partecipato all’evento di raccolta fondi è maggiore.
- Coloro che hanno partecipato all’evento di raccolta fondi
mostrano più variabilità nelle loro donazioni totali
- Ci sono casi più estremi tra coloro che hanno partecipato
all’evento rispetto a quelli che non hanno partecipato.
Pertanto, il grafico permette di concludere che le donazioni totali
sembrano essere più elevate tra coloro che hanno partecipato
all’evento.
Questa informazione può essere utile all’università perché finisce
prove a sostegno del fatto che la partecipazione a eventi di
fund-raising contribuisce ad incrementare le donazioni.
Analisi bivariate - Categorica vs categorica.
Supponiamo ora che si desideri verificare se il fatto che un alunno abbia donato o meno, sia
legato in qualche modo alla sua età. tabella a doppia
E’ possibile studiare l’associazione tra due variabili categoriche attraverso una
entrata cross-tab).
(o
Viene creata una nuova variabile, chiamata totgiving_IND, che assume valore 0 se un ex-alunno
non ha donato, oppure assume valore 1 in caso contrario.
Di seguito la tabella che incrocia il totgiving_IND con class_year:
Questa tabella non è molto utile per valutare se le due variabili
dipendono tra loro, perché i totali di riga sono diversi. Pertanto le
frequenze assolute congiunte sulle diverse righe non possono
essere confrontate tra loro.
Per questo motivo calcoliamo le frequenze subordinate,
ottenute dividendo le frequenze assolute congiunte per i totali
delle rispettive righe (espresse in percentuale).
Per semplificarne l’interpretazione, le frequenze subordinate vengono rappresentate con un
diagramma a barre sovrapposte, o “mosaic plot”.
Il grafico mostra che la percentuale di ex-studenti
che hanno donato un ammontare positivo in ciascun anno di laurea, ovvero le altezze dei triangoli
in ciascuna colonna del diagramma, non è la stessa in tutta la tabella. Ad esempio, solo il 60%
circa degli ex-studenti della classe ’97 ha contribuito con una donazione positiva, mentre questa
percentuale sale a circa al 75% per quelli della classe ’57.
Possiamo concludere che le medesime variabili sono in relazione tra loro.
Analisi bivariate - Numerica vs numerica.
L’associazione tra due variabili numeriche si può studiare usando:
- diagramma di dispersione
- Alcuni indici, ovvero la covarianza e il coefficiente di correlazione lineare.
Il diagramma di dispersione mostra con un punto la coppia di valori (x,y) per ognuna delle
osservazioni. Questo diagramma consente di scoprire molte caratteristiche importanti della
relazione che lega le due variabili, in particolare:
- se è presente qualche tipo di relazione
- Se la relazione è di tipo crescente, decrescente.
- Se la relazione è forte o debole
- Il tipo di associazione (cioè se è lineare o non lineare)
- La presenza di outilier o di altre anomalie
Di seguito è riportato il diagramma di dispersione per le donazione effettuate nei primi due anni,
ovvero le donazioni avvenute nel 2001 rispetto a quelle del 2000. Per poter interpretare meglio il
grafico, tronchiamo l’asse verticale a 20000$. Per prima cosa vediamo una chiara associazione
•
tra le due variabili
L’associazione è di tipo crescente, ovvero valori
•
più grandi sull’asse orizzontale sono associati a
valori più grandi anche sull’asse verticale.
L’intensità dell’associazione è moderatamente
•
bassa
L’associazione sembra essere di tipo lineare, il
•
che significa che le donazioni nei due anni sono
proporzionali
Alcune osservazioni anomale sono ancora visibili
•
nella parte in basso a destra del grafico
Covarianza
La misura la presenza di una relazione lineare tra due variabili X e Y.
INFERENZA STATISTICA
L’idea alla base dell’inferenza statistica è quella di approssimare i valori non noti delle
caratteristiche di una popolazione, con quelli delle corrispondenti statistiche campionarie.
parametri,
Le caratteristiche di una popolazione sono dette mentre le caratteristiche
statistiche.
calcolate a partire da un campione sono dette
Per garantire un’approssimazione soddisfacente, è necessario che il campione sia il più
rappresentativo possibile della popolazione di riferimento. in modo
Il modo ottimale di estrarre un campione è selezionare le unità della popolazione
casuale. stima
L’approssimazione del valore del parametro a partire dai dati campionari è detta
puntuale del parametro.
Il valore ottenuto per una particolare stima del parametro dipenderà necessariamente
campioni diversi daranno
dalle osservazioni campionarie quindi è facile capire che
origine a stime diverse del parametro. La stima del parametro che otteniamo è solo una
dei possibili valori che avremmo potuto osservare se avessimo estratto un altro campione
incertezza.
della popolazione, questo comporta che la stima ottenuta è affetta da
distribuzione campionaria
Per intendiamo lo strumento che consente di descrivere la
variabilità campionaria di una stima, ovvero la variabilità della stima che è dovuta al
processo di campionamento.
Una delle caratteristiche principali di una distribuzione di probabilità.è la sua deviazione
standard, la deviazione standard della distribuzione campionaria per una statistica è
errore standard
chiamata della statistica ed è una misura che viene utilizzata per valutare
il grado di affidabilità di una stima.
Media campionaria per la stima della media di una
popolazione:
Varianza della media campionaria:
Varianza campionaria:
Errore standard della media campionaria: gli intervalli
Per valutare l’affidabilità di una stima è possibile usare due diversi strumenti,
di confidenza test.
e i
intervallo di confidenza
Un consiste in un range di valori probabili per il parametro.
La probabilità con cui un intervallo di confidenza contiene il valore non noto del parametro
livello di confidenza.
è detto
test
Un rappresenta una procedura per decidere se, sulla base dei dati campionari, un
insieme del parametro possa essere considerato più verosimile rispetto ad un altro insieme.
Questi due strumenti forniscono informazioni complementari pertanto è possibile usarli
congiuntamente. Intervalli di confidenza
La struttura degli intervalli di confidenza è data da:
STIMA PUNTUALE +/- MARGINE DI ERRORE
dove il margine di errore è definito come:
FATTORE DI AFFIDABILITÀ x ERRORE STANDARD
il fattore di affidabilità è calcolato utilizzando il livello di confidenza scelto
l’errore standard rappresenta una misura della variabilità campionaria della statistica.
Tornando al caso della stima della media di una popolazione normale, è possibile mostrare
che l’intervallo di confidenza è dato da: L’ampiezza dell’intervallo di confidenza dipende
da:
- dimensione del campione: più grande è il
campione, più stretto risulterà l’intervallo,
ovvero più precisa sarà la stima del parametro.
- stima della deviazione standard della
popolazione: più variabile è la popolazione, più
ampio risulterà l’intervallo, ovvero meno precisa
sarà la stima del parametro
- livello di confidenza: più alto è il livello di
confidenza, più ampio risulterà l’intervallo.
L’unico fattore su cui possiamo davvero
intervenire per migliorare l’affidabilità della
stima è di fatto solo la dimensione del
campione.
Esempio:
Consideriamo un’analisi sulla spesa effettuata online da 10000 famiglie in un anno.
• Oltre al totale speso, il data set contiene anche altre informazioni come ad esempio il
• numero di figli, se hanno accesso ad Internet a banda larga e la regione geografica dove
vivono.
Supponiamo di voler usare questo campione per stimare l’ammontare medio speso online
• in un anno dalle famiglie americane, che rappresenta quindi il parametro di interesse in
questa analisi
Vogliamo valutare l’affidabilità di tale stima attraverso un intervallo di confidenza al 95%
• Il percentile della distribuzione è dato da:
• Ne consegue che l’intervallo di confidenza al 95% è dato da:
• Questo intervallo ha una probabilità del 95% di contenere il vero valore non noto della
• media dell’ammontare speso online dalle famiglie americane
Test statistico
test
Un è una procedura il cui obiettivo è valutare quale tra due insiemi di possibili valori
• del parametro risulta essere più verosimile alla luce dei dati campionari
ipotesi nulla ipotesi alternativa,
I due insiemi messi a confronto in un test sono detti e e
• indicate rispettivamente con H0 e H1
L’idea del test è quindi quella di valutare se i dati campionari forniscono sufficienti prove
• empiriche per poter rifiutare l’ipotesi nulla a favore dell’ipotesi alternativa, oppure no.
Ogni test si deve concludere con uno dei seguenti esiti:
•
- rifiuto dell’ipotesi nulla
si decide per il in favore di quella alternativa, perché si ritiene
che i dati campionari forniscano prove sufficientemente convincenti contro l’ipotesi nulla
- non rifiuto dell’ipotesi nulla,
si decide per il poiché si ritiene che i dati campionari non
forniscano prove sufficientemente convincenti per scartarla.
Poiché come sappiamo il campione rappresenta una parte spesso molto piccola dell’intera
• popolazione, nel prendere la decisione finale circa il rifiuto di H0 potremmo sbagliarci.
La probabilità di rifiutare erroneamente l’ipotesi nulla viene indicata con e viene
• livello di significatività
chiamato del test.
Il valore di comunemente usato è il 5%
•
Operativamente ogni test consiste nei seguenti passi:
1. Si stabiliscono le ipotesi nulla e alternativa che si desidera confrontare
statistica test,
2. Si calcola una quantità, detta che fornisce una misura di quanto i
risultati campionari siano distanti dai valori inclusi nell’ipotesi nulla. Solitamente un
valore vicino a zero della statistica test indica che l’ipotesi nulla non può essere
rifiutata, mentre i valori grandi della statistica test indicano il contrario
p-value
3. Si calcola una seconda quantità, il cosiddetto del test, che è definito come la
probabilità di osservare valori uguali o più estremi della statistica test rispetto a quello
effettivamente osservato assumendo che i dati provengano da una popolazione in cui
l’ipotesi nulla è vera. Più piccolo è il p-value, più convincenti sono le prove fornite dai
dati contro l’ipotesi nulla
4. Dopo aver fissato un livello di significatività (solitamente 5%), si rifiuta l’ipotesi nulla
se il p-value risulta essere inferiore ad
Esempio:
Torniamo
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.