Big Data
1 - Oggi
•• Nel 2009, quando è scoppiata l’epidemia di H1N1 il sistema previsionale di Google si è dimostrato più
utile e tempestivo delle statistiche governative (le quali impiegavano due settimane) per l’individuazione dei
focolai, e ha dato informazioni preziose alle autorità sanitarie. Il metodo di Google è basato sui big data,
cioè sulla capacità di sfruttare le informazioni per ricavarne utili indicazioni, o beni e servizi di valore. Altro
esempio per capire l’utilità dei big data è l’acquisto di biglietti aerei (Etzioni ha comprato un biglietto aereo
molto prima pensando di risparmiare, ma si è accorto che così non è stato e allora crea un sistema che,
attraverso l’analisi dei big data, può suggerire agli acquirenti se e quando comprare un biglietto per
risparmiare il più possibile: Farecast, ultimamente comprato da Microsoft e integrato in Bing). I dati
possono essere quindi riusati per creare una nuova forma di valore.
1.1 - Lasciar parlare i dati
•• Non esiste una definizione rigorosa di big data. Inizialmente sono stati così chiamati perché
rappresentavano un volume di informazioni troppo grosso per essere immagazzinato nella memoria di un
computer per la sua processazione, quindi gli ingegneri dovevano trovare nuovi strumenti di analisi, in
grado appunto di processare quantità di dati molto superiori a prima.
Oggi con big data intendiamo un insieme di cose che si possono fare solo su larga scala, per estrapolare
nuove indicazioni o per creare nuove forme di valore, con modalità che modificano mercati, organizzazioni,
relazioni tra cittadini e governi… La vera rivoluzione non sta nelle macchine che elaborano i dati, ma nei
dati in sé e nel modo in cui li usiamo. Google processa oltre 24 petabyte di dati al giorno. In tutti i settori, la
quantità di dati disponibili nel mondo sta crescendo rapidamente e supera non solo la capacità di
elaborazione delle nostre macchine, ma anche la nostra immaginazione. Negli anni si riduce il volume di
dati in forma analogica e cresce (raddoppiando ogni tre anni) il volume di dati in forma digitale (2007: 65
exabyte; 2014: 650 exabyte). Il fenomeno è quindi in costante accelerazione. La quantità di informazioni
contenute negli archivi elettronici cresce quattro volte più in fretta dell’economia mondiale, mentre la
capacità di elaborazione dei computer cresce nove volte più in fretta. Un cambiamento quantitativo produce
un cambiamento qualitativo: un dipinto è simile a una foto (che è istantanea, ma è la stessa cosa).
L’istantaneità della foto produce però la possibilità di fare un video: questo è un cambiamento qualitativo.
Quando aumentiamo la mole di dati con cui lavoriamo, possiamo fare nuove cose che non erano possibili
con minori quantità di dati. I big data sono quindi una fonte di potere economico e sociale. Nella loro
essenza, i big data hanno a che fare con le previsioni. In futuro, molti aspetti del nostro mondo verranno
potenziati o sostituiti da sistemi di valutazione automatici che oggi vengono ancora svolti dagli umani (non
solo guidare o combinare incontri amorosi, ma anche compiti più complessi).
1.2 - Più numerosi, caotici, sufficienti
•• Con i big data possiamo avere più informazioni che i vecchi campionamenti (grezzi) di una volta non
erano in grado di valutare. In ogni caso, all’aumentare della dimensione, aumenta anche il numero delle
imprecisioni. In cambio di meno errori nel campionamento dobbiamo accettare più errori nella misurazione.
Ci accontentiamo quindi di un trend generale, ma quello che perdiamo in accuratezza a livello micro lo
recuperiamo in comprensione generale del fenomeno a livello macro. Con i big data abbandoniamo anche
la ricerca della causalità. Le correlazioni non ci dicono esattamente perché accade una certa cosa, ma ci
avvisano almeno che sta accadendo. I big data riguardano il cosa, non il perché. Possiamo lasciare che
siano i dati a parlare per sé (se possiamo risparmiare dei soldi sapendo qual è il momento migliore per
acquistare un biglietto aereo senza conoscere il metodo delle compagnie aeree con cui decidono i prezzi,
va bene lo stesso).
Il grande passo verso una gestione più efficiente dei dati è stato fatto con l’avvento della digitalizzazione.
Se si digitalizzano le informazioni analogiche, l’archiviazione e l’analisi è più facile, veloce e utile. Il
processo di digitalizzazione è chiamato datizzazione. Con la datizzazione si deve passare dalla causalità
(tipica dell’analogico) alla correlazione (Amazon o Netflix che ci consigliano che cosa leggere o vedere). I
dati stanno diventando un input economico vitale. La maggior parte delle nostre convinzioni si basava sul
presupposto che le decisioni umane si fondassero su informazioni limitate, esatte e di natura causale. Oggi
le decisioni possono anche venire prese da macchine e non da esseri umani. I dati in quanto possono
servire a prevedere le cose, possono anche limitare la nostra libertà in maniera preventiva. L’era dei big
data imporrà nuove regole per salvaguardare la sacralità dell’individuo? Dunque: più quantità, meno
esattezza. Meno causalità, più correlazione. Questi sono i big data.
2 - Di più
•• L’era digitale ha reso più facile e veloce processare i dati, grazie alla capacità di effettuare milioni di
calcoli in un istante.
Con i big data tre rivoluzioni: possiamo analizzare enormi quantitativi di dati su un certo argomento e quindi
non siamo più costretti a lavorare su piccoli gruppi di dati per volta; questo ci deve far accettare la
confusione dei dati reali, abbandonando la preferenza per l’esattezza; si deve quindi abbandonare la
causalità per considerare la correlazione. In questo capitolo parliamo del primo aspetto: usare tutti i dati a
disposizione e non solo un campione limitato. Non abbiamo ancora apprezzato la nuova libertà di
raccogliere e usare bacini più vasti di dati. Sin dall’antichità siamo portati a raccogliere e ad analizzare dati.
I censimenti (dal latino “censere”, stimare) che si facevano nell’antichità erano costosi e richiedevano del
tempo. In epoca moderna (Ottocento) i censimenti in America da parte del Census Bureau impiegavano
otto-dodici anni per essere completati, rendendoli inattuali al momento della pubblicazione. Allora si è
pensato di creare un campione rappresentativo dell’insieme da misurare. Ma uno statistico polacco,
Neymann, dimostra che un approccio di questo tipo è soggetto a enormi errori. Per evitarli bisogna puntare
sulla casualità nella composizione del campione. Allora i governi hanno effettuato ogni anno dei mini-
censimenti su scala ridotta usando campioni casuali invece di un solo censimento completo ogni dieci anni.
Il campionamento quindi ha risolto il problema del sovraccarico di informazioni in un’era analogica in cui la
raccolta e l’analisi dei dati erano estremamente problematiche. Il campionamento casuale rappresenta la
spina dorsale della moderna misurazione su scala ridotta, ma è un’alternativa di ripiego alla raccolta e
all’analisi dell’intero insieme di dati. Non è facile garantire la casualità ed è impossibile applicare le
probabilità su sottogruppi di quel campione casuale scelto. Quindi, l’uso del campione non è più utile
quando si vuole scavare più in profondità. Quello che funziona a livello macro non funziona più a livello
micro. Il campionamento è come un’immagine a bassa risoluzione: da lontano sembra soddisfacente, ma
da vicino appare sgranata. Il campionamento, poi, fornisce dei dati che non possono essere riutilizzati per
scopi diversi da quelli per cui sono stati originariamente presi.
2.1 - Da alcuni a tutti
•• Oggi il concetto di campionamento non ha più molto senso, visto che abbiamo a disposizione grandi
quantità di dati. Il campionamento trascura i dettagli. Più si hanno a disposizione maggiori quantità di dati,
più la qualità delle previsioni migliora (Google che scopre la diffusione in singole città di H1N1, Farecast
che migliora la qualità delle previsioni…). Abbandonare il campionamento per cercare informazioni più
complete significa avere una grossa capacità di elaborazione e archiviazione di dati. Big data non è sempre
sinonimo di grandi quantitativi di dati, ma è sinonimo dell’equazione N = tutti, ovvero di “tutti i dati”,
contrario quindi al campionamento. Avere a disposizione il dataset intero vuol dire essere molto più liberi di
esplorare, di esaminare i dati da diverse angolazioni e di studiarne più approfonditamente alcuni aspetti.
3 - Confusi
•• L’incremento dei volumi apre le porte all’inesattezza. L’inesattezza è necessaria se si passa dagli small
data (campionamento, esattezza, che poi è inesattezza perché considera solo una piccola parte di dati) ai
big data. Accettare l’imprecisione, o meglio la confusione, potrebbe essere un vantaggio, non un limite,
perché si possono analizzare molti più dati. Se dobbiamo misurare la temperatura in un vigneto e abbiamo
un solo termometro, questo dev’essere molto preciso e costoso. Se invece abbiamo centinaia di termometri
sparsi per l’appezzamento di terra, possiamo usare sensori più economici e meno sofisticati, e l’insieme di
tante misurazioni fornisce un quadro più esauriente (“a volte 2+2 può fare 3,9, e si tratta di un risultato
abbastanza buono”). I big data trasformano le cifre in qualcosa di probabilistico piuttosto che di preciso. È
meglio avere tanti dati piuttosto che pochi (questo migliora anche gli algoritmi che fanno funzionare i
programmi); e conviene avere più dati aggregati che meno dati disgregati in forma analitica. Google ha
fatto meglio con la traduzione del progetto Candide dell’IBM perché ha inserito miliardi di frasi e non milioni
di frasi: ha quindi deciso di tollerare la confusione. L’uso di un dataset più grande ha permesso di fare
grandi passi avanti nella processazione del linguaggio naturale. Secondo Norvig (maestro dell’intelligenza
artificiale), modelli semplici che usano molti dati sono più utili di modelli complessi che usano pochi dati.
3.1 - I più numerosi vincono sui migliori
•• La confusione non è una caratteristica intrinseca dei big data, ma deriva dall’imperfezione degli strumenti
che usiamo per registrare e analizzare le informazioni. Se la tecnologia dovesse diventare perfetta, il
problema dell’inesattezza scomparirebbe.
3.2 - Il caos in azione
•• Siamo già abituati alla confusione e all’inesattezza: quando riceviamo un messaggio su facebook, con
esattezza ci dice che l’abbiamo ricevuto 11 minuti fa, ma se il tempo cresce, anche l’informazione si fa più
vaga (esempio: 2 ore fa); lo stesso quando i mi piace a un post aumentano vorticosamente fino a superare
il migliaio. Il concetto di un’unica versione della verità è arrivato al capolinea. Prima i database erano
strutturati (SQL, linguaggio strutturato), mentre adesso sono con linguaggio noSQL, e accetta dati di vari
tipi e di differenti dimensioni e ne permette facilmente il recupero. Ma questi nuovi database richiedono più
risorse di processazione e di archiviazione.
4 - Correlazione
•• Inizialmente Amazon non aveva esperti informatici nel proprio staff e vendeva solo libri consigliati dalla
cosiddetta “Amazon’s voice”, ovvero l’insieme dei critici librari di Amazon, considerato i più influenti degli
USA. Solo in seguito Bezos, fondatore e CEO di Amazon, pensa di poter raccomandare libri ai clienti in
base alle preferenze di acquisto di ognuno. A quel punto, gli editor di Amazon (l’Amazon’s voice) sono stati
licenziati, perché il sistema automatico di raccomandazione era più efficiente e generava più vendite. I
sistemi di raccomandazione introdotti da Amazon hanno fatto emergere preziose correlazioni senza
bisogno di conoscere le cause sottostanti (perché uno che ha letto Freud vorrebbe leggere Marx?): sapere
cosa anche se non si sa perché è più che sufficiente.
4.1 - Previsioni e predilezioni
•• Una correlazione quantifica la relazione statistica tra i valori di due dati. Una correlazione è alta se al
variare di un valore varia anche l’altro. Una correlazione è bassa se al variare di un valore l’altro rimane
quasi invariato. È ovvio che anche le correlaz
-
Riassunto esame Epistemologia dei nuovi media, prof.ssa Numerico, libro consigliato L'umanista digitale, Fiormonte,…
-
Riassunto esame Epistemologia dei nuovi media, prof.ssa Numerico, libro consigliato L'abisso dei social media - Nuo…
-
Riassunto esame Teoria dei nuovi media, prof Degiovanni, libro consigliato Media New Media Postmedia, Quaranta
-
Riassunto esame Sociologia dei nuovi Media, prof. Santoro, libro consigliato Nuovi media, vecchi media, M. Santoro