Estratto del documento

Big Data

1 - Oggi

•• Nel 2009, quando è scoppiata l’epidemia di H1N1 il sistema previsionale di Google si è dimostrato più

utile e tempestivo delle statistiche governative (le quali impiegavano due settimane) per l’individuazione dei

focolai, e ha dato informazioni preziose alle autorità sanitarie. Il metodo di Google è basato sui big data,

cioè sulla capacità di sfruttare le informazioni per ricavarne utili indicazioni, o beni e servizi di valore. Altro

esempio per capire l’utilità dei big data è l’acquisto di biglietti aerei (Etzioni ha comprato un biglietto aereo

molto prima pensando di risparmiare, ma si è accorto che così non è stato e allora crea un sistema che,

attraverso l’analisi dei big data, può suggerire agli acquirenti se e quando comprare un biglietto per

risparmiare il più possibile: Farecast, ultimamente comprato da Microsoft e integrato in Bing). I dati

possono essere quindi riusati per creare una nuova forma di valore.

1.1 - Lasciar parlare i dati

•• Non esiste una definizione rigorosa di big data. Inizialmente sono stati così chiamati perché

rappresentavano un volume di informazioni troppo grosso per essere immagazzinato nella memoria di un

computer per la sua processazione, quindi gli ingegneri dovevano trovare nuovi strumenti di analisi, in

grado appunto di processare quantità di dati molto superiori a prima.

Oggi con big data intendiamo un insieme di cose che si possono fare solo su larga scala, per estrapolare

nuove indicazioni o per creare nuove forme di valore, con modalità che modificano mercati, organizzazioni,

relazioni tra cittadini e governi… La vera rivoluzione non sta nelle macchine che elaborano i dati, ma nei

dati in sé e nel modo in cui li usiamo. Google processa oltre 24 petabyte di dati al giorno. In tutti i settori, la

quantità di dati disponibili nel mondo sta crescendo rapidamente e supera non solo la capacità di

elaborazione delle nostre macchine, ma anche la nostra immaginazione. Negli anni si riduce il volume di

dati in forma analogica e cresce (raddoppiando ogni tre anni) il volume di dati in forma digitale (2007: 65

exabyte; 2014: 650 exabyte). Il fenomeno è quindi in costante accelerazione. La quantità di informazioni

contenute negli archivi elettronici cresce quattro volte più in fretta dell’economia mondiale, mentre la

capacità di elaborazione dei computer cresce nove volte più in fretta. Un cambiamento quantitativo produce

un cambiamento qualitativo: un dipinto è simile a una foto (che è istantanea, ma è la stessa cosa).

L’istantaneità della foto produce però la possibilità di fare un video: questo è un cambiamento qualitativo.

Quando aumentiamo la mole di dati con cui lavoriamo, possiamo fare nuove cose che non erano possibili

con minori quantità di dati. I big data sono quindi una fonte di potere economico e sociale. Nella loro

essenza, i big data hanno a che fare con le previsioni. In futuro, molti aspetti del nostro mondo verranno

potenziati o sostituiti da sistemi di valutazione automatici che oggi vengono ancora svolti dagli umani (non

solo guidare o combinare incontri amorosi, ma anche compiti più complessi).

1.2 - Più numerosi, caotici, sufficienti

•• Con i big data possiamo avere più informazioni che i vecchi campionamenti (grezzi) di una volta non

erano in grado di valutare. In ogni caso, all’aumentare della dimensione, aumenta anche il numero delle

imprecisioni. In cambio di meno errori nel campionamento dobbiamo accettare più errori nella misurazione.

Ci accontentiamo quindi di un trend generale, ma quello che perdiamo in accuratezza a livello micro lo

recuperiamo in comprensione generale del fenomeno a livello macro. Con i big data abbandoniamo anche

la ricerca della causalità. Le correlazioni non ci dicono esattamente perché accade una certa cosa, ma ci

avvisano almeno che sta accadendo. I big data riguardano il cosa, non il perché. Possiamo lasciare che

siano i dati a parlare per sé (se possiamo risparmiare dei soldi sapendo qual è il momento migliore per

acquistare un biglietto aereo senza conoscere il metodo delle compagnie aeree con cui decidono i prezzi,

va bene lo stesso).

Il grande passo verso una gestione più efficiente dei dati è stato fatto con l’avvento della digitalizzazione.

Se si digitalizzano le informazioni analogiche, l’archiviazione e l’analisi è più facile, veloce e utile. Il

processo di digitalizzazione è chiamato datizzazione. Con la datizzazione si deve passare dalla causalità

(tipica dell’analogico) alla correlazione (Amazon o Netflix che ci consigliano che cosa leggere o vedere). I

dati stanno diventando un input economico vitale. La maggior parte delle nostre convinzioni si basava sul

presupposto che le decisioni umane si fondassero su informazioni limitate, esatte e di natura causale. Oggi

le decisioni possono anche venire prese da macchine e non da esseri umani. I dati in quanto possono

servire a prevedere le cose, possono anche limitare la nostra libertà in maniera preventiva. L’era dei big

data imporrà nuove regole per salvaguardare la sacralità dell’individuo? Dunque: più quantità, meno

esattezza. Meno causalità, più correlazione. Questi sono i big data.

2 - Di più

•• L’era digitale ha reso più facile e veloce processare i dati, grazie alla capacità di effettuare milioni di

calcoli in un istante.

Con i big data tre rivoluzioni: possiamo analizzare enormi quantitativi di dati su un certo argomento e quindi

non siamo più costretti a lavorare su piccoli gruppi di dati per volta; questo ci deve far accettare la

confusione dei dati reali, abbandonando la preferenza per l’esattezza; si deve quindi abbandonare la

causalità per considerare la correlazione. In questo capitolo parliamo del primo aspetto: usare tutti i dati a

disposizione e non solo un campione limitato. Non abbiamo ancora apprezzato la nuova libertà di

raccogliere e usare bacini più vasti di dati. Sin dall’antichità siamo portati a raccogliere e ad analizzare dati.

I censimenti (dal latino “censere”, stimare) che si facevano nell’antichità erano costosi e richiedevano del

tempo. In epoca moderna (Ottocento) i censimenti in America da parte del Census Bureau impiegavano

otto-dodici anni per essere completati, rendendoli inattuali al momento della pubblicazione. Allora si è

pensato di creare un campione rappresentativo dell’insieme da misurare. Ma uno statistico polacco,

Neymann, dimostra che un approccio di questo tipo è soggetto a enormi errori. Per evitarli bisogna puntare

sulla casualità nella composizione del campione. Allora i governi hanno effettuato ogni anno dei mini-

censimenti su scala ridotta usando campioni casuali invece di un solo censimento completo ogni dieci anni.

Il campionamento quindi ha risolto il problema del sovraccarico di informazioni in un’era analogica in cui la

raccolta e l’analisi dei dati erano estremamente problematiche. Il campionamento casuale rappresenta la

spina dorsale della moderna misurazione su scala ridotta, ma è un’alternativa di ripiego alla raccolta e

all’analisi dell’intero insieme di dati. Non è facile garantire la casualità ed è impossibile applicare le

probabilità su sottogruppi di quel campione casuale scelto. Quindi, l’uso del campione non è più utile

quando si vuole scavare più in profondità. Quello che funziona a livello macro non funziona più a livello

micro. Il campionamento è come un’immagine a bassa risoluzione: da lontano sembra soddisfacente, ma

da vicino appare sgranata. Il campionamento, poi, fornisce dei dati che non possono essere riutilizzati per

scopi diversi da quelli per cui sono stati originariamente presi.

2.1 - Da alcuni a tutti

•• Oggi il concetto di campionamento non ha più molto senso, visto che abbiamo a disposizione grandi

quantità di dati. Il campionamento trascura i dettagli. Più si hanno a disposizione maggiori quantità di dati,

più la qualità delle previsioni migliora (Google che scopre la diffusione in singole città di H1N1, Farecast

che migliora la qualità delle previsioni…). Abbandonare il campionamento per cercare informazioni più

complete significa avere una grossa capacità di elaborazione e archiviazione di dati. Big data non è sempre

sinonimo di grandi quantitativi di dati, ma è sinonimo dell’equazione N = tutti, ovvero di “tutti i dati”,

contrario quindi al campionamento. Avere a disposizione il dataset intero vuol dire essere molto più liberi di

esplorare, di esaminare i dati da diverse angolazioni e di studiarne più approfonditamente alcuni aspetti.

3 - Confusi

•• L’incremento dei volumi apre le porte all’inesattezza. L’inesattezza è necessaria se si passa dagli small

data (campionamento, esattezza, che poi è inesattezza perché considera solo una piccola parte di dati) ai

big data. Accettare l’imprecisione, o meglio la confusione, potrebbe essere un vantaggio, non un limite,

perché si possono analizzare molti più dati. Se dobbiamo misurare la temperatura in un vigneto e abbiamo

un solo termometro, questo dev’essere molto preciso e costoso. Se invece abbiamo centinaia di termometri

sparsi per l’appezzamento di terra, possiamo usare sensori più economici e meno sofisticati, e l’insieme di

tante misurazioni fornisce un quadro più esauriente (“a volte 2+2 può fare 3,9, e si tratta di un risultato

abbastanza buono”). I big data trasformano le cifre in qualcosa di probabilistico piuttosto che di preciso. È

meglio avere tanti dati piuttosto che pochi (questo migliora anche gli algoritmi che fanno funzionare i

programmi); e conviene avere più dati aggregati che meno dati disgregati in forma analitica. Google ha

fatto meglio con la traduzione del progetto Candide dell’IBM perché ha inserito miliardi di frasi e non milioni

di frasi: ha quindi deciso di tollerare la confusione. L’uso di un dataset più grande ha permesso di fare

grandi passi avanti nella processazione del linguaggio naturale. Secondo Norvig (maestro dell’intelligenza

artificiale), modelli semplici che usano molti dati sono più utili di modelli complessi che usano pochi dati.

3.1 - I più numerosi vincono sui migliori

•• La confusione non è una caratteristica intrinseca dei big data, ma deriva dall’imperfezione degli strumenti

che usiamo per registrare e analizzare le informazioni. Se la tecnologia dovesse diventare perfetta, il

problema dell’inesattezza scomparirebbe.

3.2 - Il caos in azione

•• Siamo già abituati alla confusione e all’inesattezza: quando riceviamo un messaggio su facebook, con

esattezza ci dice che l’abbiamo ricevuto 11 minuti fa, ma se il tempo cresce, anche l’informazione si fa più

vaga (esempio: 2 ore fa); lo stesso quando i mi piace a un post aumentano vorticosamente fino a superare

il migliaio. Il concetto di un’unica versione della verità è arrivato al capolinea. Prima i database erano

strutturati (SQL, linguaggio strutturato), mentre adesso sono con linguaggio noSQL, e accetta dati di vari

tipi e di differenti dimensioni e ne permette facilmente il recupero. Ma questi nuovi database richiedono più

risorse di processazione e di archiviazione.

4 - Correlazione

•• Inizialmente Amazon non aveva esperti informatici nel proprio staff e vendeva solo libri consigliati dalla

cosiddetta “Amazon’s voice”, ovvero l’insieme dei critici librari di Amazon, considerato i più influenti degli

USA. Solo in seguito Bezos, fondatore e CEO di Amazon, pensa di poter raccomandare libri ai clienti in

base alle preferenze di acquisto di ognuno. A quel punto, gli editor di Amazon (l’Amazon’s voice) sono stati

licenziati, perché il sistema automatico di raccomandazione era più efficiente e generava più vendite. I

sistemi di raccomandazione introdotti da Amazon hanno fatto emergere preziose correlazioni senza

bisogno di conoscere le cause sottostanti (perché uno che ha letto Freud vorrebbe leggere Marx?): sapere

cosa anche se non si sa perché è più che sufficiente.

4.1 - Previsioni e predilezioni

•• Una correlazione quantifica la relazione statistica tra i valori di due dati. Una correlazione è alta se al

variare di un valore varia anche l’altro. Una correlazione è bassa se al variare di un valore l’altro rimane

quasi invariato. È ovvio che anche le correlaz

Anteprima
Vedrai una selezione di 3 pagine su 9
Riassunto esame Epistemologia dei nuovi media, prof.ssa Numerico, libro consigliato Big Data - Una rivoluzione che trasformerà il nostro modo di vivere e già minaccia la nostra libertà, Schönberger e Cukier Pag. 1 Riassunto esame Epistemologia dei nuovi media, prof.ssa Numerico, libro consigliato Big Data - Una rivoluzione che trasformerà il nostro modo di vivere e già minaccia la nostra libertà, Schönberger e Cukier Pag. 2
Anteprima di 3 pagg. su 9.
Scarica il documento per vederlo tutto.
Riassunto esame Epistemologia dei nuovi media, prof.ssa Numerico, libro consigliato Big Data - Una rivoluzione che trasformerà il nostro modo di vivere e già minaccia la nostra libertà, Schönberger e Cukier Pag. 6
1 su 9
D/illustrazione/soddisfatti o rimborsati
Acquista con carta o PayPal
Scarica i documenti tutte le volte che vuoi
Dettagli
SSD
Scienze storiche, filosofiche, pedagogiche e psicologiche M-FIL/02 Logica e filosofia della scienza

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher simone.scacchetti di informazioni apprese con la frequenza delle lezioni di Epistemologia dei nuovi media e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi Roma Tre o del prof Numerico Teresa.
Appunti correlati Invia appunti e guadagna

Domande e risposte

Hai bisogno di aiuto?
Chiedi alla community