Data journalism
Giornalismo che utilizza i dati che si trovano come “open data”, che si possono trovare in diverse piattaforme. Infografiche de “Il Sole 24 Ore”: forma di visualizzazione dei dati. La statistica aiuta a stare al mondo. Viviamo in un mondo di tantissimi dati, soprattutto quelli dei social media. Questi dati possono essere utilizzati, volendo anche in maniera non corretta.
La statistica è uno strumento che aiuta a cercare problemi di “false notizie” o notizie marginali, è un mezzo economico per capire cosa ci gira intorno e quali sono le notizie utili e quelle “spazzatura”. La statistica è una disciplina che serve a tutti, ai cittadini comuni. La statistica ci fornisce un modo per leggere la realtà e fare delle decisioni consapevoli. A differenza della matematica, che non serve a prendere decisioni, la statistica consente di raccogliere le informazioni per ottenere degli strumenti che ci fanno prendere delle decisioni, utilizzando anche un set di informazioni non completo.
Domande a cui la statistica può rispondere
- Un laureato avrà reddito annuo più alto di un non-laureato?
- Il prezzo delle azioni X tra tre mesi sarà più alto di quello attuale?
Molte, anzi, quasi tutte le scienze usano la statistica.
Storia della statistica
Il termine “statistica” deriva dalla parola “stato”, inizialmente si occupava dei numeri, dei dati che possono interessare allo stato, come la numerosità della popolazione, il censimento, le quantità di grano. Tuttavia, la formalizzazione matematica della statistica è molto più recente. La statistica come si conosce adesso e come si sviluppa adesso è molto giovane, ha un secolo. Si è sviluppata intorno agli anni ‘20 del Novecento.
La parte adesso più utilizzata è l’inferenza statistica, ovvero la caratteristica di utilizzare delle informazioni non complete e riuscire a dare delle risposte complete su tutta la popolazione. Con lo sviluppo dell’informatica si è dato via a delle analisi più potenti. I “data scientist” sono dei ricercatori che sono in grado di coniugare informatica e statistica in modo avanzato. Un altro elemento è l’incontro della statistica con il calcolo delle probabilità, avvenuto intorno al XVIII secolo. Ciò gli ha fornito delle capacità ancora più potenti, sulle quali si basa l’inferenza statistica.
Ci sono molteplici definizioni di statistica, ma quella che più si avvicina alla materia è: “l’arte e la scienza di imparare dai dati”.
Contesto nella statistica
Nella statistica si parte sempre da un contesto (dal particolare al generale) in cui si sceglie i dati. Bisogna poi astrarre questi dati dal contesto, utilizzando la metodologia statistica. Si torna, poi, al contesto interpretando i dati iniziali lavorati con la metodologia statistica.
La statistica e la matematica
La statistica, come la matematica, è una scienza quantitativa, che si distanzia dalla sua “cugina” perché:
- Non prescinde dal contesto
- Non si basa sulla deduzione, ma sull’induzione (dal particolare al generale)
La matematica ha un ruolo strumentale, cioè consente di costruire gli strumenti che permettono l’analisi statistica.
Statistica e statistica sociale
La statistica sociale sviluppa un particolare interesse per fenomeni sociali e dà un’interpretazione sociale dei dati della statistica.
ISTAT
L’ISTAT è il nostro istituto nazionale di statistica, è indipendente. Deve fornire informazioni complete e di ottima qualità per quanto riguarda moltissimi fenomeni di interesse nella società (economia, società...). È il luogo dove troviamo le statistiche ufficiali, ovvero quelle statistiche prodotte da enti ufficiali. La loro ufficialità viene dalla legge che nomina gli enti che sono in grado di produrre statistiche ufficiali.
Quando c’è bisogno di informazioni di qualità e ufficiali vanno cercate in questi enti ufficiali coordinati dall’ISTAT. Ogni anno l’ISTAT fa delle statistiche inerenti a degli ambiti più particolari e sociali. Ogni 3 mesi l’ISTAT fa delle statistiche riguardanti il lavoro e l’occupazione. Intorno alla fine di ottobre c’è stata la giornata in cui si celebra l’ISTAT, dove i ricercatori dell’ISTAT hanno spiegato il censimento permanente. Quest’anno hanno portato l’esperienza della giornata tipo e i dati personali principali di due giovani, attraverso la prospettiva delle statistiche ufficiali.
Il processo statistico
Il processo statistico parte dalla “Raccolta delle informazioni” dove per informazioni si intendono fatti o proposizioni utilizzati per trarre una conclusione o prendere una decisione.
Es. “Quale film dovremmo andare a vedere?” Si basano sul parere di chi ha già visto il film. Questo è un modo di raccogliere le informazioni. Le persone a cui chiedono del film sono la totalità degli individui che sono accomunati da un fenomeno. La statistica si vuole occupare di fenomeni collettivi (es. natalità, numero di bambini che nascono in un giorno), raramente di fenomeni individuali. Per i fenomeni collettivi è difficile, ma necessario, trovare dei sistemi di sintesi (per non guardare ogni singolo dato). Devo trovare una sintesi che sia in grado di farmi comprendere questo fenomeno. Un fenomeno collettivo solitamente interessa una popolazione, un intero raggruppamento di persone, cose o oggetti, sulla quale si osservano dei fenomeni.
Al 1º gennaio 2017 i residenti in Italia sono 60 milioni 579 mila. E a Firenze? 382258. Il censimento in Italia c’è stato dal 1861, ogni 10 anni non contando i periodi bellici. Adesso, invece, non esiste più il censimento di prima. Ora si chiama “Censimento permanente”, e non viene più fatto su tutta la popolazione, ma su dei campioni scelti sulla popolazione. Il fine è sempre lo stesso: conoscere le informazioni dettagliate. Le informazioni costano, e questo nuovo tipo di censimento costa meno rispetto al precedente.
Il campione è una parte, porzione della popolazione che viene selezionato attraverso dei criteri definiti, in questo caso secondo il sistema probabilistico. Il campione è rappresentativo, riproduce la popolazione in maniera adatta ad ottenere informazioni su tutta la popolazione. Supponiamo che la popolazione sia costituita da noi in questa stanza. Voglio estrarre dei campioni tra noi. È necessario estrarre il campione attraverso dei criteri probabilistici, in questo caso casuale, se conosco la probabilità d’estrazione di tutta la popolazione. Se conoscessi le probabilità di tutti i campioni allora quello è un campione casuale. Il campionamento casuale è rappresentativo perché, se conosco la distribuzione campionaria, ho riprodotto la mia popolazione.
La dimensione dell’elemento campionario è il numero della dimensione elevato alla seconda (es. 4 di popolazione, 16 diversi modi di prendere due campioni).
Statistica e parametro
- Parametro -> sintesi del fenomeno di interesse nella popolazione (misurazione dell’altezza di tutti).
- Statistica -> sintesi numerica di un fenomeno di interesse nel campione (misurazione dell’altezza dei campioni). Insieme al dato si avrà anche la misura di errore (range) che si avvicina al valore del parametro.
Statistica divisa in due parti
Statistica descrittiva: si occupa di tecniche e metodi per collezionare, sintetizzare ed elaborare i dati in modo da trasformarli in informazioni.
Statistica inferenziale: si concentra sui risultati ottenuti da un campione.
Statistica descrittiva variabile carattere
Una caratteristica rilevata su una unità statistica prende il nome di variabile o carattere (dati qualitativi, come il colore degli occhi, non quantitativi). I possibili valori di una variabile prendono il nome di modalità. Es. variabile = colore occhi, modalità = verdi, grigi, azzurri, marroni...
Esistono modalità infinite, come l’altezza, e modalità ordinarie (poco, tanto, molto...).
Le variabili si dividono in:
- Qualitative (variabili categoriche)
- Nominali (o sconnesse) -> scala nominale
- Cicliche -> scala ordinale
- Quantitative (variabili numeriche)
- Discrete (limitata) -> scala a intervalli
- Continue (illimitata) -> scala di rapporti
Es. Considero il numero di teste (moneta) in una serie di 5 lanci di una moneta = è una variabile quantitativa perché viene fuori un numero ed in più è discreta. I valori che questa variabile può ottenere sono: 0, 1, 2, 3, 4, 5. Con il numero limito il numero di queste e perciò è discreta.
Es. I km percorsi con un pieno di benzina da una Toyota Prius. Il numero che risulta in questo esempio riguarda una lunghezza, ovvero una variabile fisica che può avere un numero infinito di modalità. Per questo è una variabile quantitativa continua.
Spesso la classificazione di una variabile dipende da come viene misurata da delle scale di misura. Se rileviamo l’età di una persona, questa può essere rilevata in tanti modi. Se chiediamo l’età, l’età è una variabile di tempo e di sua natura, continua. In realtà possiamo anche misurarla in maniera discreta chiedendo gli anni compiuti (finiti).
Dal punto di vista simbolico le variabili si scrivono con le lettere maiuscole (X, Y, Z). Le modalità si scrivono con le lettere minuscole (x1, x2...).
X = colore occhi (Variabile)
x1 = azzurri (Modalità)
x2 = verdi...
Le variabili qualitative vengono misurate con:
- Scala nominale: si riferisce a qualcosa che si può etichettare e che identifica delle categorie (es. colore degli occhi -> verdi, blu, marroni...). I possibili valori che può assumere la variabile non hanno un valore numerico ma solo un valore egualitario. Anche se ci sono dei numeri, può darsi che siano nominali (per risparmiare tempo; occhi verdi (1), occhi blu (2)...). Non si possono ordinare.
- Es. variabile = possesso di iPod, modalità = si/no; variabile = tipologie di auto, modalità = Fiat 500, Fiat punto....
- Scala ordinale: variabilità riferita con etichette e categorie. I valori che può assumere la variabile possono essere stabiliti se una viene prima dell’altra (es. titolo di studio -> licenza elementare, licenza media, diploma, laurea, post laurea...); posso dire anche qui se sono egualitarie, ma posso anche ordinarle. Possono individuare un ordinamento fra le modalità della variabile. L’ordinamento deriva dal fatto che il titolo di studio deriva da variabilità quantitative che possono essere orientate (es. anni di studio).
- Es. variabilità = ti interessa il corso di statistica?, modalità = per nulla, più no che sì, più sì che no, sì. Queste modalità sono di tipo categoriale ma hanno la proprietà matematica di essere ordinate, poiché una è maggiore/minore rispetto all’altra -> per nulla < più no che sì < più sì che no < sì. Di questo non sappiamo la distanza tra una e l’altra, ma sappiamo solo che una viene prima dell’altra. La distanza riguarda le quantitative.
Le variabili quantitative vengono misurate con:
- Scala ad intervalli: le modalità che vengono fuori sono numeriche, ordinabili e questa scala fa sì che queste modalità si possano confrontare per differenza. Facendo un confronto per differenza non esiste uno zero assoluto che indica l’assenza di carattere. Si può fare somma e sottrazione.
- Es. variabilità = temperatura, modalità = - 5ºC, 0ºC, 30ºC. Si può avere dei valori anche sotto lo zero. Si può dire che 40ºC sono più caldi di 30ºC, oppure che tra 40ºC e 20ºC ci sono 20 gradi di differenza. Non si può dire che 40ºC è due volte più caldo di 20ºC, perché questa è una misura a intervalli e lo zero non significa mancanza di temperatura.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.