Statistica
La statistica è la scienza che si occupa di come raccogliere e utilizzare dati al fine di estrarre informazione. La statistica permette di quantificare, non eliminare, l'incertezza nei vari contesti.
Concetti fondamentali
- Popolazione: insieme completo di tutte le unità oggetto di studio. La dimensione della popolazione, N, può essere anche infinita.
- Campione: sottoinsieme della popolazione, unità osservate. Si indica con n la dimensione. n < N.
- Campione casuale: campione scelto a caso dove ogni unità aveva la stessa possibilità di essere scelta dalla popolazione 1/N.
- Parametro: caratteristica specifica della popolazione. Rimarrà sconosciuto a noi statistici. Se lo fosse la statistica non esisterebbe.
- Statistica: caratteristica specifica del campione, funzione dei dati. È ottenuta svolgendo calcoli o analisi nel campione.
Capitoli della statistica
- Statistica descrittiva: metodi grafici e numeri per sintetizzare e elaborare dati.
- Statistica inferenziale: metodi per ottenere previsioni, stime di parametri e verificare ipotesi.
Classificazioni delle variabili
- Variabili categoriche: appartengono a gruppi o categorie. Sono spesso ottenute rispondendo a domande con risposta chiusa.
- Variabili ordinali -> si/no; poco/molto; lun, mar, merc…
- Variabili non-ordinali -> città, lavoro, marca
- Variabili numeriche.
- Variabile numerica discreta -> può assumere un numero finito di valori.
- Variabile numerica continua -> può assumere un valore qualsiasi in un intervallo di numeri reali, spesso originata da misurazione (tempo, distanza, temperatura, peso).
Regola pratica per distinguere le variabili discrete da quelle continue: se è importante distinguere ogni valore che la variabile numerica può assumere, allora la variabile è discreta. Altrimenti si tratta di variabile continua (non è importante distinguere valori simili). Il prezzo di un'azione è continua.
Distribuzione di frequenza
La distribuzione di frequenza è una tabella per riassumere i dati e consiste in:
- Modalità (o classi di misura): tutte le possibili risposte o realizzazione della variabile.
- Frequenze: numero di frequenze per ogni modalità di classe.
È semplice costruire distribuzioni di frequenza per variabili che assumono pochi valori.
- Scegliere il numero di classi.
- Calcolare l'ampiezza dell'intervallo:
Ampiezza dell'intervallo = (Valore massimo - Valore minimo) / Numero di classi.
- Contare quante osservazioni cadono in ogni classe per ottenere le frequenze.
Le classi devono coprire tutti i valori osservati della variabile e non devono sovrapporsi. Le classi possono avere ampiezza diversa, ma per facilitare l'interpretazione della distribuzione di frequenza è preferibile avere classi della stessa ampiezza. La distribuzione di frequenza dà un'informazione aggregata.
Frequenza relativa e cumulate
La frequenza relativa è una standardizzazione della frequenza. Il calcolo è triviale. Per ogni classe:
Frequenza relativa = Frequenza / numero totale di osservazioni.
Due proprietà fondamentali delle frequenze relative:
- Ogni frequenza relativa è compresa tra zero e uno;
- La somma di tutte le frequenze relative è uguale a uno.
Nell'istogramma delle frequenze relative, se le classi sono di diversa ampiezza, l'area della barra (non l'altezza) rappresenta la frequenza relativa. Le frequenze relative cumulate, semplicemente, sommano o 'cumulano' le frequenze relative nelle classi ordinate. Per calcolare la frequenza cumulata del dato in oggetto, dobbiamo semplicemente sommare la sua frequenza assoluta al totale precedente. In parole più semplici, occorre sommare all'ultima frequenza cumulata calcolata la frequenza assoluta dell'elemento corrente.
In molti casi, i dati tendono a concentrarsi intorno ad un particolare valore. L'istogramma delle frequenze può visualizzare questa tendenza e dare un'impressione qualitativa del fenomeno.
Misure di centralità
Misure di centralità, o misure di tendenza centrale, danno una misura quantitativa del fenomeno. Media, mediana e moda sono tipiche misure di centralità.
- Moda: è la modalità che si presenta il maggior numero di volte. Esattamente come nella moda "fashion": un vestito è di moda quando lo indossa la maggior parte delle persone.
- Media: è la somma dei valori osservati diviso il numero di osservazioni.
- Se i dati si riferiscono a un'intera popolazione si tratta di un parametro.
- Se i dati si riferiscono ad un campione si tratta di una statistica.
- Outlier: valori estremi molto grandi o molto piccoli rispetto alla maggior parte dei valori osservati. In un istogramma, gli outlier si trovano lontano dal centro dei dati. Questo è un concetto importante perché la media è molto sensibile agli outlier, a differenza della mediana, ed è per questo che è importante.