Appunti statistica
Prof. Achille Vernizzi
Capitolo 1
Definizione di statistica
La statistica è un ramo della matematica che tratta l'analisi e l'interpretazione di grandi quantità di dati.
- Fenomeno statistico: Un fenomeno statistico è l'oggetto dell'indagine; è una caratteristica di ogni unità statistica appartenente alla popolazione; esso può assumere diversi valori. Esempio: numero di esami superati; statura; peso.
Differenza popolazione-campione
La popolazione è l'insieme di individui o oggetti che si vogliono studiare. Questi individui o oggetti vengono denominati unità statistiche. Le caratteristiche della popolazione vengono chiamate variabili. Un censimento è lo studio effettuato sull'intera popolazione. Si fa ogni 10 anni.
- Il campione: è una parte di popolazione. Esso non è unico: campioni differenti possono essere «estratti» dalla stessa popolazione. Si seleziona un campione per problemi di tempo, costo e impossibilità.
- L’errore di campionamento è la differenza tra una caratteristica misurata sull'intera popolazione e la stessa riscontrata in un campione estratto da quella popolazione. Dipende da: ampiezza del campione e variabilità esistente nella popolazione.
- Il grado di variabilità è una misura di come gli elementi della popolazione differiscono gli uni dagli altri.
Differenza parametro-statistica
- Un parametro è un valore numerico che descrive una caratteristica della popolazione. (altezza media, peso medio, reddito medio ecc.)
- Una statistica è un valore numerico che descrive una caratteristica di un campione.
Quali fattori influenzano la dimensione del campione?
- La dimensione della popolazione (N) è il numero delle unità statistiche della popolazione.
- La dimensione del campione si indica con n.
- Variabilità della popolazione (attenzione: usiamo il campione per stimare parametri come la variabilità della popolazione). Più gli individui sono simili meno variazione vi è all’interno della popolazione. Quindi la dimensione del campione può essere più piccola.
- Errore che si è disposti a tollerare: più si vuole ridurre l’errore, più grande deve essere il campione.
- Risorse disponibili (tempo, denaro)
- Dimensione N della popolazione
Selezionare un campione
- Un campione dovrebbe essere una versione in miniatura della popolazione.
- Un campione distorto è un campione non rappresentativo della popolazione.
- Un campione casuale semplice è un campione che è stato scelto in modo tale che tutti i membri della popolazione abbiano «a priori» la stessa probabilità di essere scelti.
- La base di campionamento è l'elenco di tutte le unità statistiche della popolazione. Creare una base di campionamento può richiedere una certa quantità di tempo, energia e denaro.
- Campione casuale semplice (con o senza reimmissione): una tabella di numeri casuali è un elenco di numeri creati a caso e disposti nello stesso ordine in cui sono stati creati.
Tipi di dati
Il tipo di analisi statistica da applicare dipende dal tipo di dati raccolti. Ci sono due tipi principali di variabili/dati:
- Qualitative
- Quantitative
Dati qualitativi
- I dati qualitativi descrivono una qualità, ovvero un valore non intrinsecamente numerico. Tali valori vengono solitamente detti categorie o modalità.
- I dati che assumono valori che non posseggono alcun ordine naturale, sono chiamati dati nominali (es. sesso: m/f; stato civile, colore occhi ecc.)
- I dati per i quali l’ordine di assegnazione delle categorie ha un significato sono chiamati dati ordinali (es. livello di gradimento; livello di accordo; frequenza).
Dati quantitativi
- I dati che sono numerici sono chiamati dati quantitativi.
- I dati discreti sono quelli che si rilevano mediante conteggio (0,1,2) (es. numero fratelli; esami sostenuti in una sessione).
- I dati continui sono il risultato di misurazioni e possono assumere ogni valore in un intervallo di numeri reali - con un’unità di misura (es. statura; peso; concentrazione di polveri sottili).
Statistica descrittiva
- Gli strumenti della statistica descrittiva permettono di descrivere un campione o una popolazione sintetizzando i dati.
- Gli strumenti descrittivi numerici permettono di sintetizzare i dati numericamente (statistiche quali: media, mediana, moda, ecc.)
- Gli strumenti grafici aiutano a capire come i dati si comportano.
- La statistica descrittiva consente di descrivere il campione! Ma ciò che interessa è la popolazione!
Statistica descrittiva-inferenziale
- Una inferenza è una deduzione o una conclusione.
- Le tecniche della statistica inferenziale ci permettono di trarre inferenze o conclusioni sulla popolazione a partire dal campione.
- La teoria della probabilità è usata per calcolare la «verosimiglianza» di osservare o selezionare un particolare campione dalla popolazione.
Relazione tra la probabilità e la statistica inferenziale
Bisogna trarre conclusioni su di una popolazione basandosi su un campione osservato e sulla teoria della probabilità.
Capitolo 2
I dati grezzi
Quando i dati sono stati raccolti, il risultato iniziale è una lista di quanto osservato su ogni unità statistica e per ogni variabile. Per riassumere le informazioni grezze del campione bisogna costruire una tabella: la tabella di frequenza, o distribuzione di frequenza che registra ogni:
- Categoria, valore, o classe di valori che una variabile può assumere e il corrispondente numero di volte con cui essa ricorre nei dati, detto frequenza assoluta fi.
Tabella di frequenza
Una tabella di frequenza (semplice), consta di due colonne:
- Nella prima colonna, ogni riga riporta uno dei valori della variabile di interesse.
- Nella seconda colonna, ogni riga riporta il corrispondente numero di volte che tale valore ricorre nel campione.
Per dati grezzi per variabili quantitative continue
- Definire le classi: Per ragioni di “leggibilità”: Non meno di 5 e non più di 20 classi.
- Le classi devono comprendere tutti i valori dell’insieme dei dati senza sovrapporsi.
Frequenza relativa
La frequenza relativa è il rapporto tra la frequenza f e il numero totale delle osservazioni (dimensione del campione) n. La frequenza relativa può essere espressa come una frazione, un numero decimale o una percentuale. La somma di tutte le frequenze relative è uguale a 1.
Frequenza relativa cumulata
La frequenza relativa cumulata di una classe è la somma delle frequenze relative di quella classe e di tutte le classi precedenti. Essa indica la frazione (o percentuale) di unità nel campione che presentano una classe uguale o più piccola di quella in esame. La frequenza relativa cumulata si può calcolare per variabili almeno ordinali (quindi non per variabili qualitative nominali).
La distribuzione di frequenza
La distribuzione di frequenza organizza e sintetizza i dati, ma non ha un buon impatto visivo! Per rendere immediato il messaggio, usiamo la rappresentazione grafica della distribuzione di frequenza.
Rappresentazioni grafiche: fenomeni qualitativi nominali e discreti
Se i dati sono qualitativi, posso fare una rappresentazione con il diagramma a torta oppure i diagrammi a barre dove l’altezza delle barre rappresenta la frequenza o la frequenza relativa. I dati sono sotto forma di fette o sezioni di un cerchio, con area proporzionale alla frequenza relativa o assoluta.
Fenomeni quantitativi discreti
(diagrammi ad aste o bastoncini sono i migliori) Se i dati sono quantitativi, posso fare una rappresentazione con un istogramma, che è molto simile a un diagramma a barre.
Quando i fenomeni sono continui
Istogramma (caso di classi di uguale ampiezza). Ogni rettangolo rappresenta una classe. La base è l’intervallo della classe, l’altezza la frequenza corrispondente.
Per dati quantitativi continui con intervalli di classi non uguali
Se le classi hanno ampiezza diversa, non è più corretto rappresentarle con rettangoli di altezza uguale alla frequenza. Invece, ogni rettangolo dovrebbe avere un’area pari alla frequenza corrispondente a quella classe. Densità di frequenza = frequenza/ampiezza.
Riepilogo: Freq. assolute e Freq.
| Tipo di variabile | Densità | Rappr. grafica | relative | Cumulate |
|---|---|---|---|---|
| Qual. Nominale | Sì | No | No | Diagr. a torta o a barre |
| Qual. Ordinale | Sì | Sì | No | Diagr. a barre |
| Quant. Discreta | Sì | Sì | No | Istogramma o Diagr. ad aste |
| Quant. Continua | Sì | Sì | Sì | Istogramma |
Descrivere i dati quantitativi: caratteristiche che descrivono la distribuzione dei dati
- La tendenza centrale di un insieme di dati indica dove i dati sono concentrati.
- La forma di un insieme di dati descrive come i dati si distribuiscono intorno ai valori centrali simmetria o asimmetria (per variabili almeno ordinali).
- La variabilità di un insieme di dati descrive quanto dispersi sono i dati intorno ai valori della tendenza centrale.
Istogramma con una curva che rappresenta la distribuzione
Insieme di dati UNIMODALE (un picco)
Tendenza centrale (posizione della classe con la frequenza più alta)
La forma di una distribuzione mostra come i dati sono distribuiti su ciascun lato rispetto al picco. Quando le osservazioni equidistanti da un «valore centrale» presentano la stessa frequenza relativa, la distribuzione è simmetrica. Quando non succede quanto sopra, la distribuzione è asimmetrica.
- Se la distribuzione è simmetrica, la sua rappresentazione grafica (diagramma a barre, a bastoncini o istogramma) presenta simmetria rispetto a un asse verticale.
- Distribuzione simmetrica
Distribuzioni asimmetriche
Asimmetria positiva
- L'estremità della curva è più lunga a destra.
Asimmetria negativa
- L'estremità della curva è più lunga a sinistra.
Capitolo 3
Una statistica è un descrittore numerico calcolato dai dati campionari ed è usato per descrivere il campione. Le statistiche si rappresentano con lettere romane. Un parametro è un descrittore numerico usato per descrivere la popolazione. I parametri si rappresentano con lettere greche.
Misure della tendenza centrale o indici di posizione
Le tabelle di frequenza servono a «organizzare» i valori osservati di una variabile su un campione/popolazione.
Principali misure della tendenza centrale:
- Moda
- Mediana
- Media aritmetica
Moda
La moda può essere calcolata per qualsiasi tipo di variabile.
- La moda per variabili qualitative o quantitative discrete è la categoria o valore con la frequenza più alta nel campione.
- La classe modale per variabili quantitative continue raggruppate in classi è la classe che presenta la densità più alta.
- È possibile che una serie di dati presenti più di una moda (succede spesso nei piccoli campioni).
Tipi di campione:
- Campione bimodale (2 mode)
- Campione plurimodale (molte mode)
- Se la variabile presenta solo categorie o valori con frequenze assolute tutte uguali a 1, i dati non presentano moda.
Mediana
La mediana si può calcolare per variabili almeno ordinali. È il valore dell'osservazione posta al centro dei dati (se i dati sono ordinati: dal più piccolo al più grande).
- Varia a seconda che n sia dispari: è il valore nella posizione (n+1)/2 o pari: semisomma dei valori nelle posizioni n/2 e n/2+1 (se la variabile è quantitativa).
- Se si dispone della distribuzione di frequenza, la mediana è la categoria o valore che per prima presenta una frequenza relativa cumulata maggiore di 0.5 (50%).
- Se trovo una categoria o valore con frequenza relativa cumulata uguale a 0.5 (50%), fare la semisomma di quel valore e del successivo (se la variabile è quantitativa).
Media aritmetica
La media aritmetica sintetizza la posizione della distribuzione di un insieme di dati, si calcola solo per variabili quantitative, discrete o continue. La media aritmetica (semplice) si trova sommando tutti i valori osservati e dividendo per il numero totale delle osservazioni n (dimensione del campione).
- Media aritmetica campionaria: \( \overline{x} = \frac{\sum_{i=1}^{n} x_i}{n} \)
- Media aritmetica della popolazione: \( \mu = \frac{\sum_{i=1}^{N} x_i}{N} \)
La formula di annullamento degli scarti diventa: \(\sum_{i=1}^{n} (x_i - \overline{x}) = 0\)
Formula della media aritmetica ponderata per distribuzioni di frequenza:
\(\overline{x} = \frac{\sum_{i=1}^{P} x_i \cdot f_i}{n}\)
Confronto media-mediana
- Media: è calcolata su tutti i valori xi (anche quelli «anomali»!)
- Mediana: è basata sulle frequenze, non è funzione delle xi, ci dice solo che metà delle osservazioni è sopra la mediana e che metà è sotto.
Media e mediana di una distribuzione simmetrica:
Media = Mediana
Media e mediana per distribuzioni asimmetriche:
- Media < Mediana
- Media > Mediana
Misure di dispersione o di variabilità
- Per variabili quantitative, indicano cioè quanto i dati sono «dispersi».
- Assumono valori positivi o valore 0 se non c'è variabilità nei dati.
Campo di variazione (o range):
- È la differenza fra il valore massimo e il valore minimo assunti dalla variabile: R = max(xi) - min(xi)
- Aumentando la dimensione del campione (della popolazione) aumenta la probabilità di osservare valori estremi, quindi aumenta R (inconveniente).
Misure di dispersione o di variabilità per dati grezzi
Varianza
Media dei quadrati degli scarti tra ciascun valore osservato e la media di popolazione/campione:
- Per la popolazione: \(\sigma^2 = \frac{\sum_{i=1}^{N}(x_i - \mu)^2}{N}\)
- Per il campione: \(s^2 = \frac{\sum_{i=1}^{n}(x_i - \overline{x})^2}{n-1}\)
Scarto quadratico medio o deviazione standard (s o σ)
Radice quadrata della varianza:
- Per la popolazione: \(\sigma = \sqrt{\frac{\sum_{i=1}^{N}(x_i - \mu)^2}{N}}\)
- Per il campione: \(s = \sqrt{\frac{\sum_{i=1}^{n}(x_i - \overline{x})^2}{n-1}}\)
Formula alternativa per il calcolo della varianza:
Media dei quadrati meno quadrato della media, moltiplicato per un «fattore di correzione»
Misure di dispersione o di variabilità per distribuzioni di frequenza
Varianza= media dei quadrati degli scarti tra ciascun valore e la media di popolazione/campione, pesati con la corrispondente frequenza assoluta:
\(s^2 = \frac{\sum_{i=1}^{P}(x_i - \overline{x})^2 \cdot f_i}{n}\)