Appunti statistica
La statistica è la scienza che studia i fenomeni collettivi, che si manifestano in una pluralità di modi. Possiamo osservare che si può parlare di indagine statistica in diversi casi ed essa può assumere diverse forme, più o meno sintetiche.
Piramide della popolazione per età
Un primo esempio è la cosiddetta piramide della popolazione per età. Questo grafico rappresenta la struttura della popolazione suddividendola per fasce d’età ed evidenziandone lo stato civile. Come si nota, in epoca moderna, la piramide non è più a forma triangolare ma si è espansa al centro, proprio ad evidenziare un invecchiamento della popolazione. Infatti, i soggetti più numerosi, soprattutto in Italia, sono i cosiddetti baby boomers (soggetti nati fino al 1970 circa). L’invecchiamento della popolazione ha un impatto rilevante sulle casse previdenziali. Altro aspetto rilevante della piramide è che le donne vedove sono in numero maggiore rispetto agli uomini. Tale dato è spiegabile attraverso un dato di fatto, ovvero che in una coppia il decesso del coniuge di sesso maschile impatta in maniera meno “pesante” sulla prospettiva di vita della donna.
Rapporto ISPRA sui cambiamenti climatici
Un secondo esempio è dato dal grafico del rapporto ISPRA (del 2019) sui cambiamenti climatici. Tale grafico riporta le oscillazioni delle anomalie delle temperature medie dal 1961 al 2019. Da tale grafico è possibile osservare che, a partire dal 1985 sono diminuite e poi scomparse del tutto le anomalie negative, portando le variazioni sempre al di sopra dello zero e sempre maggiori. Costruendo nel grafico una linea di regressione lineare è possibile evidenziare questo fenomeno.
Cartogramma delle diseguaglianze dei redditi
Un terzo esempio è dato dal cartogramma che tratta le diseguaglianze dei redditi. Per la descrizione di questo fenomeno ci si basa sul cosiddetto indice di Gini, un valore compreso tra 0 e 1, i cui estremi sono: 0 = la ricchezza è equidistribuita; 1 = la ricchezza è detenuta da un unico soggetto e gli altri hanno reddito nullo. Ovviamente, nel mondo reale, non esistono in alcun caso queste situazioni limite, ma ci sono dei paesi in cui la distribuzione del reddito è più omogenea (Europa ad esempio), e paesi in cui vi sono molte ed importanti disuguaglianze (Sudafrica). Questi primi 3 esempi danno l’idea di cosa voglia dire sintetizzare i dati statistici.
Tuttavia, la descrizione di un’indagine statistica non passa solo attraverso dati proiettati all’interno di un grafico, ma anche attraverso metodi più descrittivi e discorsivi. È il caso dello studio clinico controllato effettuato dall’AIFA sul vaccino Pfizer. Tale documento riporta (sempre sintetizzando) gli studi compiuti su un campione di soggetti, che ha portato a verificare l’efficacia del vaccino in questione al 95%. Si parla in questo caso di inferenza statistica, che si ha nel momento in cui si proietta il dato ricavato sul campione, sulla popolazione di riferimento. L’operazione di inferenza è, ovviamente, soggetta ad errori, perché si generalizza un dato osservato su un gruppo ristretto. Questo errore è ineliminabile e quantificabile.
Unità statistiche
Quando si effettua una indagine statistica, le unità elementari su cui vengono rilevate le caratteristiche che ci interessano vengono chiamate unità statistiche. Esse possono essere raggruppate a formare degli insiemi che assumono tre diverse denominazioni:
- Popolazione: insieme di tutte le unità che vogliamo studiare
- Campione: sottoinsieme di unità tratto dalla popolazione
- Collettivo: insieme di unità statistiche (più in generale)
Le caratteristiche tipiche delle unità statistiche sono dette variabili (x, y, z) e sono tali perché la statistica non studia fenomeni costanti ma fenomeni variabili.
Natura delle variabili
La variabile può essere di tipo:
- Qualitativo: può essere effettuata su scale di misura di tipo:
- Nominale: quando le modalità non possono essere ordinate. Ciò avviene nel momento in cui date due sue modalità è possibile affermare solo se queste sono uguali o diverse. Rientrano tra queste: genere, stato civile.
- Ordinale: quando abbiamo un ordinamento naturale delle modalità (es. titolo di studio, votazione per la licenza media).
- Quantitativo: abbiamo due scale di misure che si distinguono sulla base del valore e dell’importanza dello 0:
- A intervalli: quando lo 0 non è convenzionale. Non è particolarmente frequente (tempo, temperatura).
- Di rapporto: quando lo 0 ha un suo significato intrinseco che non può essere alterato. Può assumere qualunque valore nell’ambito di un range di valori, solitamente reali (reddito, ricchezza).
Come già detto, la statistica ha l’obiettivo di sintetizzare i fenomeni. I modi per fare sintesi sono:
Costruzione di tabelle
Le tabelle possono essere analizzate facendo ricorso a:
- Distribuzione di frequenza
-
Frequenza assoluta: quante volte una modalità è stata osservata.
X1 n1 X2 n2 Xi ni Frequenza assoluta: Na + n2 + … + nc = n
-
Frequenze relative o percentuali: quando divido le frequenze assolute per la numerosità complessiva. In questo modo ottengo la percentuale di incidenza del mio valore sul totale. Ci danno una chiave di lettura più immediata. Non riportano informazioni sulla numerosità del collettivo. Devono essere corredate da info sulla dimensione del collettivo.
Fi = ni/n Frequenza relativa ∑ = 1 Pi = ni/n x 100 Frequenza percentuale ∑ = 100 -
Frequenze cumulate assolute: ha senso solo se il carattere ha scala ordinale. Mi indica quante sono le modalità che presentano un valore pari o inferiore a quello che prendiamo come riferimento. Quanta parte di un collettivo presenta un valore minore o uguale di una determinata modalità.
N1 = n1 N2 = n1 + n2 N3 = n1 + n2 + n3 L’ultimo valore cumulato è uguale al totale delle unità statistiche.
-
Frequenze cumulate relative: stesso ragionamento delle frequenze relative, ma basandoci sulla cumulazione delle frequenze relative.
F1 = f1 F2 = f1 + f2 F3 = f1 + f2 + f3 L’ultimo valore è pari a 1 se decimale o a 100% se percentuale.
-
Frequenza assoluta: quante volte una modalità è stata osservata.
È importante sapere che, spesso, quando si analizza un fenomeno ci si trova davanti a tantissime modalità distinte che è opportuno (ai fini della sintesi) raggruppare in classi. La scelta delle classi è libera, ma bisogna non perdere d’occhio il fatto che bisogna mantenere quanto più possibile l’equilibrio tra l’esigenza di sintesi e l’esigenza di non perdere d’occhio le informazioni importanti. Questo perché, ovviamente, andando a sintetizzare, si perdono parecchie informazioni. Tanto più le classi sono piccole tanto minore sarà la sintesi che opero.
Costruzione di grafici
Diagramma a barre (sono per le variabili discrete): a ciascuna modalità viene associata una barra, la cui altezza corrisponde ed è proporzionale alla frequenza di solito assoluta. Sull’asse orizzontale vengono allocate le modalità (variabili qualitative). Sull’asse verticale solitamente ci vanno le frequenze assolute.
Diagramma a torta (specifico per le frequenze relative e per le variabili discrete): è un cerchio diviso in settori e l’ampiezza del settore è proporzionale alla frequenza relativa. La torta è il collettivo studiato e la dimensione della fetta associata alla modalità mi dice quanta parte del collettivo presenta quella modalità. I settori si costruiscono partendo “da ore 12” e proseguendo in senso orario. Va bene per variabili di tipo qualitativo, in cui le modalità sono ridotte.
Diagramma a segmenti (solo per le variabili discrete): è un diagramma metrico, simile a quello a barre, con la differenza che in questo diagramma sulle ascisse abbiamo dei valori e non delle modalità. Quindi vengono rappresentati tutti i valori che la variabile può assumere.
Quando abbiamo una distribuzione per classi di intervallo, quando esistono classi di ampiezza diverse, può essere “pericoloso” confrontare le frequenze assolute, perché alcune classi sono più grandi di altre. In questo caso, per rendere confrontabili tali frequenze, si lavora con la densità di frequenza (su frequenze relative principalmente, ma si può fare anche con le relative), ovvero il rapporto tra la frequenza della classe i e l’ampiezza dell’i-esima classe.
Istogramma di frequenza: è un diagramma cartesiano avente alle ascisse i valori della variabile e alle ordinate le densità di frequenza. Alle ascisse riportiamo gli estremi delle classi. È per variabili quantitative continue. A ciascuna classe di intervallo è associato un rettangolo la cui base è l’ampiezza di classe e l’altezza è la densità di frequenza. L’area di ciascun rettangolo rappresenta la frequenza della classe. Se sommiamo l’area di tutti i rettangoli otteniamo 1 (se usiamo le frequenze relative).
Boxplot (o box and whiskers plot): è un diagramma che serve per rappresentare la distribuzione di variabili quantitative.
Costruzione e calcolo di specifici indici sintetici
Quando sintetizziamo un insieme di dati, possiamo sintetizzare i dati in uno o più indici sintetici.
Indici di posizione
La posizione è la modalità prevalente oppure una modalità centrale che rappresenti tutto l’insieme dei valori osservati. In alcuni casi la modalità centrale non è individuabile.
- Primo indice: moda - ovvero la modalità prevalente, ovvero la più frequente. Date le modalità, costruisco la distribuzione di frequenze. Da queste osservo la modalità con la frequenza più elevata, questa sarà la moda. A volte individuare la moda è più complicato, quando ci sono due modalità con frequenza simile ad esempio. Quando siamo in questa situazione, parliamo di distribuzione bi-modale. Nel caso di variabile con modalità raggruppate in classi, guardare le frequenze assolute può essere fuorviante. Si osservano le densità di frequenza. Quindi la valutazione della moda (classe modale) passa attraverso la densità di frequenza. Quindi la classe modale è la classe con la densità più elevata. Anche in questo caso ci possono essere due classi con modalità con densità di frequenza simile. Si identificano entrambe con modalità prevalenti. È l’unico indice che si può usare per qualunque tipo di variabile (anche variabili misurate su scala nominale).
- Secondo indice: mediana - il valore centrale della distribuzione, ovvero la mediana divide il collettivo in due gruppi di eguale valore, tale che metà osservazioni minori uguali della mediana e l’altra metà maggiore uguale della mediana. Può essere utilizzata solo per variabili misurate almeno su scala ordinale. Non può essere calcolata per variabili qualitative.
- In caso di distribuzione unitaria (avere tutti i dati osservati): Data la distribuzione, la prima operazione da fare è mettere in ordine le osservazioni, dalla più piccola alla più grande. La seconda operazione è prendere il valore che occupa la posizione n+1/2 (se n è dispari). Se n è pari, abbiamo due mediate: una nella posizione n/2 e una nella posizione n/2+1. Se n è quantitativo (discreta o continua) allora la mediana possiamo calcolarla come mediana1 + mediana2/ 2.
- In caso di distribuzione di frequenza (costruibile dalla distribuzione unitaria, contando quante volte si presentano le singole unità): dobbiamo riportare la frequenza cumulata, scorrerle e confrontarle con il 50%. Dobbiamo quindi considerare tutti i valori che hanno una frequenza cumulata di almeno 50%. In questo modo troviamo due mediane quando troviamo una frequenza cumulata esattamente uguale al 50%. In questo caso le mediane sono quella pari a 50% e quella immediatamente successiva.
- In caso di caratteri raggruppati in classi: se ho esclusivamente la distribuzione di frequenza, devo cercare la classe mediana (la classe centrale, ovvero la classe che contiene la mediana). Osservo la frequenza cumulata relativa che sia maggiore di 50%. In questa classe sarà contenuta la mediana, ovvero sarà la classe mediana. La classe mediana è una classe di valori, non la frequenza cumulata.
Quantili (o percentili) della distribuzione sono valori della variabile che lascia alla sua sinistra una percentuale prefissata di osservazioni. I percentili sono 99 e dividono il collettivo il 100 gruppi. Il valore minimo e il valore massimo solitamente si riportano ma non sono percentili. La mediana è un percentile perché lascia alla sua sinistra il 50% delle osservazioni. Primo quartile è quel valore tale per cui il 25% delle osservazioni è minore o uguale e il 75% è maggiore o uguale. Terzo quartile è quel valore tale per cui il 75% delle osservazioni è minore o uguale e il 25% è maggiore o uguale. Vengono chiamati quartili perché se prendiamo il primo quartile, la mediana e il terzo quartile riusciamo a suddividere le osservazioni in quarti, cioè 25% tra 0 e il primo quartile, 25% tra primo quartile e mediana, 25% tra mediana e terzo quartile, 25% tra terzo quartile e il resto delle osservazioni. I decili della distribuzione sono quei valori tali per cui il collettivo viene suddiviso in 10 gruppi di eguale numerosità. Avrò quindi il 10% delle osservazioni alla sua sinistra.
- Terzo indice: media aritmetica - è la somma dei valori osservati divisa per la numerosità corrispondente. Se ho i dati in forma di distribuzione di frequenza, devo fare la somma per i che va da 1 a c, dove c è il numero di modalità. La media aritmetica richiede che il carattere sia quantitativo (discreto o continuo). Se abbiamo un carattere in classi e vogliamo calcolarne la media, possiamo utilizzare i valori centrali di classe (c). In questo caso la media la calcolo utilizzando i valori centrali come se fossero le modalità della classe. È un valore approssimato. La media aritmetica è molto sensibile ai valori estremi. Quando abbiamo bisogno di un indice robusto, calcoliamo la media trimmed. È una media nella quale vengono eliminati gli estremi, o eliminando una percentuale (alfa) da una parte e dall’altra, non eccessivamente elevata per non perdere troppe informazioni. Consente di eliminare il problema dei valori anomali. Serve poco per ovviare al problema della distribuzione asimmetrica.
Proprietà della media aritmetica
- Proprietà di internalità: la media aritmetica è sicuramente compresa tra il valore minimo e il valore massimo. Non può essere esterna al range di valori osservati. La media è uguale al valore minimo o al valore massimo solo nel caso in cui tutti i valori osservati sono uguali tra di loro. Se esiste almeno un valore che è diverso dagli altri, la media è necessariamente interna.
- Proprietà di baricentratura: la somma degli scarti dalla media è uguale a 0. Gli scarti dalla media sono la distanza dei valori osservati dalla media.
- Proprietà di linearità: la media aritmetica è un operatore lineare. Supponiamo di avere una variabile x, e a partire da questa derivare una variabile y applicando questa trasformazione: y = a + bx. bx → cambiamento di scala, perché stiamo cambiando la scala di misura della variabile. Passiamo da una unità di misura all’altra, moltiplicando o dividendo per un opportuno coefficiente. a è una costante che cambia l’origine dei valori osservati. Si chiama operazione di traslazione. La traslazione si fa raramente, perché in una scala di valori lo 0 ha un significato rilevante. Qual è la relazione tra la media di x e la media di y? M(y) = a + b M(x). La stessa proprietà che posso applicare alla variabile posso anche applicarla alla media.
- Quarta proprietà: la media aritmetica è quel valore che rende minima la somma del valore degli scarti al quadrato.
Media aritmetica ponderata (o pesata): si usa ogni volta che le singole osservazioni hanno una rilevanza differente, misurata mediante un opportuno indicatore. X al numeratore la somma delle quantità osservate moltiplicate per i pesi corrispondenti; al denominatore abbiamo la somma dei pesi (se è pari a 1 siamo davanti alla media aritmetica semplice).
Media geometrica: nel caso di una successione di valori (x1, x2, … xn), la media geometrica si...
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.