Quando si analizza una distribuzione statistica, si utilizzano due tipi di indici: gli indici di tendenza centrale (o indici di posizione) che consentono di sintetizzare mediante un solo valore il carattere dell'intera distribuzione, e gli indici di variabilità, che valutano, invece, la dispersione di una distribuzione statistica. In questo appunto descriveremo proprio i principali indici di variabilità, descrivendone le caratteristiche. Successivamente, ci interrogheremo sui modi per rappresentare un insieme di dati e affronteremo il tema dell'interpolazione statistica.
Indice
La variabilità
L'oggetto di questo paragrafo è la variabilità, o la dispersione, di un insieme di dati statistici.
La variabilità è la tendenza dei dati ad assumere valori più o meno diversi tra loro; la variabilità è nulla se i valori statistici sono tutti identici tra loro ed aumenta al discostarsi dei dati statistici gli uni dagli altri.
Consideriamo un campione statistico, costituito da dati tutti numerici. Se vogliamo avere un'idea di quanto i dati del campione siano sparsi, occorre misurare la variabilità del campione stesso. Tale variabilità può essere misurata rispetto a un centro (che può essere, anche se non necessariamente, la media) e, in questo caso, si parlerà di dispersione, oppure si può misurare come distanza tra tutte le possibili coppie di valori osservati: in questa seconda eventualità si parlerà di disuguaglianza.
Ad ogni modo, la variabilità si può misurare attraverso gli indici sintetici di dispersione. I principali indici di dispersione esistenti sono il campo di variazione, lo scarto quadratico medio e la varianza.
Per ulteriori approfondimenti sugli indici statistici, vedi anche qua.
Campo di variazione
Il primo indice sintetico di variabilità di cui ci occupiamo è il campo di variazione. Data una distribuzione statistica, costituita da dati numerici, il campo di variazione è la differenza tra il valore più alto e quello più basso della distribuzione. Esso è, evidentemente, l'indice di variazione più semplice, anche da calcolare, tuttavia non tiene considerazione tutti gli elementi del campione statistico, ma solo i due estremi.
Data una distribuzione
, definiamo campo di variazione
, il valore:
Supponiamo di avere una distribuzione che presenta i seguenti valori:
Allora:
.
La varianza
Come abbiamo detto, il campo di variazione non tiene conto di tutti i valori della distribuzione. Se siamo interessati, invece, a un indice di dispersione che coinvolga tutti i valori della distribuzione, occorre utilizzare la varianza, o lo scarto quadratico medio.
Il calcolo della varianza parte da un'idea semplice. Data una distribuzione costituita da n termini, calcoliamone la media aritmetica. Dopodiché calcoliamo la distanza dalla media aritmetica di ciascuno degli elementi della distribuzione. Chiamiamo scarto ciascuna di queste distanze. A questo punto, però, si pone un problema: alcuni scarti sono positivi e altri sono negativi, perché alcuni valori sono maggiori e altri minori della media. Rendiamoli allora tutti positivi considerando, in luogo degli scarti, i quadrati degli stessi. In questo modo abbiamo n numeri positivi, che sono gli n quadrati degli scarti. Se calcoliamo la media aritmetica degli scarti, abbiamo trovato la varianza della distribuzione.
La varianza
di un insieme di n dati è la media dei quadrati degli scarti dalla media aritmetica
dell'insieme. Definiamo scarto la distanza di un qualsiasi valore
dalla media
.
In simboli:
Per fare un esempio di varianza, consideriamo una distribuzione molto semplice, costituita da soli quattro valori:
La media di questa distribuzione è
. Valutando i scarti dei singoli valori dalla media, elevati al quadrato, si ha: 25, 1, 16, 4. Per calcolare la varianza, occorre fare la media aritmetica dei quattro scarti, che è pari a 11,5.
In sintesi, la varianza identifica la dispersione dei dati intorno al valore medio. Sarà dunque minore quanto più i dati sono concentrati intorno al valore medio della distribuzione.
Per ulteriori approfondimenti sulla varianza, vedi anche qua.
Lo scarto quadratico medio
Se si vuole raffinare ulteriormente la propria analisi statistica, si può usare lo scarto quadratico medio, detto anche deviazione standard. Questa quantità si indica con il simbolo
. Non è un caso che il simbolo sia molto simile a quello che definisce la varianza: la deviazione standard è, infatti, la radice quadrata della varianza.
Il vantaggio della deviazione standard rispetto alla varianza è che la prima è espressa nella stessa unità di misura dei valori che costituiscono la distribuzione.
In altri casi ancora, si utilizza un altro indice di dispersione
, che è il coefficiente di variabilità (o di variazione), definito come il rapporto tra la deviazione standard ed il valore assoluto della media
dei valori che costituiscono la distribuzione. Il coefficiente di variabilità, a differenza degli altri indici di dispersione, ha il vantaggio di essere adimensionale.
L'interpolazione statistica
I dati statistici tendono ad essere, quasi sempre, insiemi di numeri. Leggendo solo i numeri non sempre si riesce a riconoscere immediatamente una tendenza che quegli stessi dati portano con sé. Per questo motivo, si tende spesso ad accompagnare ai dati statistici delle rappresentazioni grafiche, che consentono una più rapida comprensione delle caratteristiche del fenomeno che si sta studiando. Quando si fa questo, si dice che si opera un'interpolazione statistica. In questo paragrafo, vedremo quali sono alcuni dei metodi per rappresentare correttamente i dati statistici.
Supponiamo di avere due distribuzioni statistiche:
e
. Ciascuna coppia del tipo
rappresenta un piano del piano cartesiano.
Molto spesso, quando questi dati vengono rappresentati, ci si trova davanti a delle nuvole di punti. In qualche occasione, queste nuvole possono avere delle forme un po' più definite. Quando questo accade, è possibile sostituire le nuvole con delle curve approssimate, che prendono il nome di curve interpolanti.
Nei due casi rappresentati in questa immagine, per esempio, le nuvole di punti approssimano la curva di una retta e quella di una parabola.
Supponiamo che i dati della nostra distribuzione si trovino allineati lungo una linea retta. Come fare a stabilire, tra le infinite rette del piano, quella che approssima meglio la nostra distribuzione? Sceglieremo quella che passa per più punti? Oppure quella che si avvicina mediamente a tutti i punti anche se passa soltanto per pochi di essi?
Uno dei metodi più utilizzati è quello di trovare la retta dei minimi quadrati.
La retta dei minimi quadrati è quella retta, tra tutte le rette del piano, per la quale sia minima la somma dei quadrati delle distanze di ciascun punto statistico da essa.
Per ulteriori approfondimenti sul metodo dei minimi quadrati, vedi anche qua.