La statistica è lo studio quantitativo di fenomeni collettivi e La distribuzione di frequenza può essere rappresentata in due
sintetizza grandi insiemi di dati. Il fenomeno da studiare è modi: modalità per modalità per caratteri qualitativi e
chiamato carattere o variabile, mentre l’insieme di unità quantitativi discreti. Per i caratteri quantitativi continui si
statistiche su cui si rileva il fenomeno è chiamato collettivo. costruisce la distribuzione di frequenza in classi: al posto della
La raccolta dei dati si chiama rilevazione e può essere totale colonna delle possibili modalità vi è quella delle classi.
(censimento) o parziale (indagine campionaria). La parte che L’estremo superiore di una classe coincide con l’estremo
si occupa di censimenti è chiamata statistica descrittiva, inferiore di un’altra (solitamente l’estremo superiore è
mentre la parte che si occupa della rilevazione parziale (in cui compreso nella classe, quello inferiore no): tutte le unità della
si estraggono a campione le unità statistiche) è chiamata distribuzione unitaria sono incluse in una classe.
inferenza e utilizza il campo delle probabilità.
Statistica descrittiva
I dati rilevati si inseriscono in una tabella chiamata
distribuzione unitaria, che può essere semplice, se si rileva
un solo carattere, o doppia, se si rilevano due caratteri. Una
distribuzione unitaria in cui le unità statistiche sono gli anni si
chiama serie storica. La numerosità del collettivo (n) è il
numero totale di unità statistiche su cui si rileva un carattere: 2° sintesi: Rappresentazioni grafiche
nella distribuzione unitaria semplice è l’ultimo numero della
prima colonna. Se n è molto grande, occorre una sintesi per
comprendere i dati rilevati: esistono molte sintesi, quindi Il grafico di una distribuzione di frequenza varia in base al tipo
bisogna applicare quella corretta in base al tipo di carattere di carattere rilevato:
rilevato. • qualitativi: grafico a nastro, a rettangoli, ad aste, a
Un carattere si presenta sulle unità statistiche con modalità torta;
differenti. I caratteri sono qualitativi se le loro modalità non • quantitativi discreti: diagramma cartesiano;
sono numeriche (es. titolo di studio, colore dei capelli), • quantitativi continui: istogramma.
quantitativi se le loro modalità sono numeriche (es. peso,
reddito). I caratteri qualitativi sono sconnessi se non hanno un Un grafico a nastri si realizza con due assi su cui si disegnano
ordinamento predefinito tra le modalità (es. colore dei capelli), dei nastri (tanto più lungo quanto più elevata la frequenza della
ordinati se hanno un ordinamento predefinito tra le modalità modalità). Nel grafico a colonne/aste le funzioni degli assi
(es. titolo di studio). I caratteri quantitativi sono discreti se le sono invertite.
loro modalità sono numeri interi (es. numero di figli), continui
se le loro modalità sono numeri reali (es. altezza). Secondo la
gerarchia dei caratteri, i qualitativi sconnessi sono i più poveri
di informazioni e con essi possono essere fatte solo le sintesi
più semplici. I caratteri quantitativi, invece, stanno allo stesso
piano nella gerarchia dei caratteri.
1° sintesi: Distribuzione di frequenza
La prima sintesi è il passaggio da distribuzione unitaria a
distribuzione di frequenza. Ogni volta che si applica una Il grafico a torta si divide in sezioni in base agli angoli,
sintesi si perde qualcosa: nel caso del passaggio tra calcolati moltiplicando le frequenze relative per 360.
distribuzione unitaria e di frequenza si perde il collegamento
tra l’unità e la sua modalità. Si costruisce una tabella con due
colonne: nella prima vi sono le possibili modalità di carattere,
nella seconda quante unità hanno presentato quella
determinata modalità (frequenze assolute n ). La somma delle
i
frequenze assolute è la numerosità del collettivo. Le frequenze
relative (f ) sono ottenute dal rapporto tra la frequenza assoluta
i
(n ) e la numerosità del collettivo (n); moltiplicando per 100 le
i
frequenze relative si ottengono le frequenze percentuali (p ).
i Il diagramma cartesiano si costruisce con due assi: quello
orizzontale rappresenta le modalità di carattere, quello
verticale le loro frequenze. Dato che il carattere è discreto, non
bisogna unire i pallini (altrimenti si dà l’impressione di
Le frequenze relative cumulate sono calcolate sommando man continuità).
mano le frequenze relative, in modo tale che l’ultima sia pari
ad 1. Possono essere calcolate per tutti i tipi di caratteri, ma per
i qualitativi sconnessi, dato che non c’è ordinamento tra le
modalità, è inutile. Il calcolo delle frequenze relative e
percentuali, invece, può essere fatto per tutti i tipi di caratteri. 1
Per realizzare un istogramma si costruiscono due assi: sulle La mediana è la modalità posseduta dall’unità di posto
ordinate si rappresentano le densità di frequenza, cioè il centrale nella distribuzione unitaria “ordinata”, quindi viene
rapporto tra frequenza assoluta e ampiezza di ciascuna classe; calcolata per caratteri qualitativi ordinati e quantitativi: il 50%
sulle ascisse si rappresentano le ampiezze, cioè la differenza della distribuzione avrà modalità minore/uguale della
tra estremo superiore ed estremo inferiore. Le densità di mediana, il restante maggiore/uguale. Per calcolarla, quindi,
frequenza permettono di distribuire le frequenze della classe in bisogna ordinare la distribuzione unitaria: se n è pari vi sono 2
modo uniforme all’interno di essa. Dunque, nell’istogramma, modalità di mediane, se n è dispari solo una.
ogni classe è rappresentata da un rettangolo con base
l’ampiezza e altezza la densità di frequenza: l’area sarà pari
alla frequenza assoluta. Una distribuzione di frequenza modalità per modalità, così
come quella in classi, è già ordinata, quindi basta guardare le
frequenze relative cumulate: la F maggiore o uguale di 0,5 è
i
la mediana. La mediana lascia prima di sé il 50% della
distribuzione, quindi è tale che l’area prima e dopo di essa sia
0,5 (nell’istogramma). Per calcolare la mediana che cade in
una classe si applica questa formula:
Funzione di ripartizione empirica
In una distribuzione di frequenza generica, per conoscere la
proporzione di unità con modalità minore o uguale di un
generico x , che sarà pari a F , bisogna sommare le aree. La
i i
funzione di ripartizione empirica F(x) è la proporzione di
unità con modalità minore o uguale di x (che non è un estremo
< < () =
della classe): se (i-esima classe) allora
!"# !
+ area del rettangolo tratteggiato in rosso, quindi:
!"#
!
( )
() = + −
!"# !"# Legati al concetto di mediana vi sono:
! • quartili: sono 3 e tagliano la distribuzione in 4 parti
uguali;
• decili: sono 9 e tagliano la distribuzione in 10 parti
uguali;
• percentili: sono 99 e tagliano la distribuzione in 100
parti uguali.
La media aritmetica è la modalità che equi-ripartisce
l’ammontare totale di carattere (x ) tra le unità. Si calcola solo
i
per caratteri quantitativi e considera il valore di tutte le
Il valore ottenuto è un’approssimazione perché, avendo una modalità, però è più influenzata da valori anomali (se vi è un
distribuzione di frequenza in classi, non si sa come si errore, anche solo di trascrizione, la media ne risente perché è
distribuiscono i caratteri all’interno di una classe. Se il “meno robusta” della mediana). La definizione della media
carattere nelle classi non è uniformemente distribuito, il aritmetica si applica solo per la distribuzione unitaria:
risultato ottenuto sarà più o meno sbagliato. $!%#
∑ + + ⋯ +
! # & $
3° sintesi: Calcolo di indicatori = =
La terza sintesi prevede il calcolo di alcuni indicatori, ovvero Per le distribuzioni di frequenza “modalità per modalità” la
gli indici di dimensione, variabilità e forma. Gli indici di formula cambia:
dimensione danno informazioni sull’ordine di grandezza del
fenomeno; i principali sono: moda, mediana (con quartili, '
decili e percentili), media aritmetica. $!%#
∑
! !
= = 0
! !
!%#
La moda può essere calcolata per qualunque carattere: Per le distribuzioni di frequenza “in classi” viene scelta una
• Nelle distribuzioni unitarie è la modalità che si modalità, da moltiplicare per la frequenza corrispondente, che
presenta più spesso; rappresenti ciascuna classe. Di solito si considera il valore
• Nelle distribuzioni di frequenza modalità per centrale della classe:
modalità è la modalità con frequenza maggiore;
• Nelle distribuzioni di frequenza in classi, la classe +
!"# !
modale è la classe con densità di frequenza
1 =
( 2
maggiore. 2
In questo modo si ottiene una media aritmetica approssimata. Lo scostamento quadratico medio SQM nelle distribuzioni
Se la distribuzione in classi presenta anche la colonna del unitarie si calcola con queste due formule, di cui la seconda
valore medio di ogni classe (μ ) si ottiene la media aritmetica, derivante dalla seconda proprietà della media aritmetica.
i
non approssimata, della distribuzione mediante questa
formula: '
'!%#
∑
1
( !
= = 0
1
( !
!%# Nelle distribuzioni di frequenza, le formule possibili per
La media aritmetica è l’indice di dimensione più comune calcolare lo scostamento quadratico medio sono quattro:
perché gode di importanti proprietà. La prima proprietà
afferma che la media aritmetica rende nulla la somma degli
scarti, cioè la differenza tra la modalità x e la media aritmetica.
i
La dimostrazione viene chiesta all’orale: Lo scostamento quadratico medio è un indice difficile da
interpretare come valore assoluto: non si dice che la variabilità
sia elevata o meno.
Per calcolare la varianza si utilizzano le stesse formule
togliendo la radice quadrata: è espressa con un’unità di misura
La seconda proprietà afferma che la media aritmetica rende al quadrato rispetto alla media aritmetica e allo scostamento
minima la somma degli scarti al quadrato, mentre la mediana quadratico medio.
rende minima la somma degli scarti in valore assoluto: Il coefficiente di variazione è il rapporto tra SQM e la media
aritmetica (quest’ultima in valore assoluto). È un indice utile
per confrontare la variabilità di diverse distribuzioni ed è
indipendente dall’unità di misura del carattere; inoltre, non è
influenzato dall’intensità (cioè dall’ordine di grandezza del
fenomeno).
La terza è la proprietà di linearità della media aritmetica: data
una trasformazione lineare di x, la media di y si può calcolare Lo scostamento quadratico medio e la varianza hanno diverse
applicando la stessa relazione che vi è tra i caratteri x e y con proprietà. La prima afferma che, data una trasformazione
le medie aritmetiche. lineare, risulta:
Il termine “a” di una trasformazione lineare non ha effetti sugli
indici di variabilità. Immaginando un istogramma che descriva
La quarta è proprietà associativa della media aritmetica: la distribuzione di x, aggiungendo il numero “a” alla
distribuzione, esso trasla l’istogramma di quel numero
sull’asse delle ascisse, ma la sua forma rimane invariata.
Gli indici di variabilità indicano la variabilità tra le modalità
intorno alla media. Sono calcolati solo per caratteri quantitativi
e sono sempre positivi se c’è variabilità, uguali a zero se non La seconda proprietà è la formula di scomposizione della
c’è variabilità (mai negativi). Questi indici sono: varianza: immaginando un contesto analogo a quello della
proprietà associativa della media aritmetica, si rileva un
• lo scostamento quadratico medio (SQM o carattere sulle unità di “s” gruppi e all’interno di ogni gruppo
deviazione standard) che si indica con “sigma” σ; si calcola la media e la varianza del carattere. La proprietà
• la varianza, che è lo SQM al quadrato; associativa della media aritmetica ci consente di calcolare la
• il coefficiente di variazione, che è il rapporto tra media generale (con la formula in blu, che ci dice che la media
SQM e la media aritmetica (quest’ultima in valore generale può essere calcolata come la media ponderata delle
assoluto). medie dei gruppi usando come pesi le numerosità dei gruppi).
3 < .
Nelle situazioni di asimmetria negativa, invece, In
questo caso poche unità presentano valori contenuti; vi è una
“lunga coda sinistra” nella distribuzione data dai pochi valori
molto piccoli delle x, che trascinano la media aritmetica verso
sinistra.
L’ultimo istogramma nella realtà non si presenta quasi mai ed
è il caso della simmetria rispetto a un asse che coincide col
= ).
valore della media aritmetica e della mediana (
Una forma analoga a questa si utilizza per calcolare la varianza
generale del carattere partendo da numerosità, media e
varianza dei gruppi: essa è la somma di due quantità, cioè la L’indice di asimmetria di Fisher (si indica con la lettera
varianza interna e la varianza esterna. La varianza interna “gamma” γ):
ricorda la proprietà associativa della media aritmetica perché è
una media ponderata delle varianze dei singoli gruppi usando
come pesi le numerosità di ciascun gruppo. La variabilità
misura quanto le modalità delle singole unità si differenziano
rispetto alla media: avendo dei gruppi, con la varianza interna
si tiene conto solo della variabilità che c’è all’interno dei
gruppi, ma per ottenere una varianza generale bisogna tener
conto anche della varianza esterna, cioè della variabilità che
c’è tra i diversi gruppi (tiene conto di quanto i gruppi sono
vicini o lontani). Non si tratta di una varianza del carattere x
(negli esercizi non vengono date informazioni su di esso), ma
di una varianza generale che c’è tra le medie dei gruppi e la All’interno delle parentesi tonde vi è la formula della
media generale. standardizzazione (z). Non è un indice facilmente
interpretabile (così come la varianza).
Distribuzioni doppie
La distribuzione doppia è la rilevazione di due caratteri su un
unico collettivo. L’obiettivo principale è lo studio della
relazione tra i due caratteri. Si parte sempre da una
distribuzione doppia unitaria con tre colonne: unità, modalità
Una particolare trasformazione lineare è la standardizzazione di x posseduta dalle unità, modalità di y posseduta dalle unità.
(z). La prima formula permette di passare da un carattere
quantitativo x alla corrispondente versione standardizzata z.
Generalmente, però, si usa la seconda formula. È una
&
= 0 = 1.
trasformazione lineare particolare perché e
) 1° sintesi: Distribuzione doppia di frequenza
Il primo passaggio per sintetizzare una distribuzione doppia
unitaria è passare ad una distribuzione doppia di frequenza.
Si costruisce una tabella a doppia entrata: nella prima colonna
Gli indici di forma si calcolano solo per caratteri quantitativi: si inseriscono le modalità di x, nella prima riga le modalità di
i più importanti sono quelli di asimmetria. y. All’interno si riportano il numero di unità che presentano la
coppia x, y di modalità: queste si chiamano frequenze interne
delle coppie di modalità. La somma delle frequenze riga per
riga viene scritta nell’ultima colonna; la somma delle
frequenze colonna per colonna viene scritta nell’ultima riga.
Queste frequenze che stanno ai margini della tabella si
chiamano frequenze marginali e non hanno doppio indice
perché dipendono da una sola variabile.
Questi istogrammi rappresentano le tre situazioni che si
possono verificare. Si parla di asimmetria positiva quando la
maggior parte delle unità presenta valori contenuti della x e
poche unità presentano valori molto elevati della x (“lunga
coda destra” nella distribuzione). Le poche unità con valori
elevati trascinano la media aritmetica verso destra, ma non la
> .
mediana perché è più robusta, quindi: 4
Se s = t la distribuzione è quadrata. Le frequenze relative sono: uguaglianza porta alla seguente formula: c’è
indipendenza assoluta se e solo se per tutte le celle
(frequenze interne alla tabella) vale questa formula
.
.
!* *
!
= , .= , . = (danno tutte lo stesso risultato):
!* ! *
. .
! *
2° sintesi: Rappresentazione grafica = , ∀∀
!*
Nel caso di x e y caratteri qualitativi discreti: si rappresentano 2) massima dipendenza assoluta: conoscere la
sul piano cartesiano le coppie (x , y ) con frequenza non nulla.
i i modalità di x che si presenta su un’