vuoi
o PayPal
tutte le volte che vuoi
MISURE SINTETICHE
Le misure sintetiche comprendono misure di posizione e misure di variabilità.
Misure di posizione: sintetizzano la posizione di una distribuzione di frequenza mediante
un valore reale rappresentativo della globalità del fenomeno e tale da riassumere gli
aspetti ritenuti più importanti. Comprendono: moda; mediana; media; e percentili.
La moda corrisponde alla modalità più frequente. Il calcolo della moda richiede di raggruppare le
unità rispetto alle modalità del carattere. Risulta possibile calcolare la moda per ciascun tipo di
carattere, anche per i caratteri sconnessi. Quando la moda rappresenta la modalità che compare
con maggiore frequenza ha una distribuzione unimodale mentre nel caso di dati raggruppati in
classi la moda si trova nella classe con il maggior numero di osservazioni. Quando se ci sono più
mode si ha una distribuzione multimodale.
La mediana è la modalità associata alla posizione centrale, ovvero è il valore che nella
serie ordinata dei dati occupa l’osservazione di posizione e che ha il 50% delle
osservazioni più piccole ed il 50% delle osservazioni più grande. Il calcolo della mediana
richiede l’ordinamento delle unità rispetto alle modalità del carattere. Risulta possibile
calcolare la mediana per caratteri ordinabili ma non è possibile calcolare la mediana per
caratteri sconnessi. Per trovare la modalità in posizione centrale ci sono 2 metodiche
diverse:
- se N è dispari la posizione centrale corrisponde a (N + 1) / 2;
- se N è pari abbiamo 2 posizioni centrali che corrispondono a: N / 2; e (N / 2) + 1.
Individuate le 2 modalità che si trovano nelle 2 posizioni centrali per calcolare la mediana
è sufficiente fare la media tra i 2 valori.
Esercizio: calcolare la mediana dei seguenti dati.
x f frequenze cumulate
j j
7 4 4
8 6 10
13 3 13
15 1 14
totale 14 -
Poiché N è 14 la mediana si trova tra le posizioni 7 ed 8. Osservando le frequenze
cumulate la prima a contenere la posizione 7 è quella corrispondente alla modalità 8 che è
10 mentre la prima che contiene la posizione 8 è sempre quella corrispondente alla
posizione 8. Poiché i valori corrispondenti alle posizioni 7 ed 8 sono entrambi 8 la
mediana, dovuta alla media di questi 2 valori, è 8.
I dati della tabella potrebbero essere scritti come se ogni x avesse una frequenza unitaria:
j
- 7, 7, 7, 7, 8, 8, 8, 8, 8, 8, 13, 13, 13, 15.
Se si contano le posizioni ai numeri 7 ed 8 troviamo sempre la modalità 8 come se si
usano le frequenze cumulate.
3
La media esprime la posizione globale di una distribuzione ed è data dalla somma delle modalità
di tutte le unita diviso la loro numerosità. Poiché per calcolare la media si deve eseguire la somma
delle modalità risulta possibile calcolare la media soltanto per caratteri numerici e quindi
quantitativi. Non è possibile calcolare la media per caratteri sconnessi e per caratteri ordinabili. Le
formule per il calcolo della media variano in base al tipo di variabili e sono:
- distribuzione per unità: la media corrisponde a μ = Σxi / n;
- distribuzione di frequenze assolute: la media corrisponde a μ = [Σx n ] / n;
i i
- distribuzione di frequenze relative: la media corrisponde a μ = Σx f .
i i
La media ha 2 proprietà:
- la media aritmetica è sempre compresa tra il valore minimo ed il valore massimo;
- la somma algebrica degli scarti, cioè delle differenze tra i valori e la loro media,
moltiplicati eventualmente per la frequenza, è sempre nulla e corrisponde a Σ(x – x) f = 0.
j j
In una distribuzione perfettamente simmetrica media, mediana e moda hanno lo stesso
valore: In una distribuzione asimmetrica, la media si posiziona nella direzione
dell’asimmetria. La media è l’unica delle 3 misure che utilizza tutte le informazioni in una
serie di dati, ovvero riflette il valore di ciascuna osservazione della distribuzione.
La media è un indice meno robusto rispetto alla mediana perché viene influenzato dalla
presenza di osservazioni aberranti, o valori anomali, definiti outliers. Se ci fossero
troppi valori anomali è più opportuno calcolare la mediana poiché la media risulterebbe
troppo forviante.
I percentili sono degli indici di posizione che dividono una distribuzione di frequenza in
100 parti in modo che se x è il primo percentile allora l’1% dei soggetti del campione
1
possiede il carattere considerato in misura inferiore o uguale ad x . Il percentile x° è
1
l’osservazione che si trova, ordinando i dati in ordine crescente, in posizione (percentile
x° / 100) (n + 1) dove n è il numero di osservazioni. Se il numero di osservazioni è pari il
risultato della formula avrà dei decimali per cui dovremo considerare la posizione
precedente e quella seguente al risultato ottenuto e fare una proporzione tra le 2 posizioni
considerando i numeri decimali.
Esercizio: calcolare il 30° percentile delle seguenti 18 osservazioni:
- 35, 36, 37, 40, 40, 42, 42, 42, 45, 45, 46, 47, 49, 49, 51, 51, 53, 55.
Il 30° percentile sarà l’osservazione in posizione: 30/100 (18 + 1) = 5.7
Essendo il risultato 5.7 il 30° percentile sarà l’osservazione compresa tra la 5° e la 6° posizione,
cioè 0.7 parti dell’intervallo 40-42. Quindi il 30° percentile sarà: 40 + (42 – 40) 0.7 = 41.4
Esercizio: calcolare il 30°, 60° e 90° percentile.
età frequenza freq. cumulativa età frequenza freq. cumulativa
18 1 1 26 32 642
19 27 28 27 25 667
20 82 110 28 19 686
21 109 219 29 7 693
22 133 352 30 7 700
23 138 490 31 2 702
24 73 563 32 2 704
25 47 610 33 2 706
totale 706
4
Il 30° percentile corrisponde a 30/100 (706 + 1) = 212.1 contenuto dalla posizione corrispondente
a 21 anni. Il 60° percentile corrisponde a 60/100 (706 + 1) = 424.2 contenuto dalla posizione
corrispondente a 23 anni. Il 90° percentile corrisponde a 90/100 (706 + 1) = 636.3 contenuto dalla
posizione corrispondente a 26 anni. Il 30% di questo gruppo di studenti ha 21 anni o meno, il 60%
ne ha 23 o meno mentre il 10% di loro ha più di 26 anni.
Esistono dei percentili speciali come:
- decili: dividono la distribuzione in 10 parti uguali;
- quintili: dividono la distribuzione in 5 parti uguali;
- quartili: dividono la distribuzione in 4 parti, o distribuzioni parziali, uguali ciascuna
avente la quarta parte della numerosità totale. La modalità che fa da cardine fra la prima e
la seconda distribuzione parziale si chiama primo quartile. La modalità che fa da cardine
fra la seconda e la terza distribuzione parziale si chiama secondo quartile e coincide con
la mediana. La modalità che fa da cardine fra la terza e la quarta distribuzione parziale si
chiama terzo quartile. I quartili sono:
- quartile inferiore o QI: corrisponde al 25° percentile;
- mediana: corrisponde al 50° percentile;
- quartile superiore o QS: corrisponde al 75° percentile.
Se si riportano su un piano cartesiano le aree delimitate da ciascun quartile sono uguali.
Misure di variabilità: misurano la variabilità, o dispersione, di una distribuzione di
frequenza rispetto ad un centro rappresentativo e permettono di dare una misura
all’estensione della distribuzione. Comprendono: campo di variazione; scarto
quadratico medio; varianza; e coefficiente di variazione.
Il campo di variazione, o range, è la differenza tra l’osservazione più grande e quella più
piccola. Un problema di questa misura è l’estrema sensibilità alle osservazioni estreme.
Il range interquartile, o RIQ, è determinato dalla differenza tra il quartile superiore e
quello inferiore, per cui RIQ = QS – QI. Questa misura ci dice che il 50% delle
osservazioni mediane sono comprese nei 2 estremi. Rappresenta la lunghezza
del’intervallo in cui cade il 50% centrale della distribuzione variabile.
Lo scarto quadratico medio, detto anche deviazione standard, misura di quanto si
discostano, in media, le osservazioni della variabile dalla loro media, ed è espresso nella
stessa unità di misura in cui è espressa la variabile. Si calcola facendo la radice quadrata
della somma degli scarti al quadrato diviso il numero delle osservazioni secondo la
2
formula σ = √ Σ(x – x) / n, dove n è il numero di osservazioni, x sono le singole
j j
osservazioni ed x è la loro media.
Il denominatore può essere:
- n: permette di determinare lo scarto quadratico medio dell’intera popolazione;
- n – 1: permette di calcolare lo scarto quadratico medio di un campione poiché in genere
si lavora con campioni. Quando il campione è molto grande la differenza degli scarti
quadratici medi, usando n o n – 1, è irrisoria e l’effetto dell’arrotondamento rende
indifferente l’uso di n o n – 1.
Lo scarto quadratico medio per dati raccolti ijn una tabella di distribuzione di frequenza
2
usa la formula σ = √ Σ(x – x) f / Σf .
j j j
Esercizio: calcolare lo scarto quadrati medio dell’età di 706 individui sapendo che la
media delle età è 22.85 anni. 2 2
età frequenza f scarto (x – x) scarto al quadrato (x – x) (x – X) f
j j j j j
18 1 - 4.85 23.52 23.52
5 19 27 - 3.85 14.82 400.14
20 82 - 2.85 8.12 665.84
21 109 -1.85 3.42 372.78
22 133 - 0.85 0.72 95.76
23 138 0.15 0.02 2.76
24 73 1.15 1.32 96.36
25 47 2.15 4.62 217.14
26 32 3.15 9.92 317.44
27 25 4.15 17.22 430.50
28 19 5.15 26.52 503.88
29 7 6.15 37.82 264.74
30 7 7.15 51.12 357.84
31 2 8.15 66.42 132.84
32 2 9.15 83.72 167.44
33 2 10.15 103.02 206.04
Σf = 706 Σ = 4255.02
j
σ = √ 42255.02 / 706 = 2.46
Per calcolare lo scarto quadratico medio per classi di merito non cambia nulla se non la
necessità di calcolare il punto di mezzo, o valore centrale, della classe ed usare quello
al posto di x .
j 2
La varianza è il quadrato dello scarto quadratico medio ed è data da var(X) = σ = 1/n
2
Σ(x – x) . La varianza di una costante è pari a 0. La varianza è un numero sempre positivo
j
e si può calcolare usando solo la media infatti si dimostra che la varianza è uguale alla
differenza tra la media del quadrato ed il quadrato della media delle osservazioni: var(X) =
2 j2 2 2 2
σ = 1/n Σx – (1/n Σx ) = E (X ) – [E (X)] , dove E indica il valore atteso e quindi la media.
j
Esercizio: