S tatistica Descrittiva
C apitolo 1 - I
ntroduzione
1.1 - Obiettivi della statistica
L'oggetto di studio della statistica sono i fenomeni reali il cui studio richiede l'osservazione di una pluralità di ma-
nifestazioni individuali.
Ad esempio un collettivo di persone, imprese appartenenti ad una stessa categoria, un insieme di aree geografiche
interessate da un medesimo fenomeno...
Gli obiettivi sono:
1) fornire la metodologia per descrivere, analizzare e prevedere il fenomeno oggetto di studio;
2) riassumere efficacemente le informazioni contenute nei dati relativi al fenomeno;
3) estrarre dai dati informazioni più generali riferite a collettivi più ampi.
L'analisi statistica si articola nelle seguenti fasi:
1) Descrizione del fenomeno mediante una sintesi dei dati, articolata in:
• distribuzioni di frequenze (prospetto della configurazione dei dati);
• indici di posizione (misurano i livelli);
• indici di dispersione (misurano la variabilità dei dati).
Della descrizione del fenomeno se ne occupa la statistica descrittiva.
2) Individuazione delle relazioni tra più fenomeni: ad esempio la relazione tra voto/punteggio dei test d'in-
gresso e la media dei voti degli esami
Di tale fase se ne occupa la statistica multivariata (parte della statistica che studia più di un fenomeno)
3) Valutazione del grado di incertezza di un fenomeno mediante la costruzione di un modello probabilistico
che formalizzi matematicamente le condizioni di incertezza.
Se ne occupa il calcolo delle probabilità.
4) Generalizzazione delle informazioni acquisite: studio delle caratteristiche di un collettivo più ampio ri-
spetto a quello descritto.
Comporta un grado di incertezza che non è presente nella descrizione dei dati.
Se ne occupa la statistica inferenziale.
5) Previsione: valutazione del possibile andamento futuro del fenomeno sempre basata su un modello proba-
bilistico e se ne occupa sempre la statistica inferenziale.
Capitolo 2 - Distribuzioni di frequenza
2 .1 - Definizioni
Individuato il fenomeno oggetto di studio, l'informazione disponibile è costituita dai seguenti oggetti:
• le unità statistiche: le singole entità su ciascuna delle quali il fenomeno è osservabile (es. intervistati);
• il carattere statistico: la quantità/qualità mediante la quale viene osservato il fenomeno.
Def.: si dice popolazione statistica l'insieme delle unità statistiche sulle quali è possibile osservare il fenomeno.
Es. intervistati unità statistiche
→
intervistabili popolazione statistica
→
Indicheremo con:
= 1, … ,
− la popolazione statistica
Ω
− l'unità statistica i-esima per
e diremo che la popolazione ha individui, anche se non rappresentano persone.
Individuata la popolazione bisogna determinare i caratteri che descrivono il fenomeno al meglio.
Def.: si dice carattere la grandezza che, misurata su ciascuna unità statistica, è rilevante per la comprensione del
fenomeno. Affinchè una carattere sia statisticamente rilevante è necessario che sia suscettibile di variabilità.
Def.: si dicono:
− modalità di un carattere tutte le possibili determinazioni con cui può manifestarsi;
− modalità osservate l'insieme delle determinazioni con cui il carattere si manifesta nelle unità statistiche
osservate
Ad esempio:
− fenomeno: capacità alberghiera a Torino
− popolazione: alberghi di Torino
ℕ = 1,2, …
− caratteri che rileviamo: +∞
0,
ℝ
n° posti letti: modalità , …
: modalità
dimensione ristornate in
quartiere in cui si trova l'albergo: modalità
Def.: un carattere si definisce qualitativo se le sue modalità sono espresse in termini di attributo mentre si defini-
sce quantitativo se le sue modalità sono espresse in termini numerici o valori e in questo caso distinguiamo:
• discreto se le modalità sono individuate da un elenco;
• continuo se le modalità sono individuate da un intervallo
Distinguiamo anche la scala di misurazione che la rilevazione di un carattere comporta, e abbiamo:
− scala nominale: se non è previsto un ordinamento (es.: quartieri di Torino);
− scala ordinale: se è previsto un ordinamento ma non la distanza tra le modalità (es.: titolo di studio);
− scala per intervalli: se si misura la distanza tra modalità ma non esiste una mozione di zero assoluto (es.:
gradi C°);
− scala per rapporti: se esiste anche lo zero assoluto (es.: gradi Kelvin).
Introduciamo, quindi i concetti di variabili statistiche e mutabili statistiche.
2 .2 - Mutabili e variabili statistiche
Ω,
Data una popolazione definito il carattere e l'insieme delle modalità M che questo può assumere, rileviamo il ca-
rattere su ciascuna unità statistica e otteniamo i dati che possono derivare dalle seguenti due procedure diverse:
1) un censimento: descrizione dell'intera popolazione. Le metodologie forniscono esattamente le informa-
zioni richieste ed è un procedimento lungo e costoso.
2) un'indagine campionaria: consiste in una descrizione di un sottoinsieme della popolazione, chiamato
campione.
Per fare affermazioni sull'intera popolazione servono metodologie inferenziali o induttive, ovvero che
formulano conclusioni generali partendo da informazioni particolari; si ottengono approssimazioni del vero
valore del carattere ed eventualmente una quantificazione dell'errore commesso. M
Ω elementi di (moda-
lità.
La rilevazione dei dati determina una funzione che associa ad elementi della popolazione
M
,
,
-: / → 1 Ω
Def.: la funzione che associa a ciascun elemento di una e una solo modalità in M si dice mutabile sta-
tistica (m.s.) se gli elementi di M sono attributi mentre si dice variabile statistica (v.s.) se gli elementi di M sono
numerici.
Inoltre, analogamente al carattere, le v.s. si distinguono in:
• discrete se M è un insieme discreto;
• continue se M è un intervallo.
2 .3 - Distribuzioni di frequenze
Ω -
-
Def.: data una popolazione di n unità, si consideri una m.s. o una v.s.
Definiamo dati individuali (o grezzi o disaggregati) di l'insieme costituito dalle determinazioni delle unità
2 , … , 2 = 2
statistiche, che indicheremo con , 3 4,,…,3
− 6 .
2
è la modalità che il carattere assume per l'individuo
dove / = , , = 18, 9:8, ;8<8
Esempio: , 7
→ 1 → ℕ
−
− carattere: età
-( = -( 18 = 21
Ad esempio:
, = ≤ ?;
Alcune modalità possono presentarsi più di una volta e, dunque, il numero di modalità distinte osservate sarà un
-
certo numero possiamo operare una prima sintesi dei dati.
2 , … , 2
Def.: data una m.s. o una v.s. la cui rilevazione ha dato luogo ai dati individuali che indichiamo con
, 3 @ ≤ ,
2 , … , 2
,∗ 3∗
individuato il numero di modalità distinte osservate che indichiamo con denotiamo tali modalità con
= 1, … , @ 2
∗
2
∗
• per ogni si definisce frequenza assoluta della modalità il numero di volte in cui la stessa
modalità è stata osservata sulle n unità statistiche, che indichiamo con
(2 , … , (2
, ,
B∗
,∗
• si dice distribuzione di frequenza assolute di X l'insieme di coppie
, B
2 … 2
B∗
∗
-=C
Rappresenteremo la distribuzione di frequenze in questo modo
,
…
, B
-: DE8:8 FG66
Esempio:
/: 10 :F: : E′8I:8
− (L, (M, (N
1: (J, FK8 GEI8 :K
− L, M, L, N, L, M, M, N, L, L,
− @ = 3 ≤ = 10: L, M, N
− Dati individuali:
− Modalità distinte:
L 5
Determiniamo la distribuzione di X:
- = ⇒ 5 + 3 + 2 = 10 = Ω
P M 3
N 2 dimensione di
Le modalità non riportate hanno implicitamente frequenza nulla. B
Per costruzione della distribuzione la somma delle frequenze assolute è pari ad n:
+ + ⋯ + = T =
, B
4,
Ogni sintesi determina una perdita di informazioni.
L'aggregazione dei dati in modalità e numerosità associate elimina l'informazione sulla corrispondenza tra singole
unità statistiche e modalità.
Dal punto di vista statistico, la perdita è irrilevante, ma è molto utile dal punto di vista pratico, se abbiamo due po-
polazioni di numerosità differente, il confronto delle frequenze assolute (riferite al medesimo carattere) non da un
→
informazione significativa.
soluzione: introduciamo le frequenze relative.
2 … 2
B∗
∗
-=C
Def.: data una v.s. X con distribuzione di frequenza
,
…
, B 2
∗
G = , F = 1, … , @
si definisce frequenza relativa della modalità la quantità
2 … 2
B∗
∗
-=C
e la distribuzione
,
G … G
, B
è detta distribuzione di frequenze relative o anche distribuzione di frequenza.
B B
1
Per costruzione la somma delle frequenze relative è pari ad 1:
G + G + ⋯ + G = T G = +⋯+ = T = 1
, B
, B
4, 4,
/ = 10 :F: : E 8I:8
U
Esempio:
,
/ = 20 :F: : E 8<8 8I:8
U
- = 8I8à : DE8:8 , = 1, 2
6 2 3 4 8
2 4 5 5
- = - =
V V
2 10 2 1 5
3 4 1 2
,
Le distribuzioni non sono confrontabili per via della diversa dimensione delle popolazioni.
6 2 3 4 8
2 4 5 5
Calcoliamo le frequenza relative:
- = - =
V V
0.2 0.5 0.1 0.05 0.25
0.3 0.4 0.1 0.1
,
Ora le distribuzioni sono confrontabili.
2.4
4 - Distribuzioni per variabili continue
2.
L'aggregazione dei dati in una distribuzione è basata sulla ripetizione di alcune modalità.
Con le variabili statistiche continue, l'insieme dei dati individuali spesso contiene elementi tutti distinti; quindi, il
numero di modalità coincide con il numero dei dati individuali.
,
3
2 … 2
B∗
,∗
Ciascuna modalità avrà come frequenza relativa
2 … 2
B∗
∗
1 1
-= = @=
C Z
,
G … G …
, B
L'aggregazione in modalità e frequenze non produce alcune sintesi, quindi dobbiamo:
• raccogliere i dati in opportune classi;
• derivare la distribuzione di frequenze riferita alle classi.
- = @K : F8 [:E :8 = 6 F8G
Esempio:
2 = 51.3, 87.2, 42.9, 62.7, 74.8, 69.2 @=
4,,…,3 60^
(40,
Allora definiamo tre classi:
80^
(60,
1. 100^
(80,
2.
3.
e associamo a ciascuna classe il numero di unità statistiche per cui la variabile X assume modalità all'intero della
60^ 80^ 100^
(40, (60, (80,
classe.
-= V 2 3 1
2.4.1 - Scelta e costruzione delle classi
Requisiti minimi:
• le classi devono essere disgiunte (no sovrapposizioni);
• non ci devono essere ambiguità nell'attribuzione delle osservazioni tra le classi (ad. esempio intervalli tutti
chiusi a destra e aperti a sinistra o viceversa);
• le classi devono essere esaustive, ovvero tutti i dati devono trovare collocamento in una classe.
Altri aspetti:
• l'ampiezza delle classi deve essere costante quando possibile e ragionevole;
• il numero delle classi deve essere determinato da un compromesso tra sintesi (poche classi) e dettagli (mol-
te classi); =8+_
•
(8,
; = _^
la scelta del valore rappresentativo di una classe solitamente è il valore centrale, ovvero se
2
ma il valore centrale deve essere rappresentativo.
150^
(100,
; = = 125
Ad esempio se
ma se ho 10 unità statistiche nella classe C tutte inferiori a 120 il valore centrale c non rappresenta bene il
valori che cadono in C.
- = F G8E 66 :8 E8 6à
Esempio di perdita di informazioni:
= 20 @ = 5
91.5 93.5 97.45 100 104.5
importi distinti
-= V 4 2 5 6 3
a
Ammontare totale delle fatture emesse:
= 91.5 ∙ 4 + 93.5 ∙ 2 + 97.45 ∙ 5 + 100 ∙ 6 + 104.5 ∙ 3 = 1953.75
T 2
∗
4, (90, 95^ (95, 100^ (100, 105^
-= V
Raccogliamo in classi:
6 11 3
; = 92.5 ; = 97.5 ; = 102.5
, 7
7
T ; = 92.5 ∙ 6 + 97.5 ∙ 11 + 102.5 ∙ 3 = 1935 ≠ 1953.75
4,
Il raggruppamento in classi determina una perdita di informazioni; ritroveremo questi aspetti di studio negli indici
di sintesi.
2.5 - Rappresentazioni grafiche per mutabili statistiche
Vengono scelte in base al tipo di dati e in base all'enfasi che si vuole dare alla rappresentazione.
2.5.1 - Diagramma a torta
Se l'enfasi è sulle proporzioni reciproche delle modalità usiamo un diagramma a torta.
Def.: un diagramma a torta è un grafico format da un cerchio suddiviso in k spicchi le cui aree sono proporzionali
c
alle frequenze associate alle k modalità distinte.
8K< = 360° ∙ GDEI8 <8[8
Dobbiamo determinare l'angolo di di ciascuna fetta in base alla distribuzione di X:
= 360° ∙ G
c
- = < : 8F<<
Esempio:
/ = 100 :[:E
_: 868 8<
-=V biondo
25 50 20 5 castano
_: 868 8<
-=V nero
0.25 0.5 0.2 0.05
05 altro
c = 360° ∙ G = 360° ∙ 0.25 = 90°
, ,
c = 360° ∙ G = 360° ∙ 0.5 = 180°
c = 360° ∙ G = 360° ∙ 0.2 = 72°
7 7
c = 360° ∙ G = 360° ∙ 0.05 = 8°
e e
2.5.2 - Diagramma a barre
Se invece vogliamo enfatizzare i livelli delle misurazioni usiamo un diagramma a barre.
barre
Def.: si definisce diagramma a barre il grafico composto da k barre o segmenti posti sull'asse orizzontale con al-
al
tezza pari alle frequenze delle modalità osservate.
Nell'esempio di prima: L'ordine delle modalità sull'asse orizzontale è quello naturale quando c'è una
scala ordinale (es. titolo di studio) altrimenti
al
trimenti l'ordine è arbitrario.
Sia la distanza tra le barre sia la loro ampiezza, non avendo interpretazione
numerica, sono arbitrarie ma costanti.
- = 6 : EF8I
Esempio:
/ = 2160 E
,
/ = 534 :
G G
Settore Donne Uomini Donne Uomini
Agricoltura 34 120 0.064 0.06
Industria 180 1420 0.34 0.66
Servizi 320 620 0.6 0.29
0,7 1600
0,6 1400
0,5 1200
1000
0,4 Uomini Donne
800
0,3 Donne 600 Uomini
0,2 400
0,1 200
0 0
Agricoltura Industria Servizi Agricoltura Industria Servizi
I grafici a barre/segmenti sono adatti a rappresentare anche le v.s., con le seguenti differenze:
• le modalità vengono poste nella loro posizione naturale sull'asse orizzontale;
• ordine e distanza tra modalità vengono rispettate.
- = E : GK<
Esempio:
/ = 100 G8 K< 3 6
0 1 2
-=V 10 35 30 15 10
40
35
30
25
20
15
10
5
0 0 1 2 3 4 5 6
2.6 - Rappresentazioni grafiche per v.s. continue o raccolte in classi
Sono usati prevalentemente per le v.s. continue ma anche per le discrete raccolte in classi se si rende necessario.
Serve un grafico che metta in relazione:
− l'ampiezza delle classi;
− le frequenza.
in modo da rendere visivamente evidenti i "pesi" relativi alle varie classi.
2.6.1 - Istogramma
Def.: si definisce istogramma un grafico composto da k rettangoli adiacenti tali che:
− la base di ciascun rettangolo è costituita dall'ampiezza della classe associata;
− l'area di ciascun rettangolo coincide con la frequenza relativa della classe associata.
(2 , 2 ^ (2 , 2 ^ … (2 , 2 ^
-=C
Considero una v.s. definita su k classi:
f , , Bg, B
G G … G
, B
9 = 2 − 2 , = 1, … , @
L'ampiezza (ovvero la base) di ciascuna classe è data da:
g,
88 = _86 ∙ 8<II8
L'area del rettangolo è data da G
G = 9 ∙ 8<II8 → 8<II8 =
9
j
h = i
k
i i
ℎ
è detta densità di frequenza della classe i-esima
G 9 ℎ
Frequenza Ampiezza Altezza
G
Classi
(2 , 2 ^ G 9 ℎ = ,
9
f , , , , ,
G
(2 , 2 ^ G ℎ =
9
9
,
⋮ ⋮ ⋮ ⋮ G
(2 , 2 ^ G ℎ =
9 B
9
Bg, B B B
B B
Esempio: G 9 ℎ
Classe
(10, 20] 0.4 10 0.04
(20, 25] 0.25 15 0.05
(25, 50] 0.35 25 0.014
La classe con densità maggiore non è necessariamente quella con
frequenza associata più grande.
G 9 ℎ
Esempio:
Classe
(160, 170] 0.1 10 0.01
(170, 180] 0.49 10 0.049
(180, 190] 0.36 10 0.036
(190, 200] 0.05 10 0.005
G
Caso particolare di istogramma con barre di ampiezza costante (non
è un diagramma a barre) e l'area di ciascun rettangolo è pari a .
2.7 - La simmetria
immetria e la moda
s
Introduciamo il primo indice di posizione:
Def.: si definisce moda di una distribuzione di frequenza: ℎ
− la modalità che si presenta con maggior frequenza, nel caso di m.s. o di v.s. discrete;
− la classe che presenta la maggior densità di frequenza nel caso di v.s. continue o raccolte in classi (in
questo caso si parla di classe modale).
1 1 3 4 5
E
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.