Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
B B
1
Per costruzione la somma delle frequenze relative è pari ad 1:
G + G + ⋯ + G = T G = +⋯+ = T = 1
, B
, B
4, 4,
/ = 10 :F: : E 8I:8
U
Esempio:
,
/ = 20 :F: : E 8<8 8I:8
U
- = 8I8à : DE8:8 , = 1, 2
6 2 3 4 8
2 4 5 5
- = - =
V V
2 10 2 1 5
3 4 1 2
,
Le distribuzioni non sono confrontabili per via della diversa dimensione delle popolazioni.
6 2 3 4 8
2 4 5 5
Calcoliamo le frequenza relative:
- = - =
V V
0.2 0.5 0.1 0.05 0.25
0.3 0.4 0.1 0.1
,
Ora le distribuzioni sono confrontabili.
2.4
4 - Distribuzioni per variabili continue
2.
L'aggregazione dei dati in una distribuzione è basata sulla ripetizione di alcune modalità.
Con le variabili statistiche continue, l'insieme dei dati individuali spesso contiene elementi tutti distinti; quindi, il
numero di modalità coincide con il numero dei dati individuali.
,
3
2 … 2
B∗
,∗
Ciascuna modalità avrà come frequenza relativa
2 … 2
B∗
∗
1 1
-= = @=
C Z
,
G … G …
, B
L'aggregazione in modalità e frequenze non produce alcune sintesi, quindi dobbiamo:
• raccogliere i dati in opportune classi;
• derivare la distribuzione di frequenze riferita alle classi.
- = @K : F8 [:E :8 = 6 F8G
Esempio:
2 = 51.3, 87.2, 42.9, 62.7, 74.8, 69.2 @=
4,,…,3 60^
(40,
Allora definiamo tre classi:
80^
(60,
1. 100^
(80,
2.
3.
e associamo a ciascuna classe il numero di unità statistiche per cui la variabile X assume modalità all'intero della
60^ 80^ 100^
(40, (60, (80,
classe.
-= V 2 3 1
2.4.1 - Scelta e costruzione delle classi
Requisiti minimi:
• le classi devono essere disgiunte (no sovrapposizioni);
• non ci devono essere ambiguità nell'attribuzione delle osservazioni tra le classi (ad. esempio intervalli tutti
chiusi a destra e aperti a sinistra o viceversa);
• le classi devono essere esaustive, ovvero tutti i dati devono trovare collocamento in una classe.
Altri aspetti:
• l'ampiezza delle classi deve essere costante quando possibile e ragionevole;
• il numero delle classi deve essere determinato da un compromesso tra sintesi (poche classi) e dettagli (mol-
te classi); =8+_
•
(8,
; = _^
la scelta del valore rappresentativo di una classe solitamente è il valore centrale, ovvero se
2
ma il valore centrale deve essere rappresentativo.
150^
(100,
; = = 125
Ad esempio se
ma se ho 10 unità statistiche nella classe C tutte inferiori a 120 il valore centrale c non rappresenta bene il
valori che cadono in C.
- = F G8E 66 :8 E8 6à
Esempio di perdita di informazioni:
= 20 @ = 5
91.5 93.5 97.45 100 104.5
importi distinti
-= V 4 2 5 6 3
a
Ammontare totale delle fatture emesse:
= 91.5 ∙ 4 + 93.5 ∙ 2 + 97.45 ∙ 5 + 100 ∙ 6 + 104.5 ∙ 3 = 1953.75
T 2
∗
4, (90, 95^ (95, 100^ (100, 105^
-= V
Raccogliamo in classi:
6 11 3
; = 92.5 ; = 97.5 ; = 102.5
, 7
7
T ; = 92.5 ∙ 6 + 97.5 ∙ 11 + 102.5 ∙ 3 = 1935 ≠ 1953.75
4,
Il raggruppamento in classi determina una perdita di informazioni; ritroveremo questi aspetti di studio negli indici
di sintesi.
2.5 - Rappresentazioni grafiche per mutabili statistiche
Vengono scelte in base al tipo di dati e in base all'enfasi che si vuole dare alla rappresentazione.
2.5.1 - Diagramma a torta
Se l'enfasi è sulle proporzioni reciproche delle modalità usiamo un diagramma a torta.
Def.: un diagramma a torta è un grafico format da un cerchio suddiviso in k spicchi le cui aree sono proporzionali
c
alle frequenze associate alle k modalità distinte.
8K< = 360° ∙ GDEI8 <8[8
Dobbiamo determinare l'angolo di di ciascuna fetta in base alla distribuzione di X:
= 360° ∙ G
c
- = < : 8F<<
Esempio:
/ = 100 :[:E
_: 868 8<
-=V biondo
25 50 20 5 castano
_: 868 8<
-=V nero
0.25 0.5 0.2 0.05
05 altro
c = 360° ∙ G = 360° ∙ 0.25 = 90°
, ,
c = 360° ∙ G = 360° ∙ 0.5 = 180°
c = 360° ∙ G = 360° ∙ 0.2 = 72°
7 7
c = 360° ∙ G = 360° ∙ 0.05 = 8°
e e
2.5.2 - Diagramma a barre
Se invece vogliamo enfatizzare i livelli delle misurazioni usiamo un diagramma a barre.
barre
Def.: si definisce diagramma a barre il grafico composto da k barre o segmenti posti sull'asse orizzontale con al-
al
tezza pari alle frequenze delle modalità osservate.
Nell'esempio di prima: L'ordine delle modalità sull'asse orizzontale è quello naturale quando c'è una
scala ordinale (es. titolo di studio) altrimenti
al
trimenti l'ordine è arbitrario.
Sia la distanza tra le barre sia la loro ampiezza, non avendo interpretazione
numerica, sono arbitrarie ma costanti.
- = 6 : EF8I
Esempio:
/ = 2160 E
,
/ = 534 :
G G
Settore Donne Uomini Donne Uomini
Agricoltura 34 120 0.064 0.06
Industria 180 1420 0.34 0.66
Servizi 320 620 0.6 0.29
0,7 1600
0,6 1400
0,5 1200
1000
0,4 Uomini Donne
800
0,3 Donne 600 Uomini
0,2 400
0,1 200
0 0
Agricoltura Industria Servizi Agricoltura Industria Servizi
I grafici a barre/segmenti sono adatti a rappresentare anche le v.s., con le seguenti differenze:
• le modalità vengono poste nella loro posizione naturale sull'asse orizzontale;
• ordine e distanza tra modalità vengono rispettate.
- = E : GK<
Esempio:
/ = 100 G8 K< 3 6
0 1 2
-=V 10 35 30 15 10
40
35
30
25
20
15
10
5
0 0 1 2 3 4 5 6
2.6 - Rappresentazioni grafiche per v.s. continue o raccolte in classi
Sono usati prevalentemente per le v.s. continue ma anche per le discrete raccolte in classi se si rende necessario.
Serve un grafico che metta in relazione:
− l'ampiezza delle classi;
− le frequenza.
in modo da rendere visivamente evidenti i "pesi" relativi alle varie classi.
2.6.1 - Istogramma
Def.: si definisce istogramma un grafico composto da k rettangoli adiacenti tali che:
− la base di ciascun rettangolo è costituita dall'ampiezza della classe associata;
− l'area di ciascun rettangolo coincide con la frequenza relativa della classe associata.
(2 , 2 ^ (2 , 2 ^ … (2 , 2 ^
-=C
Considero una v.s. definita su k classi:
f , , Bg, B
G G … G
, B
9 = 2 − 2 , = 1, … , @
L'ampiezza (ovvero la base) di ciascuna classe è data da:
g,
88 = _86 ∙ 8<II8
L'area del rettangolo è data da G
G = 9 ∙ 8<II8 → 8<II8 =
9
j
h = i
k
i i
ℎ
è detta densità di frequenza della classe i-esima
G 9 ℎ
Frequenza Ampiezza Altezza
G
Classi
(2 , 2 ^ G 9 ℎ = ,
9
f , , , , ,
G
(2 , 2 ^ G ℎ =
9
9
,
⋮ ⋮ ⋮ ⋮ G
(2 , 2 ^ G ℎ =
9 B
9
Bg, B B B
B B
Esempio: G 9 ℎ
Classe
(10, 20] 0.4 10 0.04
(20, 25] 0.25 15 0.05
(25, 50] 0.35 25 0.014
La classe con densità maggiore non è necessariamente quella con
frequenza associata più grande.
G 9 ℎ
Esempio:
Classe
(160, 170] 0.1 10 0.01
(170, 180] 0.49 10 0.049
(180, 190] 0.36 10 0.036
(190, 200] 0.05 10 0.005
G
Caso particolare di istogramma con barre di ampiezza costante (non
è un diagramma a barre) e l'area di ciascun rettangolo è pari a .
2.7 - La simmetria
immetria e la moda
s
Introduciamo il primo indice di posizione:
Def.: si definisce moda di una distribuzione di frequenza: ℎ
− la modalità che si presenta con maggior frequenza, nel caso di m.s. o di v.s. discrete;
− la classe che presenta la maggior densità di frequenza nel caso di v.s. continue o raccolte in classi (in
questo caso si parla di classe modale).
1 1 3 4 5
Esempio:
-=V 0.2 0.1 0.1 0.4 0.2
In questo caso la moda è 4 e non 0.4 poiché la moda è una modalità non una frequenza.
La moda può non essere unica: in tal caso si parla di distribuzione bimodale, trimodale o in generale multimo-
dale. 1 1 3 4 5
-=V
Esempio:
0.4 0.1 0.4 0.05 0.05
Distribuzione bimodale con mode 1 e 3.
Esempio: G 9 ℎ
Classe
(0, 10] 0.35 10 0.035
(10, 30] 0.6 20 0.03
(30, 35] 0.05 5 0.01
La classe modale è (0, 10], quella con maggiore densità (la seconda aveva maggiore frequenza).
La moda ci consente di identificare la presenza o meno di simmetria in una distribuzione, con un criterio semplice
(ma grossolano):
• se la frequenza o la densità di frequenza decrescono in modo simile a destra e a sinistra della moda, la di-
stribuzione presenta caratteri di simmetria.
La simmetria implica che osservazioni molto piccole molto grandi relativamente alla moda hanno fre-
quenze simili.
• se le frequenze decrescono più rapidamente da un lato della moda, parliamo di distribuzione asimmetrica.
Asimmetria negativa: è presente una marcata coda
Asimmetria positiva: è presente una marcata coda a sinistra
a destra
2.8 - Relazioni tra piu variabili
Finora abbiamo trattato le v.s. unidimensionali (tecniche invariate); nel caso in cui si considerano più caratteri con-
giuntamente, parliamo di v.s. (e conseguente analisi) multivariate.
/ = 10 G<8< _88
Esempio:
- = 866 : 66 8FF<8 6E EE
n = E : EEE 86 8 K8 2014
(2 ,
= 10 , o = 1, … , 10
Rileviamo coppie di dati
(2
, o 2
Il dato individuale non è più il singolo valore ma una coppia:
, ,
(2
, o
o
(4, 20)
Per l'i-esima unità statistica il carattere X assume valore e il carattere Y assume il
(2
, o
(5, 15)
7 7 valore
(2
, o (2 (2
, o = , o = (4, 20
(4, 20)
e e Vi sono ripetizioni, ad esempio:
(2
, o , , 7 7
(3, 25)
a a
(2
, o (2 (2
, o , o = 5, 12
(5, 12)
p p ma la ripetizione si intende per l'intera coppia e no parziale, ad esempio:
(2 a a
, o (5, 15)
q q = (5, 15) ≠
(2
, o (