Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
ESTREMI CLASSI FREQ CUM
10 0 AGP 14
Statistica Descrittiva (Appunti)
14 6
18 6+10=16
22 16+10=26
26 26+4=30
30 30+4=34
34 34+2=36
Ci calcoliamo adesso la mediana sapendo che si deve trovare nella posizione in cui deve risultare
36
< >
essere . Quindi risulta essere 16< 18 e 26>18, la mediana si trova nella classe [18;22)
2
Il secondo passaggio è quello di calcolarsi le frequenze relative cumulate e la mediana si troverà
nella posizione < 0.50 >
ESTREMI CLASSI fre rel cum ( come al solito la frequenza cumulata nell’ultimo valore
10 0 dovrebbe essere 1, ma dipende dall’approssimazione che si
14 0,16 usa)
18 0,16+0,27= 0,43
22 0,43+0,27=0,7 0.43<0.50 e 0.70>0.50
26 0,7+0,11=0,81 perciò la mediana si trova tra la classe [18;22)
30 0,81+0,11=0,92
34 0,92+0,05= 0,97
il terzo e ultimo passaggio è risolvere il sistema che risulta essere così composto:
− −
1 1
=
− −
{ 2 1 2 1
= 0.50
Dove con y1= 0.43, y2=0.70, x1=18 e x2=22. Facendo i calcoli e risolvendo poi il sistema per la
variabile x, avremo che la mediana sarà: x=16.97
Quartili
Accanto alla mediana si possono introdurre altri valori medi, associati, come la mediana, a
particolari posizioni nella graduatoria dei termini della distribuzione. I quartili dividono i termini
della distribuzione in quattro parti della stessa modalità.
Il primo quartile è quel valore che lascia a sinistra il 25% dei dati:
Es: 15,16,18,20,22 Il primo passaggio è ordinare i dati, poi si passa alla determinazione del rango
Rango: (n+1) * 0.25= (5+1) * 0.25= 1.5
Significa che il primo quartile si trova tra l’elemento 1 e l’elemento 2.
(16
= 15 + − 15) ∗ 0.50 = 15.5
1 AGP 15
Statistica Descrittiva (Appunti)
Es: 21,22,24,25
Rango: (n+1) * 0.25= (4+1) * 0.25= 1.25
(22
= 21 + − 21) ∗ 0.25 = 21.25
1
Il terzo quartile è quel valore che lascia a sinistra il 75% dei dati:
Es: 15,16,18,20,22
Rango: (n+1) * 0.75= 4.5
Significa che il terzo quartile si trova tra l’elemento 4 e l’elemento 5.
= 20 + (22-20) * 0.75= 22.5
3
Es: 21,22,24,25
Rango (n+1) * 0.75= (4+1)* 0.75=3.75
(25
= 24 + − 24) ∗ 0.75 = 24.75
3
Il secondo quartile non sarebbe altro che la Mediana.
Ora che abbiamo tutti i dati a disposizione possiamo costruire il BOX-PLOT.
Il Box-Plot (diagramma a scatola e baffi) è un diagramma che fornisce una rappresentazione
grafica della distribuzione dei dati, evidenziando dove cade la maggioranza dei valori ed inoltre
indica quei valori che differiscono di molto dalla norma, i cosiddetti valori anomali.
Gli elementi per costruire un Box-Plot sono:
, , … ,
= min ( )
0 1 2
= 1° quartile
1
= mediana o 2° quartile
2
= 3° quartile
3
= , , … ,
max ( )
4 1 2
infine introduciamo un valore che prende il nome di IQR (campo di variazione interquartile) che
non è altro che la differenza tra Q3 e Q1.
Abbiamo questa distribuzione disaggregata di dati statistici (già ordinata):
10,3; 12,9; 12,9; 13,5; 13,7; 14,0; 14,2; 15,0; 15,4; 15,7; 16,6; 17,1; 17,4;17,8; 18,3; 18,3; 18,6;
18,9; 19,7; 20,3; 20,7; 20,8; 21,4; 23,0; 23,2;23,7; 26,1; 27,1; 29,8; 33,8
Q1: Rango: (n+1) * 0.25= (30+1) * 0.25 =7.75
Quindi l’elemento si trova tra la posizione 7 e 8
4
Q1: 14.2 +(15-14.2) * 0.75 = 14.8
Q2: Rango: (n+1) * 0.50= 15.5
Q2: tra la posizione 15 e 16: 18.3
Q3: Rango: (n+1) * 0.75= 23.25
Q3: 21.4 + (23-21.4) * 0.25= 21.8
4 Fate attenzione hai decimali AGP 16
Statistica Descrittiva (Appunti)
Ora disegniamo la scatola:
Per capire come disegnare i due baffi dobbiamo fare i seguenti calcoli:
1.5 * (Q3 – Q1): (21.8 – 14.8) *1.5 = 10.5
Si prende il valore del “min” e lo si confronta con Q1 – 10.5= 4.1 e se ne prende il valore più
grande. Poiché il min= 10.3 ed è superiore a 4.1 il baffo inferiore viene collocato in corrispondenza
di 10.3(min)
Si prende il valore del “max” e lo si confronta con Q3 + 10.5= 33.1 e se ne prende il valore più
piccolo. Poiché il max= 33.8 ed è superiore a 33.1, il baffo superiore viene collocato in
corrispondenza di 33.1. Però essendo 33.8 un valore del campione bisogna comunque riportarlo
nel grafico sotto forma di puntino (outliers).
Un outliers è un valore del campione casuale che risulta troppo distante dal resto del campione
casuale. Si dicono outliers quei valori che distano dal 1° e 3° quartile più di 1.5 (Q3 – Q1) ( regola
del pollice)
Quartili e distribuzioni di frequenza:
Riprendiamo un esempio:
n° Case n° stanze Freq cum Calcoliamoci ora i quartili:
1 4 4 Q1: (n+1) *0.25= 32+0.25= 8
2 8 12 Q1= 2
3 9 21 Q2: (n+1)*0.50= 32*0.50=16
4 3 24 Q2=3 (mediana)
5 7 31 Q3= (n+1)*0.75= 32*0.75= 16
Q3= 4
Introduciamo ora un nuovo valore: Percentili AGP 17
Statistica Descrittiva (Appunti)
Quando un bambino va da un medico, egli farà uso di un grafico come questo:
Il percentile è quel valore che lascia a sinistra x% dei dati del campione. Dire che un bambino ha un
peso che si trova al 95-percentile significa dire che il 95% della popolazione maschile di quell’età
ha un peso inferiore.
Prendiamo come esempio questa distribuzione disaggregata di dati statistici:
10.2;11.3;11.3;11.9,12.0;12.4;13.6;14.7;15.2;15.9;16.0;16.1;17.1;17.1,18.5;18.6;19.4,20.1;20.2;21.
0
calcoliamoci il 95 percentile.
n=20, (n+1) *0.95= 19.95, Significa che il 95-percentile si trova tra la posizione 19 e 20
20.2 +( 21.0-20.2)*0.95= 20.96
Se vogliamo calcolarci il 90-percentile
n=20 (n+1)*0.90= 18.9, Significa che il 90-percentile si trova tra la posizione 18 e 19
20.1 + (20.2 – 20.1) * 0.90= 20.19
Se invece volessimo avere la soluzione inversa, ovvero conosciamo il percentile, ma vogliamo
sapere se è il 90 o 95 facciamo . .
P=
I Quartili per classi di modalità
Per semplicità utilizziamo la tabella delle frequenze relative cumulate. Per quanto riguarda Q1
dobbiamo considerare i valori che sono compresi fra < 0.25 >. Nel nostro esempio sono 0.16 e 0.43
ESTREMI CLASSI FREQ CUM fre rel cum
10 0 0 AGP 18
Statistica Descrittiva (Appunti)
14 6 0,16
18 6+10=16 0,16+0,27= 0,43
22 16+10=26 0,43+0,27=0,7
26 26+4=30 0,7+0,11=0,81
30 30+4=34 0,81+0,11=0,92
34 34+2=36 0,92+0,05= 0,97
Per calcolarci il valore basta sostituire a questa equazione, y=0.50 con y=0.25 e calcolarci il quartile
di conseguenza, − −
1 1
=
− −
{ 2 1 2 1
= 0.25
Lo stesso discorso va fatto per quanto riguarda Q3 il terzo quartile: i valori di riferimento devono
essere compresi tra <0.75>. Per calcolarci il quartile dobbiamo sostituire y=0.50 con y=0.75:
− −
1 1
=
− −
{ 2 1 2 1
= 0.75
Indici di dispersione
Si dicono indici di dispersione ( o di variabilità) quei parametri che misurano la variabilità del
campione in esame:
1) campo di variazione (CV)= max – min
2) Intervallo interquartile (IQR)= Q3 - Q1
√
3) Deviazione Standard (campionaria) =
La varianza campionaria non è altro che la media aritmetica dei quadrati delle distanze dei singoli
elementi del campione dalla media e si calcola:
1 1
2 2 2 2 2
[( ( ( ]
= − ) + − ) + ⋯ + − ) = ∑( − )
1 2
−1 −1 =1
Es: 10.1;11.2;12.4;14.6;15.2;16.0;17.5;18.2;19.3;20.6
µ= (10.1+11.2+12.4+14.6+15.2+16.0+17.5+18.2+19.3+20.6)/10= 15.51
1
2 2 2 2
(10.1 (11.2 (20.6
= − 15.51) + − 15.51) + ⋯ + − 15.51) = 12.33
10 − 1
Questo valore è un quadrato della distanza, per sapere la concentrazione dei dati (deviazione
Standard) si fa il quadrato della varianza: AGP 19
Statistica Descrittiva (Appunti)
2
= √ = √12.33=3.51
La deviazione standard non è una statistica robusta:
1,2,3,4,5 CV= 4 IQR=3 s=1.58
1,2,3,4,15 CV=14 IQR=8 s=5.07
1,2,3,4,100 CV=99 IQR=50.5 s=43.62
Per variabili quantitative: ordinate in scale sia intervallari che proporzionali
Per il suo calcolo vengono utilizzati tutti i dati e questo insieme di dati ha un’unica deviazione
standard.
infine assume valore zero quando tutti i dati assumono uno stesso valore (variabile statistica
degenere) Es: 3;3;3 µ=3 s=0
E’ invariante per traslazione e questo vuol dire che se per ogni dato viene aggiunta una quantità
costante allora la deviazione standard non cambia.
Regola Empirica:
Quando la distribuzione dei dati non è caratterizzata da una forte asimmetria le osservazioni sono
concentrate in prossimità della media e della mediana, vale la seguente regola empirica:
approssimativamente il 68% dei valori presenta uno scostamento della media pari 1 volta la
deviazione standard;
approssimativamente il 95% dei valori presenta uno scostamento della media pari a 2 volte la
deviazione standard;
approssimativamente il 99.7% dei valori presenta uno scostamento della media pari a 3 volte la
deviazione standard;
Quando invece siamo in presenza di una generica distribuzione interviene la regola di Chebyshev:
“Detto k un numero intero maggiore o uguale a 2, la percentuale di valori che non si discosta dalla
media (a dx o sx) più di k volte la deviazione standard è almeno pari a
1
(1 − ) ∗ 100
2
Consideriamo questa serie di dati:
Es: 10,3; 12,9; 12,9; 13,5; 13,7; 14,0; 14,2; 15,0; 15,4; 15,7;16,6; 17,1; 17,4; 17,8; 18,3; 18,3; 18,6;
18,9; 19,7; 20,3; 20,7; 20,8; 21,4; 23,0; 23,2; 23,7; 26,1; 27,1; 29,8; 33,8. 6
Secondo la regola empirica avremo che il 68% dei dati appartiene a:
22 = 73%
(µ - s; µ + s)=(13.65;24.37). Nel nostro caso il 30
Secondo la regola empirica avremo che il 95% dei dati appartiene a:
28 = 93%
(µ - 2s; µ +2s)=(8.29; 29.72). Nel nostro caso il 30
Secondo la regola di Chebyshev non meno del 75% appartiene a:
1
(1 − ) ∗ 100=
(µ - 2s; µ +2s)=(8.29; 29.72). Infatti k=2 75%
2
AGP 20
Statistica Descrittiva (Appunti)
Per misurare il grado di dispersione all’interno di uno stesso campione si può confrontare la
deviazione standard con