Anteprima
Vedrai una selezione di 9 pagine su 40
Appunti di Statistica Descrittiva Pag. 1 Appunti di Statistica Descrittiva Pag. 2
Anteprima di 9 pagg. su 40.
Scarica il documento per vederlo tutto.
Appunti di Statistica Descrittiva Pag. 6
Anteprima di 9 pagg. su 40.
Scarica il documento per vederlo tutto.
Appunti di Statistica Descrittiva Pag. 11
Anteprima di 9 pagg. su 40.
Scarica il documento per vederlo tutto.
Appunti di Statistica Descrittiva Pag. 16
Anteprima di 9 pagg. su 40.
Scarica il documento per vederlo tutto.
Appunti di Statistica Descrittiva Pag. 21
Anteprima di 9 pagg. su 40.
Scarica il documento per vederlo tutto.
Appunti di Statistica Descrittiva Pag. 26
Anteprima di 9 pagg. su 40.
Scarica il documento per vederlo tutto.
Appunti di Statistica Descrittiva Pag. 31
Anteprima di 9 pagg. su 40.
Scarica il documento per vederlo tutto.
Appunti di Statistica Descrittiva Pag. 36
1 su 40
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

ESTREMI CLASSI FREQ CUM

10 0 AGP 14

Statistica Descrittiva (Appunti)

14 6

18 6+10=16

22 16+10=26

26 26+4=30

30 30+4=34

34 34+2=36

Ci calcoliamo adesso la mediana sapendo che si deve trovare nella posizione in cui deve risultare

36

< >

essere . Quindi risulta essere 16< 18 e 26>18, la mediana si trova nella classe [18;22)

2

Il secondo passaggio è quello di calcolarsi le frequenze relative cumulate e la mediana si troverà

nella posizione < 0.50 >

ESTREMI CLASSI fre rel cum ( come al solito la frequenza cumulata nell’ultimo valore

10 0 dovrebbe essere 1, ma dipende dall’approssimazione che si

14 0,16 usa)

18 0,16+0,27= 0,43

22 0,43+0,27=0,7 0.43<0.50 e 0.70>0.50

26 0,7+0,11=0,81 perciò la mediana si trova tra la classe [18;22)

30 0,81+0,11=0,92

34 0,92+0,05= 0,97

il terzo e ultimo passaggio è risolvere il sistema che risulta essere così composto:

− −

1 1

=

− −

{ 2 1 2 1

= 0.50

Dove con y1= 0.43, y2=0.70, x1=18 e x2=22. Facendo i calcoli e risolvendo poi il sistema per la

variabile x, avremo che la mediana sarà: x=16.97

Quartili

Accanto alla mediana si possono introdurre altri valori medi, associati, come la mediana, a

particolari posizioni nella graduatoria dei termini della distribuzione. I quartili dividono i termini

della distribuzione in quattro parti della stessa modalità.

Il primo quartile è quel valore che lascia a sinistra il 25% dei dati:

Es: 15,16,18,20,22 Il primo passaggio è ordinare i dati, poi si passa alla determinazione del rango

Rango: (n+1) * 0.25= (5+1) * 0.25= 1.5

Significa che il primo quartile si trova tra l’elemento 1 e l’elemento 2.

(16

= 15 + − 15) ∗ 0.50 = 15.5

1 AGP 15

Statistica Descrittiva (Appunti)

Es: 21,22,24,25

Rango: (n+1) * 0.25= (4+1) * 0.25= 1.25

(22

= 21 + − 21) ∗ 0.25 = 21.25

1

Il terzo quartile è quel valore che lascia a sinistra il 75% dei dati:

Es: 15,16,18,20,22

Rango: (n+1) * 0.75= 4.5

Significa che il terzo quartile si trova tra l’elemento 4 e l’elemento 5.

= 20 + (22-20) * 0.75= 22.5

3

Es: 21,22,24,25

Rango (n+1) * 0.75= (4+1)* 0.75=3.75

(25

= 24 + − 24) ∗ 0.75 = 24.75

3

Il secondo quartile non sarebbe altro che la Mediana.

Ora che abbiamo tutti i dati a disposizione possiamo costruire il BOX-PLOT.

Il Box-Plot (diagramma a scatola e baffi) è un diagramma che fornisce una rappresentazione

grafica della distribuzione dei dati, evidenziando dove cade la maggioranza dei valori ed inoltre

indica quei valori che differiscono di molto dalla norma, i cosiddetti valori anomali.

Gli elementi per costruire un Box-Plot sono:

, , … ,

= min ( )

0 1 2

= 1° quartile

1

= mediana o 2° quartile

2

= 3° quartile

3

= , , … ,

max ( )

4 1 2

infine introduciamo un valore che prende il nome di IQR (campo di variazione interquartile) che

non è altro che la differenza tra Q3 e Q1.

Abbiamo questa distribuzione disaggregata di dati statistici (già ordinata):

10,3; 12,9; 12,9; 13,5; 13,7; 14,0; 14,2; 15,0; 15,4; 15,7; 16,6; 17,1; 17,4;17,8; 18,3; 18,3; 18,6;

18,9; 19,7; 20,3; 20,7; 20,8; 21,4; 23,0; 23,2;23,7; 26,1; 27,1; 29,8; 33,8

Q1: Rango: (n+1) * 0.25= (30+1) * 0.25 =7.75

Quindi l’elemento si trova tra la posizione 7 e 8

4

Q1: 14.2 +(15-14.2) * 0.75 = 14.8

Q2: Rango: (n+1) * 0.50= 15.5

Q2: tra la posizione 15 e 16: 18.3

Q3: Rango: (n+1) * 0.75= 23.25

Q3: 21.4 + (23-21.4) * 0.25= 21.8

4 Fate attenzione hai decimali AGP 16

Statistica Descrittiva (Appunti)

Ora disegniamo la scatola:

Per capire come disegnare i due baffi dobbiamo fare i seguenti calcoli:

1.5 * (Q3 – Q1): (21.8 – 14.8) *1.5 = 10.5

Si prende il valore del “min” e lo si confronta con Q1 – 10.5= 4.1 e se ne prende il valore più

grande. Poiché il min= 10.3 ed è superiore a 4.1 il baffo inferiore viene collocato in corrispondenza

di 10.3(min)

Si prende il valore del “max” e lo si confronta con Q3 + 10.5= 33.1 e se ne prende il valore più

piccolo. Poiché il max= 33.8 ed è superiore a 33.1, il baffo superiore viene collocato in

corrispondenza di 33.1. Però essendo 33.8 un valore del campione bisogna comunque riportarlo

nel grafico sotto forma di puntino (outliers).

Un outliers è un valore del campione casuale che risulta troppo distante dal resto del campione

casuale. Si dicono outliers quei valori che distano dal 1° e 3° quartile più di 1.5 (Q3 – Q1) ( regola

del pollice)

Quartili e distribuzioni di frequenza:

Riprendiamo un esempio:

n° Case n° stanze Freq cum Calcoliamoci ora i quartili:

1 4 4 Q1: (n+1) *0.25= 32+0.25= 8

2 8 12 Q1= 2

3 9 21 Q2: (n+1)*0.50= 32*0.50=16

4 3 24 Q2=3 (mediana)

5 7 31 Q3= (n+1)*0.75= 32*0.75= 16

Q3= 4

Introduciamo ora un nuovo valore: Percentili AGP 17

Statistica Descrittiva (Appunti)

Quando un bambino va da un medico, egli farà uso di un grafico come questo:

Il percentile è quel valore che lascia a sinistra x% dei dati del campione. Dire che un bambino ha un

peso che si trova al 95-percentile significa dire che il 95% della popolazione maschile di quell’età

ha un peso inferiore.

Prendiamo come esempio questa distribuzione disaggregata di dati statistici:

10.2;11.3;11.3;11.9,12.0;12.4;13.6;14.7;15.2;15.9;16.0;16.1;17.1;17.1,18.5;18.6;19.4,20.1;20.2;21.

0

calcoliamoci il 95 percentile.

n=20, (n+1) *0.95= 19.95, Significa che il 95-percentile si trova tra la posizione 19 e 20

20.2 +( 21.0-20.2)*0.95= 20.96

Se vogliamo calcolarci il 90-percentile

n=20 (n+1)*0.90= 18.9, Significa che il 90-percentile si trova tra la posizione 18 e 19

20.1 + (20.2 – 20.1) * 0.90= 20.19

Se invece volessimo avere la soluzione inversa, ovvero conosciamo il percentile, ma vogliamo

sapere se è il 90 o 95 facciamo . .

P=

I Quartili per classi di modalità

Per semplicità utilizziamo la tabella delle frequenze relative cumulate. Per quanto riguarda Q1

dobbiamo considerare i valori che sono compresi fra < 0.25 >. Nel nostro esempio sono 0.16 e 0.43

ESTREMI CLASSI FREQ CUM fre rel cum

10 0 0 AGP 18

Statistica Descrittiva (Appunti)

14 6 0,16

18 6+10=16 0,16+0,27= 0,43

22 16+10=26 0,43+0,27=0,7

26 26+4=30 0,7+0,11=0,81

30 30+4=34 0,81+0,11=0,92

34 34+2=36 0,92+0,05= 0,97

Per calcolarci il valore basta sostituire a questa equazione, y=0.50 con y=0.25 e calcolarci il quartile

di conseguenza, − −

1 1

=

− −

{ 2 1 2 1

= 0.25

Lo stesso discorso va fatto per quanto riguarda Q3 il terzo quartile: i valori di riferimento devono

essere compresi tra <0.75>. Per calcolarci il quartile dobbiamo sostituire y=0.50 con y=0.75:

− −

1 1

=

− −

{ 2 1 2 1

= 0.75

Indici di dispersione

Si dicono indici di dispersione ( o di variabilità) quei parametri che misurano la variabilità del

campione in esame:

1) campo di variazione (CV)= max – min

2) Intervallo interquartile (IQR)= Q3 - Q1

3) Deviazione Standard (campionaria) =

La varianza campionaria non è altro che la media aritmetica dei quadrati delle distanze dei singoli

elementi del campione dalla media e si calcola:

1 1

2 2 2 2 2

[( ( ( ]

= − ) + − ) + ⋯ + − ) = ∑( − )

1 2

−1 −1 =1

Es: 10.1;11.2;12.4;14.6;15.2;16.0;17.5;18.2;19.3;20.6

µ= (10.1+11.2+12.4+14.6+15.2+16.0+17.5+18.2+19.3+20.6)/10= 15.51

1

2 2 2 2

(10.1 (11.2 (20.6

= − 15.51) + − 15.51) + ⋯ + − 15.51) = 12.33

10 − 1

Questo valore è un quadrato della distanza, per sapere la concentrazione dei dati (deviazione

Standard) si fa il quadrato della varianza: AGP 19

Statistica Descrittiva (Appunti)

2

= √ = √12.33=3.51

La deviazione standard non è una statistica robusta:

1,2,3,4,5 CV= 4 IQR=3 s=1.58

1,2,3,4,15 CV=14 IQR=8 s=5.07

1,2,3,4,100 CV=99 IQR=50.5 s=43.62

Per variabili quantitative: ordinate in scale sia intervallari che proporzionali

Per il suo calcolo vengono utilizzati tutti i dati e questo insieme di dati ha un’unica deviazione

standard.

infine assume valore zero quando tutti i dati assumono uno stesso valore (variabile statistica

degenere) Es: 3;3;3 µ=3 s=0

E’ invariante per traslazione e questo vuol dire che se per ogni dato viene aggiunta una quantità

costante allora la deviazione standard non cambia.

Regola Empirica:

Quando la distribuzione dei dati non è caratterizzata da una forte asimmetria le osservazioni sono

concentrate in prossimità della media e della mediana, vale la seguente regola empirica:

approssimativamente il 68% dei valori presenta uno scostamento della media pari 1 volta la

deviazione standard;

approssimativamente il 95% dei valori presenta uno scostamento della media pari a 2 volte la

deviazione standard;

approssimativamente il 99.7% dei valori presenta uno scostamento della media pari a 3 volte la

deviazione standard;

Quando invece siamo in presenza di una generica distribuzione interviene la regola di Chebyshev:

“Detto k un numero intero maggiore o uguale a 2, la percentuale di valori che non si discosta dalla

media (a dx o sx) più di k volte la deviazione standard è almeno pari a

1

(1 − ) ∗ 100

2

Consideriamo questa serie di dati:

Es: 10,3; 12,9; 12,9; 13,5; 13,7; 14,0; 14,2; 15,0; 15,4; 15,7;16,6; 17,1; 17,4; 17,8; 18,3; 18,3; 18,6;

18,9; 19,7; 20,3; 20,7; 20,8; 21,4; 23,0; 23,2; 23,7; 26,1; 27,1; 29,8; 33,8. 6

Secondo la regola empirica avremo che il 68% dei dati appartiene a:

22 = 73%

(µ - s; µ + s)=(13.65;24.37). Nel nostro caso il 30

Secondo la regola empirica avremo che il 95% dei dati appartiene a:

28 = 93%

(µ - 2s; µ +2s)=(8.29; 29.72). Nel nostro caso il 30

Secondo la regola di Chebyshev non meno del 75% appartiene a:

1

(1 − ) ∗ 100=

(µ - 2s; µ +2s)=(8.29; 29.72). Infatti k=2 75%

2

AGP 20

Statistica Descrittiva (Appunti)

Per misurare il grado di dispersione all’interno di uno stesso campione si può confrontare la

deviazione standard con

Dettagli
Publisher
A.A. 2017-2018
40 pagine
SSD Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher AntoMusic di informazioni apprese con la frequenza delle lezioni di Economia e statistica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli studi della Basilicata o del prof Cicchitelli Giuseppe.