Estratto del documento

S tatistica Descrittiva

C apitolo 1 - I

ntroduzione

1.1 - Obiettivi della statistica

L'oggetto di studio della statistica sono i fenomeni reali il cui studio richiede l'osservazione di una pluralità di ma-

nifestazioni individuali.

Ad esempio un collettivo di persone, imprese appartenenti ad una stessa categoria, un insieme di aree geografiche

interessate da un medesimo fenomeno...

Gli obiettivi sono:

1) fornire la metodologia per descrivere, analizzare e prevedere il fenomeno oggetto di studio;

2) riassumere efficacemente le informazioni contenute nei dati relativi al fenomeno;

3) estrarre dai dati informazioni più generali riferite a collettivi più ampi.

L'analisi statistica si articola nelle seguenti fasi:

1) Descrizione del fenomeno mediante una sintesi dei dati, articolata in:

• distribuzioni di frequenze (prospetto della configurazione dei dati);

• indici di posizione (misurano i livelli);

• indici di dispersione (misurano la variabilità dei dati).

Della descrizione del fenomeno se ne occupa la statistica descrittiva.

2) Individuazione delle relazioni tra più fenomeni: ad esempio la relazione tra voto/punteggio dei test d'in-

gresso e la media dei voti degli esami

Di tale fase se ne occupa la statistica multivariata (parte della statistica che studia più di un fenomeno)

3) Valutazione del grado di incertezza di un fenomeno mediante la costruzione di un modello probabilistico

che formalizzi matematicamente le condizioni di incertezza.

Se ne occupa il calcolo delle probabilità.

4) Generalizzazione delle informazioni acquisite: studio delle caratteristiche di un collettivo più ampio ri-

spetto a quello descritto.

Comporta un grado di incertezza che non è presente nella descrizione dei dati.

Se ne occupa la statistica inferenziale.

5) Previsione: valutazione del possibile andamento futuro del fenomeno sempre basata su un modello proba-

bilistico e se ne occupa sempre la statistica inferenziale.

Capitolo 2 - Distribuzioni di frequenza

2 .1 - Definizioni

Individuato il fenomeno oggetto di studio, l'informazione disponibile è costituita dai seguenti oggetti:

• le unità statistiche: le singole entità su ciascuna delle quali il fenomeno è osservabile (es. intervistati);

• il carattere statistico: la quantità/qualità mediante la quale viene osservato il fenomeno.

Def.: si dice popolazione statistica l'insieme delle unità statistiche sulle quali è possibile osservare il fenomeno.

Es. intervistati unità statistiche

intervistabili popolazione statistica

Indicheremo con:

= 1, … ,

− la popolazione statistica

− l'unità statistica i-esima per

e diremo che la popolazione ha individui, anche se non rappresentano persone.

Individuata la popolazione bisogna determinare i caratteri che descrivono il fenomeno al meglio.

Def.: si dice carattere la grandezza che, misurata su ciascuna unità statistica, è rilevante per la comprensione del

fenomeno. Affinchè una carattere sia statisticamente rilevante è necessario che sia suscettibile di variabilità.

Def.: si dicono:

− modalità di un carattere tutte le possibili determinazioni con cui può manifestarsi;

− modalità osservate l'insieme delle determinazioni con cui il carattere si manifesta nelle unità statistiche

osservate

Ad esempio:

− fenomeno: capacità alberghiera a Torino

− popolazione: alberghi di Torino

ℕ = 1,2, …

− caratteri che rileviamo: +∞

0,

n° posti letti: modalità , …

: modalità

dimensione ristornate in

quartiere in cui si trova l'albergo: modalità

Def.: un carattere si definisce qualitativo se le sue modalità sono espresse in termini di attributo mentre si defini-

sce quantitativo se le sue modalità sono espresse in termini numerici o valori e in questo caso distinguiamo:

• discreto se le modalità sono individuate da un elenco;

• continuo se le modalità sono individuate da un intervallo

Distinguiamo anche la scala di misurazione che la rilevazione di un carattere comporta, e abbiamo:

− scala nominale: se non è previsto un ordinamento (es.: quartieri di Torino);

− scala ordinale: se è previsto un ordinamento ma non la distanza tra le modalità (es.: titolo di studio);

− scala per intervalli: se si misura la distanza tra modalità ma non esiste una mozione di zero assoluto (es.:

gradi C°);

− scala per rapporti: se esiste anche lo zero assoluto (es.: gradi Kelvin).

Introduciamo, quindi i concetti di variabili statistiche e mutabili statistiche.

2 .2 - Mutabili e variabili statistiche

Ω,

Data una popolazione definito il carattere e l'insieme delle modalità M che questo può assumere, rileviamo il ca-

rattere su ciascuna unità statistica e otteniamo i dati che possono derivare dalle seguenti due procedure diverse:

1) un censimento: descrizione dell'intera popolazione. Le metodologie forniscono esattamente le informa-

zioni richieste ed è un procedimento lungo e costoso.

2) un'indagine campionaria: consiste in una descrizione di un sottoinsieme della popolazione, chiamato

campione.

Per fare affermazioni sull'intera popolazione servono metodologie inferenziali o induttive, ovvero che

formulano conclusioni generali partendo da informazioni particolari; si ottengono approssimazioni del vero

valore del carattere ed eventualmente una quantificazione dell'errore commesso. M

Ω elementi di (moda-

lità.

La rilevazione dei dati determina una funzione che associa ad elementi della popolazione

M

,

,

-: / → 1 Ω

Def.: la funzione che associa a ciascun elemento di una e una solo modalità in M si dice mutabile sta-

tistica (m.s.) se gli elementi di M sono attributi mentre si dice variabile statistica (v.s.) se gli elementi di M sono

numerici.

Inoltre, analogamente al carattere, le v.s. si distinguono in:

• discrete se M è un insieme discreto;

• continue se M è un intervallo.

2 .3 - Distribuzioni di frequenze

Ω -

-

Def.: data una popolazione di n unità, si consideri una m.s. o una v.s.

Definiamo dati individuali (o grezzi o disaggregati) di l'insieme costituito dalle determinazioni delle unità

2 , … , 2 = 2

statistiche, che indicheremo con , 3 4,,…,3

− 6 .

2

è la modalità che il carattere assume per l'individuo

dove / = , , = 18, 9:8, ;8<8

Esempio: , 7

→ 1 → ℕ

− carattere: età

-( = -( 18 = 21

Ad esempio:

, = ≤ ?;

Alcune modalità possono presentarsi più di una volta e, dunque, il numero di modalità distinte osservate sarà un

-

certo numero possiamo operare una prima sintesi dei dati.

2 , … , 2

Def.: data una m.s. o una v.s. la cui rilevazione ha dato luogo ai dati individuali che indichiamo con

, 3 @ ≤ ,

2 , … , 2

,∗ 3∗

individuato il numero di modalità distinte osservate che indichiamo con denotiamo tali modalità con

= 1, … , @ 2

2

• per ogni si definisce frequenza assoluta della modalità il numero di volte in cui la stessa

modalità è stata osservata sulle n unità statistiche, che indichiamo con

(2 , … , (2

, ,

B∗

,∗

• si dice distribuzione di frequenza assolute di X l'insieme di coppie

, B

2 … 2

B∗

-=C

Rappresenteremo la distribuzione di frequenze in questo modo

,

, B

-: DE8:8 FG66

Esempio:

/: 10 :F: : E′8I:8

− (L, (M, (N

1: (J, FK8 GEI8 :K

− L, M, L, N, L, M, M, N, L, L,

− @ = 3 ≤ = 10: L, M, N

− Dati individuali:

− Modalità distinte:

L 5

Determiniamo la distribuzione di X:

- = ⇒ 5 + 3 + 2 = 10 = Ω

P M 3

N 2 dimensione di

Le modalità non riportate hanno implicitamente frequenza nulla. B

Per costruzione della distribuzione la somma delle frequenze assolute è pari ad n:

+ + ⋯ + = T =

, B

4,

Ogni sintesi determina una perdita di informazioni.

L'aggregazione dei dati in modalità e numerosità associate elimina l'informazione sulla corrispondenza tra singole

unità statistiche e modalità.

Dal punto di vista statistico, la perdita è irrilevante, ma è molto utile dal punto di vista pratico, se abbiamo due po-

polazioni di numerosità differente, il confronto delle frequenze assolute (riferite al medesimo carattere) non da un

informazione significativa.

soluzione: introduciamo le frequenze relative.

2 … 2

B∗

-=C

Def.: data una v.s. X con distribuzione di frequenza

,

, B 2

G = , F = 1, … , @

si definisce frequenza relativa della modalità la quantità

2 … 2

B∗

-=C

e la distribuzione

,

G … G

, B

è detta distribuzione di frequenze relative o anche distribuzione di frequenza.

B B

1

Per costruzione la somma delle frequenze relative è pari ad 1:

G + G + ⋯ + G = T G = +⋯+ = T = 1

, B

, B

4, 4,

/ = 10 :F: : E 8I:8

U

Esempio:

,

/ = 20 :F: : E 8<8 8I:8

U

- = 8I8à : DE8:8 , = 1, 2

6 2 3 4 8

2 4 5 5

- = - =

V V

2 10 2 1 5

3 4 1 2

,

Le distribuzioni non sono confrontabili per via della diversa dimensione delle popolazioni.

6 2 3 4 8

2 4 5 5

Calcoliamo le frequenza relative:

- = - =

V V

0.2 0.5 0.1 0.05 0.25

0.3 0.4 0.1 0.1

,

Ora le distribuzioni sono confrontabili.

2.4

4 - Distribuzioni per variabili continue

2.

L'aggregazione dei dati in una distribuzione è basata sulla ripetizione di alcune modalità.

Con le variabili statistiche continue, l'insieme dei dati individuali spesso contiene elementi tutti distinti; quindi, il

numero di modalità coincide con il numero dei dati individuali.

,

3

2 … 2

B∗

,∗

Ciascuna modalità avrà come frequenza relativa

2 … 2

B∗

1 1

-= = @=

C Z

,

G … G …

, B

L'aggregazione in modalità e frequenze non produce alcune sintesi, quindi dobbiamo:

• raccogliere i dati in opportune classi;

• derivare la distribuzione di frequenze riferita alle classi.

- = @K : F8 [:E :8 = 6 F8G

Esempio:

2 = 51.3, 87.2, 42.9, 62.7, 74.8, 69.2 @=

4,,…,3 60^

(40,

Allora definiamo tre classi:

80^

(60,

1. 100^

(80,

2.

3.

e associamo a ciascuna classe il numero di unità statistiche per cui la variabile X assume modalità all'intero della

60^ 80^ 100^

(40, (60, (80,

classe.

-= V 2 3 1

2.4.1 - Scelta e costruzione delle classi

Requisiti minimi:

• le classi devono essere disgiunte (no sovrapposizioni);

• non ci devono essere ambiguità nell'attribuzione delle osservazioni tra le classi (ad. esempio intervalli tutti

chiusi a destra e aperti a sinistra o viceversa);

• le classi devono essere esaustive, ovvero tutti i dati devono trovare collocamento in una classe.

Altri aspetti:

• l'ampiezza delle classi deve essere costante quando possibile e ragionevole;

• il numero delle classi deve essere determinato da un compromesso tra sintesi (poche classi) e dettagli (mol-

te classi); =8+_

(8,

; = _^

la scelta del valore rappresentativo di una classe solitamente è il valore centrale, ovvero se

2

ma il valore centrale deve essere rappresentativo.

150^

(100,

; = = 125

Ad esempio se

ma se ho 10 unità statistiche nella classe C tutte inferiori a 120 il valore centrale c non rappresenta bene il

valori che cadono in C.

- = F G8E 66 :8 E8 6à

Esempio di perdita di informazioni:

= 20 @ = 5

91.5 93.5 97.45 100 104.5

importi distinti

-= V 4 2 5 6 3

a

Ammontare totale delle fatture emesse:

= 91.5 ∙ 4 + 93.5 ∙ 2 + 97.45 ∙ 5 + 100 ∙ 6 + 104.5 ∙ 3 = 1953.75

T 2

4, (90, 95^ (95, 100^ (100, 105^

-= V

Raccogliamo in classi:

6 11 3

; = 92.5 ; = 97.5 ; = 102.5

, 7

7

T ; = 92.5 ∙ 6 + 97.5 ∙ 11 + 102.5 ∙ 3 = 1935 ≠ 1953.75

4,

Il raggruppamento in classi determina una perdita di informazioni; ritroveremo questi aspetti di studio negli indici

di sintesi.

2.5 - Rappresentazioni grafiche per mutabili statistiche

Vengono scelte in base al tipo di dati e in base all'enfasi che si vuole dare alla rappresentazione.

2.5.1 - Diagramma a torta

Se l'enfasi è sulle proporzioni reciproche delle modalità usiamo un diagramma a torta.

Def.: un diagramma a torta è un grafico format da un cerchio suddiviso in k spicchi le cui aree sono proporzionali

c

alle frequenze associate alle k modalità distinte.

8K< = 360° ∙ GDEI8 <8[8

Dobbiamo determinare l'angolo di di ciascuna fetta in base alla distribuzione di X:

= 360° ∙ G

c

- = < : 8F<<

Esempio:

/ = 100 :[:E

_: 868 8<

-=V biondo

25 50 20 5 castano

_: 868 8<

-=V nero

0.25 0.5 0.2 0.05

05 altro

c = 360° ∙ G = 360° ∙ 0.25 = 90°

, ,

c = 360° ∙ G = 360° ∙ 0.5 = 180°

c = 360° ∙ G = 360° ∙ 0.2 = 72°

7 7

c = 360° ∙ G = 360° ∙ 0.05 = 8°

e e

2.5.2 - Diagramma a barre

Se invece vogliamo enfatizzare i livelli delle misurazioni usiamo un diagramma a barre.

barre

Def.: si definisce diagramma a barre il grafico composto da k barre o segmenti posti sull'asse orizzontale con al-

al

tezza pari alle frequenze delle modalità osservate.

Nell'esempio di prima: L'ordine delle modalità sull'asse orizzontale è quello naturale quando c'è una

scala ordinale (es. titolo di studio) altrimenti

al

trimenti l'ordine è arbitrario.

Sia la distanza tra le barre sia la loro ampiezza, non avendo interpretazione

numerica, sono arbitrarie ma costanti.

- = 6 : EF8I

Esempio:

/ = 2160 E

,

/ = 534 :

G G

Settore Donne Uomini Donne Uomini

Agricoltura 34 120 0.064 0.06

Industria 180 1420 0.34 0.66

Servizi 320 620 0.6 0.29

0,7 1600

0,6 1400

0,5 1200

1000

0,4 Uomini Donne

800

0,3 Donne 600 Uomini

0,2 400

0,1 200

0 0

Agricoltura Industria Servizi Agricoltura Industria Servizi

I grafici a barre/segmenti sono adatti a rappresentare anche le v.s., con le seguenti differenze:

• le modalità vengono poste nella loro posizione naturale sull'asse orizzontale;

• ordine e distanza tra modalità vengono rispettate.

- = E : GK<

Esempio:

/ = 100 G8 K< 3 6

0 1 2

-=V 10 35 30 15 10

40

35

30

25

20

15

10

5

0 0 1 2 3 4 5 6

2.6 - Rappresentazioni grafiche per v.s. continue o raccolte in classi

Sono usati prevalentemente per le v.s. continue ma anche per le discrete raccolte in classi se si rende necessario.

Serve un grafico che metta in relazione:

− l'ampiezza delle classi;

− le frequenza.

in modo da rendere visivamente evidenti i "pesi" relativi alle varie classi.

2.6.1 - Istogramma

Def.: si definisce istogramma un grafico composto da k rettangoli adiacenti tali che:

− la base di ciascun rettangolo è costituita dall'ampiezza della classe associata;

− l'area di ciascun rettangolo coincide con la frequenza relativa della classe associata.

(2 , 2 ^ (2 , 2 ^ … (2 , 2 ^

-=C

Considero una v.s. definita su k classi:

f , , Bg, B

G G … G

, B

9 = 2 − 2 , = 1, … , @

L'ampiezza (ovvero la base) di ciascuna classe è data da:

g,

88 = _86 ∙ 8<II8

L'area del rettangolo è data da G

G = 9 ∙ 8<II8 → 8<II8 =

9

j

h = i

k

i i

è detta densità di frequenza della classe i-esima

G 9 ℎ

Frequenza Ampiezza Altezza

G

Classi

(2 , 2 ^ G 9 ℎ = ,

9

f , , , , ,

G

(2 , 2 ^ G ℎ =

9

9

,

⋮ ⋮ ⋮ ⋮ G

(2 , 2 ^ G ℎ =

9 B

9

Bg, B B B

B B

Esempio: G 9 ℎ

Classe

(10, 20] 0.4 10 0.04

(20, 25] 0.25 15 0.05

(25, 50] 0.35 25 0.014

La classe con densità maggiore non è necessariamente quella con

frequenza associata più grande.

G 9 ℎ

Esempio:

Classe

(160, 170] 0.1 10 0.01

(170, 180] 0.49 10 0.049

(180, 190] 0.36 10 0.036

(190, 200] 0.05 10 0.005

G

Caso particolare di istogramma con barre di ampiezza costante (non

è un diagramma a barre) e l'area di ciascun rettangolo è pari a .

2.7 - La simmetria

immetria e la moda

s

Introduciamo il primo indice di posizione:

Def.: si definisce moda di una distribuzione di frequenza: ℎ

− la modalità che si presenta con maggior frequenza, nel caso di m.s. o di v.s. discrete;

− la classe che presenta la maggior densità di frequenza nel caso di v.s. continue o raccolte in classi (in

questo caso si parla di classe modale).

1 1 3 4 5

E

Anteprima
Vedrai una selezione di 16 pagine su 74
Statistica - Appunti lezioni Pag. 1 Statistica - Appunti lezioni Pag. 2
Anteprima di 16 pagg. su 74.
Scarica il documento per vederlo tutto.
Statistica - Appunti lezioni Pag. 6
Anteprima di 16 pagg. su 74.
Scarica il documento per vederlo tutto.
Statistica - Appunti lezioni Pag. 11
Anteprima di 16 pagg. su 74.
Scarica il documento per vederlo tutto.
Statistica - Appunti lezioni Pag. 16
Anteprima di 16 pagg. su 74.
Scarica il documento per vederlo tutto.
Statistica - Appunti lezioni Pag. 21
Anteprima di 16 pagg. su 74.
Scarica il documento per vederlo tutto.
Statistica - Appunti lezioni Pag. 26
Anteprima di 16 pagg. su 74.
Scarica il documento per vederlo tutto.
Statistica - Appunti lezioni Pag. 31
Anteprima di 16 pagg. su 74.
Scarica il documento per vederlo tutto.
Statistica - Appunti lezioni Pag. 36
Anteprima di 16 pagg. su 74.
Scarica il documento per vederlo tutto.
Statistica - Appunti lezioni Pag. 41
Anteprima di 16 pagg. su 74.
Scarica il documento per vederlo tutto.
Statistica - Appunti lezioni Pag. 46
Anteprima di 16 pagg. su 74.
Scarica il documento per vederlo tutto.
Statistica - Appunti lezioni Pag. 51
Anteprima di 16 pagg. su 74.
Scarica il documento per vederlo tutto.
Statistica - Appunti lezioni Pag. 56
Anteprima di 16 pagg. su 74.
Scarica il documento per vederlo tutto.
Statistica - Appunti lezioni Pag. 61
Anteprima di 16 pagg. su 74.
Scarica il documento per vederlo tutto.
Statistica - Appunti lezioni Pag. 66
Anteprima di 16 pagg. su 74.
Scarica il documento per vederlo tutto.
Statistica - Appunti lezioni Pag. 71
1 su 74
D/illustrazione/soddisfatti o rimborsati
Acquista con carta o PayPal
Scarica i documenti tutte le volte che vuoi
Dettagli
SSD
Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher kika1994 di informazioni apprese con la frequenza delle lezioni di Statistica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli studi di Torino o del prof Ruggiero Matteo.
Appunti correlati Invia appunti e guadagna

Domande e risposte

Hai bisogno di aiuto?
Chiedi alla community