Statistica

Il file contiene appunti di statistica presi a lezione. Vi sono anche rappresentazioni grafiche e formule. Inoltre, alla fine del documento vi sono alcuni esercizi corretti che aiutano alla …

Esame Statistica

Facoltà Economia

Dal corso del Prof. Corrado Lagazio

Università Università degli studi di Genova

Publisher Giulia.nic

A.A. 2020-2021

50 pagine

Appunto

Vota

Scarica

Estratto del documento

VARIABILITA’

Poiché la statistica si occupa di analizzare quei fenomeni quei fenomeni che tendono a manifestarsi con diverse modalità, è

necessario porsi il problema della misura della variabilità di un fenomeno o di una distribuzione che esprime la tendenza

delle unità di un collettivo ad assumere diverse modalità del carattere. Per misurare la variabilità di una distribuzione è

possibile utilizzare degli indici che sintetizzano la diversità tra ogni modalità e una media. Questi indici sono chiamati indici

di variabilità, e devono soddisfare almeno due requisiti:

1) un indice di variabilità deve assumere il suo valore minimo se e solo e tutte le unità della distribuzione presentano

uguale modalità del carattere;

2) un indice di variabilità deve aumentare all’aumentare della diversità tra le modalità assunte dalle varie unità.

Indici di variabilità: , , … ,

Campo di variazione (o range): dato un insieme di valori osservati , ordinati in senso crescente, definiamo

1 2

campo di variazione la differenza tra il più grande e il più piccolo di tali valori:

= −

Il range si basa solo su 2 degli valori osservati, quindi è approssimativo circa la variabilità dei dati. Può accadere che i valori

= 0

estremi siano dei valori anomali conducendo così a una misura della variabilità molto grossolana. Se vuol dire

“assenza di variabilità” quindi il valore massimo e minimo della variabile sono uguali. 12

, , … ,

Scarto interquartile: dato un insieme di valori osservati , definiamo differenza interquartile o scarto

1 2

interquartile la differenza tra il terzo e il primo quartile:

( ) = −

3 1 = 0

Lo scarto interquartile, come il range, si basa solo su 2 dei valori osservati. Nel caso dello scarto interquartile si

presenta anche con presenza di variabilità, a differenza del range.

, , … , ̅

Varianza: la varianza di un insieme di valori osservati di una variabile con media aritmetica è data da:

1 2

2 2

= ∑( − ̅ ) devianza

Come indice di variabilità, la varianza ha il difetto di non possedere la stessa unità di misura dei valori della distribuzione.

Per tale motivo è preferibile usare come indice di variabilità la deviazione standard o scarto quadratico medio:

√ 2 2

√

= = ∑( − ̅ )

Se abbiamo le distribuzioni di frequenze di una variabile con modalità, la varianza si calcola come segue:

1 2 2

= ∑( − ̅ ) = ∑( − ̅ )

=1 =1

Calcolo semplificato della varianza (è la formula che si usa più frequentemente):

1 2

2 2

= ∑ − ̅

Dimostrazione:

1 1 1 1

2 2

2 2 2

)

∑( − ̅ = ∑( − 2̅ + ̅ ) = ∑ − 2̅ ∑ + ̅ =

=1 =1 =1 =1

1 1

2 2

2 2 2

= ∑ − 2̅ + ̅ = ∑ − ̅

=1 =1

Nel caso si abbia a disposizione la distribuzione di frequenze, la formula corrispondente è:

1 1

2 2

2 2 2

= ∑ − ̅ = ∑ − ̅

=1 =1

= 0

La varianza è maggiore di zero. Si ha solo in assenza di variabilità (nella pratica questo caso non esiste perché la

statistica lavora su fenomeni variabili). , = +

Varianza di una trasformazione lineare: la varianza di un carattere ottenuto attraverso la trasformazione di

un carattere di media e varianza , è pari a: 2 2 2

() = = () =

Dimostrazione: questa proprietà si dimostra facilmente utilizzando la proprietà della media aritmetica, per la quale se

̅ ̅

+ = + ,

allora cosicché sostituendo all’interno dell’espressione della varianza della Y,

1 2

() = ∑( − ̅) , :

1 1

2 2 2 2 2

)

() = ∑( + − ̅ − ) = ∑( − ̅ =

=1 =1

Quindi se noi aggiungiamo una costante a tutti i valori della variabile, questo non cambia la variabilità. 13

La deviazione standard, come anche la varianza, è un indice di variabilità assoluto che risente dell’unità di misura e

dell’ordine di grandezza dei dati. Pertanto essa non consente di eseguire confronti tra la variabilità di fenomeni che

presentano unità di misure diverse. Inoltre, con tale indice non è corretto neanche confrontare la variabilità di caratteri che,

pur essendo misurati con la stessa unità di misura, possiedo valori medi molto diversi, come, per es., la distribuzione del

peso (in kg) di un collettivo di bambini con quella di un collettivo di adulti. Questi inconvenienti vengono in parte superati se

si utilizza un indice di variabilità relativo che ci permette di eliminare il problema dell’unità di misura. Un esempio è il:

, ̅ > 0

Coefficiente di variazione (CV): il coefficiente di variazione della distribuzione di un carattere di media e deviazione

standard è dato dal rapporto tra la deviazione standard e la media:

= = × 100

̅ ̅

Con questa formula si trova un numero puro senza l’utilizzo dell’unità di misura. Nella seconda formula (quando

moltiplichiamo per 100) non si utilizza un indice di variabilità relativo, ma un indice variabilità percentuale.

Box Plot (o diagramma a scatola e baffi): è un grafico caratterizzato da tre elementi principali:

1. una linea o un punto, che indicano la posizione della media della distribuzione;

2. un rettangolo (box) la cui altezza indica la variabilità dei valori “prossimi” alla media;

3. due segmenti che partono dal rettangolo e i cui estremi sono determinati in base ai valori estremi della

distribuzione.

Un box plot molto utilizzato è quello che ha come media la mediana, come altezza del rettangolo la distanza interquartile e

come estremi dei segmenti il valore minimo e il valore massimo:

Nel caso in cui un baffo fosse molto più lungo rispetto all’altro vuol dire che ci sono dei valori che sono molto lontani dalla

parte centrale della scatola. Quindi si limita la lunghezza del baffo, di solito a 3/2 l’ampiezza della scatola (quindi la

⁄

3 2 ( − )).

lunghezza massima del baffo è Il box plot consente di determinare quali sono le caratteristiche della

3 1

distribuzione, ci dice qual è il campo di variazione e se ci sono dei valori anomali.

Esempio: vogliamo fare il box plot del reddito annuo della famiglia della fig.1 (pag. 1)

Questo diagramma a baffi ci dice che l’estremo inferiore e l’estremo superiore della scatola identificano il 50% centrale

della distribuzione. C’è un baffo che va leggermente sotto lo zero perché esistono delle famiglie, anche se poche con

reddito negativo. Per i valori elevati: il baffo arriva ad una certa altezza (intorno ai 75000) poi si arresta e c’è una lunga serie

di valori che sono esterni al baffo (rappresentati dai pallini che non sono valori anomali perché sono troppi). Tutti questi

pallini al di fuori del baffo sono dovuti dalla distribuzione di frequenza del reddito che è molto asimmetrica (perché non 14

siamo in grado di individuare un centro della situazione), e rappresentano tutti i valori del riquadro nero dell’istogramma

seguente:

Se abbiamo una scatola centrale, in una situazione di simmetria, la media dovrebbe stare nel centro, mentre in una

situazione di asimmetria la mediana si colloca verso gli estremi della scatola.

Indice di eterogeneità: si dice che si è in presenza di massima omogeneità (o minima eterogeneità) quando tutte le unità del

collettivo presentano la stessa modalità. Viceversa, si è in presenza di minima omogeneità, detta anche massima

eterogeneità, se tutte le modalità sono presenti con la stessa frequenza nel collettivo.

max à → = = ⋯ = = = ⋯ = = 0 = 1

1 2 −1 +1

⁄

max à → = = ⋯ = = ⋯ = = 1

1 2

Indice di eterogeneità di Gini (Gini è stato uno dei padri della statistica italiana che ha fondato l’istituto centrale di statistica,

l’ISTAT, ha costruito la prima facoltà di statistica presso la Sapienza) misura il grado di eterogeneità di una distribuzione:

= 1 − = 1 − ∑

1 1 =1

L’indice non può assumere valori minori di zero, e non può assumere valori superiore a:

1 1 −1

1 − ∑( ) = 1− = 1 − =

Questo valore però non ci permette di capire qual è il valore massimo che l’indice può assumere così si introduce

∈ , ]:

un’operazione detta normalizzazione: supponiamo di avere un indice [

−

. −

. .

∈ (0,1)

Operando in questo modo otteniamo che: .

Il vantaggio di avere un indice normalizzato è che gli estremi dei valori che l’indice può assumere non dipendono dalle

caratteristiche dei dati che stiamo analizzando, quindi siamo sempre in grado di determinare il valore dell’indice.

Indice di eterogeneità normalizzato (il prof. consiglia di utilizzare questa formula):

− 0

= =

( ⁄ )

− 1 − 0 −1

Esempio: 2

= 1 − ∑

Anteprima

Vedrai una selezione di 11 pagine su 50