Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
VARIABILITA’
Poiché la statistica si occupa di analizzare quei fenomeni quei fenomeni che tendono a manifestarsi con diverse modalità, è
necessario porsi il problema della misura della variabilità di un fenomeno o di una distribuzione che esprime la tendenza
delle unità di un collettivo ad assumere diverse modalità del carattere. Per misurare la variabilità di una distribuzione è
possibile utilizzare degli indici che sintetizzano la diversità tra ogni modalità e una media. Questi indici sono chiamati indici
di variabilità, e devono soddisfare almeno due requisiti:
1) un indice di variabilità deve assumere il suo valore minimo se e solo e tutte le unità della distribuzione presentano
uguale modalità del carattere;
2) un indice di variabilità deve aumentare all’aumentare della diversità tra le modalità assunte dalle varie unità.
Indici di variabilità: , , … ,
Campo di variazione (o range): dato un insieme di valori osservati , ordinati in senso crescente, definiamo
1 2
campo di variazione la differenza tra il più grande e il più piccolo di tali valori:
= −
Il range si basa solo su 2 degli valori osservati, quindi è approssimativo circa la variabilità dei dati. Può accadere che i valori
= 0
estremi siano dei valori anomali conducendo così a una misura della variabilità molto grossolana. Se vuol dire
“assenza di variabilità” quindi il valore massimo e minimo della variabile sono uguali. 12
, , … ,
Scarto interquartile: dato un insieme di valori osservati , definiamo differenza interquartile o scarto
1 2
interquartile la differenza tra il terzo e il primo quartile:
( ) = −
3 1 = 0
Lo scarto interquartile, come il range, si basa solo su 2 dei valori osservati. Nel caso dello scarto interquartile si
presenta anche con presenza di variabilità, a differenza del range.
, , … , ̅
Varianza: la varianza di un insieme di valori osservati di una variabile con media aritmetica è data da:
1 2
1
2 2
= ∑( − ̅ ) devianza
=1
Come indice di variabilità, la varianza ha il difetto di non possedere la stessa unità di misura dei valori della distribuzione.
Per tale motivo è preferibile usare come indice di variabilità la deviazione standard o scarto quadratico medio:
1
√ 2 2
√
= = ∑( − ̅ )
=1
Se abbiamo le distribuzioni di frequenze di una variabile con modalità, la varianza si calcola come segue:
1 2 2
2
= ∑( − ̅ ) = ∑( − ̅ )
=1 =1
Calcolo semplificato della varianza (è la formula che si usa più frequentemente):
1 2
2 2
= ∑ − ̅
=1
Dimostrazione:
1 1 1 1
2 2
2 2 2
)
∑( − ̅ = ∑( − 2̅ + ̅ ) = ∑ − 2̅ ∑ + ̅ =
=1 =1 =1 =1
1 1
2 2
2 2 2
= ∑ − 2̅ + ̅ = ∑ − ̅
=1 =1
Nel caso si abbia a disposizione la distribuzione di frequenze, la formula corrispondente è:
1 1
2 2
2 2 2
= ∑ − ̅ = ∑ − ̅
=1 =1
2
= 0
La varianza è maggiore di zero. Si ha solo in assenza di variabilità (nella pratica questo caso non esiste perché la
statistica lavora su fenomeni variabili). , = +
Varianza di una trasformazione lineare: la varianza di un carattere ottenuto attraverso la trasformazione di
2
̅
un carattere di media e varianza , è pari a: 2 2 2
() = = () =
Dimostrazione: questa proprietà si dimostra facilmente utilizzando la proprietà della media aritmetica, per la quale se
̅ ̅
+ = + ,
allora cosicché sostituendo all’interno dell’espressione della varianza della Y,
1 2
() = ∑( − ̅) , :
=1
1 1
2 2 2 2 2
)
() = ∑( + − ̅ − ) = ∑( − ̅ =
=1 =1
Quindi se noi aggiungiamo una costante a tutti i valori della variabile, questo non cambia la variabilità. 13
La deviazione standard, come anche la varianza, è un indice di variabilità assoluto che risente dell’unità di misura e
dell’ordine di grandezza dei dati. Pertanto essa non consente di eseguire confronti tra la variabilità di fenomeni che
presentano unità di misure diverse. Inoltre, con tale indice non è corretto neanche confrontare la variabilità di caratteri che,
pur essendo misurati con la stessa unità di misura, possiedo valori medi molto diversi, come, per es., la distribuzione del
peso (in kg) di un collettivo di bambini con quella di un collettivo di adulti. Questi inconvenienti vengono in parte superati se
si utilizza un indice di variabilità relativo che ci permette di eliminare il problema dell’unità di misura. Un esempio è il:
, ̅ > 0
Coefficiente di variazione (CV): il coefficiente di variazione della distribuzione di un carattere di media e deviazione
,
standard è dato dal rapporto tra la deviazione standard e la media:
= = × 100
̅ ̅
Con questa formula si trova un numero puro senza l’utilizzo dell’unità di misura. Nella seconda formula (quando
moltiplichiamo per 100) non si utilizza un indice di variabilità relativo, ma un indice variabilità percentuale.
Box Plot (o diagramma a scatola e baffi): è un grafico caratterizzato da tre elementi principali:
1. una linea o un punto, che indicano la posizione della media della distribuzione;
2. un rettangolo (box) la cui altezza indica la variabilità dei valori “prossimi” alla media;
3. due segmenti che partono dal rettangolo e i cui estremi sono determinati in base ai valori estremi della
distribuzione.
Un box plot molto utilizzato è quello che ha come media la mediana, come altezza del rettangolo la distanza interquartile e
come estremi dei segmenti il valore minimo e il valore massimo:
Nel caso in cui un baffo fosse molto più lungo rispetto all’altro vuol dire che ci sono dei valori che sono molto lontani dalla
parte centrale della scatola. Quindi si limita la lunghezza del baffo, di solito a 3/2 l’ampiezza della scatola (quindi la
⁄
3 2 ( − )).
lunghezza massima del baffo è Il box plot consente di determinare quali sono le caratteristiche della
3 1
distribuzione, ci dice qual è il campo di variazione e se ci sono dei valori anomali.
Esempio: vogliamo fare il box plot del reddito annuo della famiglia della fig.1 (pag. 1)
Questo diagramma a baffi ci dice che l’estremo inferiore e l’estremo superiore della scatola identificano il 50% centrale
della distribuzione. C’è un baffo che va leggermente sotto lo zero perché esistono delle famiglie, anche se poche con
reddito negativo. Per i valori elevati: il baffo arriva ad una certa altezza (intorno ai 75000) poi si arresta e c’è una lunga serie
di valori che sono esterni al baffo (rappresentati dai pallini che non sono valori anomali perché sono troppi). Tutti questi
pallini al di fuori del baffo sono dovuti dalla distribuzione di frequenza del reddito che è molto asimmetrica (perché non 14
siamo in grado di individuare un centro della situazione), e rappresentano tutti i valori del riquadro nero dell’istogramma
seguente:
Se abbiamo una scatola centrale, in una situazione di simmetria, la media dovrebbe stare nel centro, mentre in una
situazione di asimmetria la mediana si colloca verso gli estremi della scatola.
Indice di eterogeneità: si dice che si è in presenza di massima omogeneità (o minima eterogeneità) quando tutte le unità del
collettivo presentano la stessa modalità. Viceversa, si è in presenza di minima omogeneità, detta anche massima
eterogeneità, se tutte le modalità sono presenti con la stessa frequenza nel collettivo.
max à → = = ⋯ = = = ⋯ = = 0 = 1
1 2 −1 +1
⁄
max à → = = ⋯ = = ⋯ = = 1
1 2
Indice di eterogeneità di Gini (Gini è stato uno dei padri della statistica italiana che ha fondato l’istituto centrale di statistica,
l’ISTAT, ha costruito la prima facoltà di statistica presso la Sapienza) misura il grado di eterogeneità di una distribuzione:
2
= 1 − = 1 − ∑
1 1 =1
L’indice non può assumere valori minori di zero, e non può assumere valori superiore a:
2
1 1 −1
1 − ∑( ) = 1− = 1 − =
2
=1
Questo valore però non ci permette di capire qual è il valore massimo che l’indice può assumere così si introduce
∈ , ]:
un’operazione detta normalizzazione: supponiamo di avere un indice [
−
.
=
. −
. .
∈ (0,1)
Operando in questo modo otteniamo che: .
Il vantaggio di avere un indice normalizzato è che gli estremi dei valori che l’indice può assumere non dipendono dalle
caratteristiche dei dati che stiamo analizzando, quindi siamo sempre in grado di determinare il valore dell’indice.
Indice di eterogeneità normalizzato (il prof. consiglia di utilizzare questa formula):
− 0
1
= =
1
( ⁄ )
− 1 − 0 −1
Esempio: 2
= 1 − ∑