Analisi dei dati
Indici di variabilità relativa
Indici percentuali di variabilità o dispersione ottenuti dividendo l’indice di variabilità (dispersione) assoluto per la media rispetto alla quale è stato calcolato:
σ= × Coefficiente di variazione CV 100¾ M
Indici di variabilità o dispersione relativa ottenuti dividendo l’indice di variabilità (dispersione) assoluto per il valore massimo che esso può assumere in una situazione ipotetica:
σ Deviazione standard relativa ¾ σmax( ) compreso tra 0 e 1. 'Numero Analisi dei Dati - a.a. 2004/2005 116
Esempio
Altezza alla nascita di neonati: X M(X) = 40 cm e SQM(X) = 5 cm. Altezza adulti: Y M(Y) = 168 cm e SQM(Y) = 12 cm.
Qual è la distribuzione dell’altezza più variabile? σ 5 La distribuzione = × = × CV X 100 12,5%( ) 100 dell’altezza dei M 40 neonati è più σ variabile di quella 12 = × = × CV Y 100 7,14%( ) 100 degli adulti M 168
Analisi dei Dati - a.a. 2004/2005 117
Altri indici di variabilità
Campo di Variazione:
- W = Q3 - Q1
- R = Max(x) - Min(x)
W rappresenta il campo ¾ R ¾ di variazione per il 50% ⇒ non c’è ¾ R=0 delle unità centrali variabilità.
Analisi dei Dati - a.a. 2004/2005 118
Mutabilità
Sottolinea l'eterogeneità. Le misure di mutabilità si basano sull’analisi delle frequenze:
- Mutabilità nulla = tutte le u.s. presentano la stessa modalità. Massima omogeneità: tutte le sono uguali a zero tranne una che è pari a N.
- Mutabilità massima = le frequenze delle varie modalità sono tutte uguali. Minima omogeneità = n1 = n2 = nj = N/K.
Analisi dei Dati - a.a. 2004/2005 119
Indici di mutabilità o eterogeneità
Devono essere nulli quando tutte le u.s. presentano la stessa modalità. Crescono all’aumentare della mutabilità o eterogeneità:
- Indice di Gini
- Entropia
Analisi dei Dati - a.a. 2004/2005 120
L'Indice di Gini assume valori tra 0 e 1. Entropia H log(N/N) assume valori tra 0 e log(K). Relativa Hmax( ) log K tra 0 e 1.
Analisi dei Dati - a.a. 2004/2005 121
Box Plot
Rappresentazione grafica della distribuzione di un carattere quantitativo che mette in evidenza la sua variabilità. Elementi caratteristici:
- 1 punto che individua la posizione della media (aritmetica o mediana) della distribuzione
- 1 rettangolo (box) la cui altezza rappresenta la variabilità dei valori prossimi alla media scelta
- 2 segmenti che partono dai lati maggiori del rettangolo e i cui estremi sono rappresentati dai valori minimo e massimo della distribuzione
Analisi dei Dati - a.a. 2004/2005 122
Quale Box Plot?
Box plot con mediana:
- Media = mediana
- Altezza box = differenza interquartile W
- Estremi dei segmenti: Superiore = valore max, Inferiore = valore min
Box plot con media aritmetica:
- Media = media aritmetica
- Altezza box = 2σ
- Estremo superiore = M + σ, Estremo inferiore = M - σ
- Estremi dei segmenti: Inferiore = Superiore = M + 1,96σ M - 1,96σ
Analisi dei Dati - a.a. 2004/2005 123
Esempio
Distribuzione delle nascite in 11 ospedali: A B C D E F G H I L M 4 1 0 1 2 8 5 2 1 5 12
Distribuzione ordinata delle nascite in 11 ospedali: C B D I E H A G L F M 0 1 1 1 2 2 4 5 5 8 12 = Me 2 Q1 5 Q3 1
Analisi dei Dati - a.a. 2004/2005 124
Box Plot
Numero nascite: 125 Terzo quartile Q3 Mediana 2 Primo quartile Q1 1
Analisi dei Dati - a.a. 2004/2005 125
Box Plot con valori anomali
Valori anomali: LSR + λ (LSR - LIR) = 5 + 1,5 (5 - 1) = 11. LIR - λ (LSR - LIR) = 1 - 1,5 (5 - 1) = -5
È anomalo il solo valore 12 dell’unità F!
Numero Nascite: 12 Outlier unità F 8 Terzo quartile Q3 5 3 2 Mediana 1 Primo quartile Q1
Analisi dei Dati - a.a. 2004/2005 126
Distribuzione doppia di frequenze
Distribuzione di 40 u.s. secondo i caratteri Sesso e Ceto Sociale. Ceto Sociale Totale:
| Sesso | Basso | Medio | Alto | Totale |
|---|---|---|---|---|
| F | 10 | 8 | 6 | 24 |
| M | 5 | 5 | 6 | 16 |
| Totale | 15 | 13 | 12 | 40 |
Analisi dei Dati - a.a. 2004/2005 127
Distribuzione doppia di frequenze
Tabella che consente di sintetizzare l’informazione disponibile su due caratteri osservati contemporaneamente sul medesimo collettivo di u.s.
- Lista delle modalità che ciascuno dei 2 caratteri può assumere.
- Lista di modalità del carattere 1 colonne ¾ Æ Lista di modalità del carattere 2 righe ¾ Æ Si devono considerare tutte le possibili coppie di modalità (una del car. 1 ed una del car. 2).
- Conteggio del numero di u.s. del collettivo considerato che presentano una coppia di modalità dei 2 caratteri (freq. Assoluta).
Analisi dei Dati - a.a. 2004/2005 128
Struttura di una distribuzione doppia di frequenze
| Carattere 1 | Modalità uno | Modalità j | Modalità K |
|---|---|---|---|
| Numero di u.s. del collettivo che presentano la coppia di modalità (uno,uno) | … | … | |
| Numero di u.s. del collettivo che presentano la coppia di modalità (uno,j) | … | … | |
| Numero di u.s. del collettivo che presentano la coppia di modalità (uno,K) | … | … | |
| Numero di u.s. del collettivo che presentano la coppia di modalità (i,uno) | … | … | |
| Numero di u.s. del collettivo che presentano la coppia di modalità (i,j) | … | … | |
| Numero di u.s. del collettivo che presentano la coppia di modalità (i,K) | … | … | |
| Numero di u.s. del collettivo che presentano la coppia di modalità (H,uno) | … | … | |
| Numero di u.s. del collettivo che presentano la coppia di modalità (H,j) | … | … | |
| Numero di u.s. del collettivo che presentano la coppia di modalità (H,K) | … | … |
Analisi dei Dati - a.a. 2004/2005 129
Serie Storiche
Una serie statistica di intensità le cui modalità sono relative al carattere tempo è chiamata serie storica. Evidenziano la dinamica di un fenomeno nel tempo:
- Registrazione delle manifestazioni di un fenomeno ¾ attraverso il tempo.
- Rappresentazione grafica in coordinate cartesiane.
- In ascissa sono riportati i tempi, nell'unità di misura appropriata (anni, mesi, oppure secondi).
- In ordinata è riportata, secondo una scala appropriata, l'intensità del fenomeno in corrispondenza di ciascun tempo.
Analisi dei Dati - a.a. 2004/2005 75
Esempio
Periodo Maschi Femmine Totale:
| Periodo | Maschi | Femmine | Totale |
|---|---|---|---|
| gen 01 | 7,8 | 13,7 | 10,1 |
| apr 01 | 7,4 | 13,0 | 9,6 |
| lug 01 | 7,0 | 12,5 | 9,2 |
| ott 01 | 7,1 | 12,7 | 9,3 |
| gen 02 | 7,1 | 12,5 | 9,2 |
Serie trimestrale del Tasso di Disoccupazione per sesso e apr
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.