Estratto del documento

Analisi dei dati

Indici di variabilità relativa

Indici percentuali di variabilità o dispersione ottenuti dividendo l’indice di variabilità (dispersione) assoluto per la media rispetto alla quale è stato calcolato:

σ= × Coefficiente di variazione CV 100¾ M

Indici di variabilità o dispersione relativa ottenuti dividendo l’indice di variabilità (dispersione) assoluto per il valore massimo che esso può assumere in una situazione ipotetica:

σ Deviazione standard relativa ¾ σmax( ) compreso tra 0 e 1. 'Numero Analisi dei Dati - a.a. 2004/2005 116

Esempio

Altezza alla nascita di neonati: X M(X) = 40 cm e SQM(X) = 5 cm. Altezza adulti: Y M(Y) = 168 cm e SQM(Y) = 12 cm.

Qual è la distribuzione dell’altezza più variabile? σ 5 La distribuzione = × = × CV X 100 12,5%( ) 100 dell’altezza dei M 40 neonati è più σ variabile di quella 12 = × = × CV Y 100 7,14%( ) 100 degli adulti M 168

Analisi dei Dati - a.a. 2004/2005 117

Altri indici di variabilità

Campo di Variazione:

  • W = Q3 - Q1
  • R = Max(x) - Min(x)

W rappresenta il campo ¾ R ¾ di variazione per il 50% ⇒ non c’è ¾ R=0 delle unità centrali variabilità.

Analisi dei Dati - a.a. 2004/2005 118

Mutabilità

Sottolinea l'eterogeneità. Le misure di mutabilità si basano sull’analisi delle frequenze:

  • Mutabilità nulla = tutte le u.s. presentano la stessa modalità. Massima omogeneità: tutte le sono uguali a zero tranne una che è pari a N.
  • Mutabilità massima = le frequenze delle varie modalità sono tutte uguali. Minima omogeneità = n1 = n2 = nj = N/K.

Analisi dei Dati - a.a. 2004/2005 119

Indici di mutabilità o eterogeneità

Devono essere nulli quando tutte le u.s. presentano la stessa modalità. Crescono all’aumentare della mutabilità o eterogeneità:

  • Indice di Gini
  • Entropia

Analisi dei Dati - a.a. 2004/2005 120

L'Indice di Gini assume valori tra 0 e 1. Entropia H log(N/N) assume valori tra 0 e log(K). Relativa Hmax( ) log K tra 0 e 1.

Analisi dei Dati - a.a. 2004/2005 121

Box Plot

Rappresentazione grafica della distribuzione di un carattere quantitativo che mette in evidenza la sua variabilità. Elementi caratteristici:

  • 1 punto che individua la posizione della media (aritmetica o mediana) della distribuzione
  • 1 rettangolo (box) la cui altezza rappresenta la variabilità dei valori prossimi alla media scelta
  • 2 segmenti che partono dai lati maggiori del rettangolo e i cui estremi sono rappresentati dai valori minimo e massimo della distribuzione

Analisi dei Dati - a.a. 2004/2005 122

Quale Box Plot?

Box plot con mediana:

  • Media = mediana
  • Altezza box = differenza interquartile W
  • Estremi dei segmenti: Superiore = valore max, Inferiore = valore min

Box plot con media aritmetica:

  • Media = media aritmetica
  • Altezza box = 2σ
  • Estremo superiore = M + σ, Estremo inferiore = M - σ
  • Estremi dei segmenti: Inferiore = Superiore = M + 1,96σ M - 1,96σ

Analisi dei Dati - a.a. 2004/2005 123

Esempio

Distribuzione delle nascite in 11 ospedali: A B C D E F G H I L M 4 1 0 1 2 8 5 2 1 5 12

Distribuzione ordinata delle nascite in 11 ospedali: C B D I E H A G L F M 0 1 1 1 2 2 4 5 5 8 12 = Me 2 Q1 5 Q3 1

Analisi dei Dati - a.a. 2004/2005 124

Box Plot

Numero nascite: 125 Terzo quartile Q3 Mediana 2 Primo quartile Q1 1

Analisi dei Dati - a.a. 2004/2005 125

Box Plot con valori anomali

Valori anomali: LSR + λ (LSR - LIR) = 5 + 1,5 (5 - 1) = 11. LIR - λ (LSR - LIR) = 1 - 1,5 (5 - 1) = -5

È anomalo il solo valore 12 dell’unità F!

Numero Nascite: 12 Outlier unità F 8 Terzo quartile Q3 5 3 2 Mediana 1 Primo quartile Q1

Analisi dei Dati - a.a. 2004/2005 126

Distribuzione doppia di frequenze

Distribuzione di 40 u.s. secondo i caratteri Sesso e Ceto Sociale. Ceto Sociale Totale:

Sesso Basso Medio Alto Totale
F 10 8 6 24
M 5 5 6 16
Totale 15 13 12 40

Analisi dei Dati - a.a. 2004/2005 127

Distribuzione doppia di frequenze

Tabella che consente di sintetizzare l’informazione disponibile su due caratteri osservati contemporaneamente sul medesimo collettivo di u.s.

  • Lista delle modalità che ciascuno dei 2 caratteri può assumere.
  • Lista di modalità del carattere 1 colonne ¾ Æ Lista di modalità del carattere 2 righe ¾ Æ Si devono considerare tutte le possibili coppie di modalità (una del car. 1 ed una del car. 2).
  • Conteggio del numero di u.s. del collettivo considerato che presentano una coppia di modalità dei 2 caratteri (freq. Assoluta).

Analisi dei Dati - a.a. 2004/2005 128

Struttura di una distribuzione doppia di frequenze

Carattere 1 Modalità uno Modalità j Modalità K
Numero di u.s. del collettivo che presentano la coppia di modalità (uno,uno)
Numero di u.s. del collettivo che presentano la coppia di modalità (uno,j)
Numero di u.s. del collettivo che presentano la coppia di modalità (uno,K)
Numero di u.s. del collettivo che presentano la coppia di modalità (i,uno)
Numero di u.s. del collettivo che presentano la coppia di modalità (i,j)
Numero di u.s. del collettivo che presentano la coppia di modalità (i,K)
Numero di u.s. del collettivo che presentano la coppia di modalità (H,uno)
Numero di u.s. del collettivo che presentano la coppia di modalità (H,j)
Numero di u.s. del collettivo che presentano la coppia di modalità (H,K)

Analisi dei Dati - a.a. 2004/2005 129

Serie Storiche

Una serie statistica di intensità le cui modalità sono relative al carattere tempo è chiamata serie storica. Evidenziano la dinamica di un fenomeno nel tempo:

  • Registrazione delle manifestazioni di un fenomeno ¾ attraverso il tempo.
  • Rappresentazione grafica in coordinate cartesiane.
  • In ascissa sono riportati i tempi, nell'unità di misura appropriata (anni, mesi, oppure secondi).
  • In ordinata è riportata, secondo una scala appropriata, l'intensità del fenomeno in corrispondenza di ciascun tempo.

Analisi dei Dati - a.a. 2004/2005 75

Esempio

Periodo Maschi Femmine Totale:

Periodo Maschi Femmine Totale
gen 01 7,8 13,7 10,1
apr 01 7,4 13,0 9,6
lug 01 7,0 12,5 9,2
ott 01 7,1 12,7 9,3
gen 02 7,1 12,5 9,2

Serie trimestrale del Tasso di Disoccupazione per sesso e apr

Anteprima
Vedrai una selezione di 7 pagine su 29
Analisi dei dati - Seconda parte Pag. 1 Analisi dei dati - Seconda parte Pag. 2
Anteprima di 7 pagg. su 29.
Scarica il documento per vederlo tutto.
Analisi dei dati - Seconda parte Pag. 6
Anteprima di 7 pagg. su 29.
Scarica il documento per vederlo tutto.
Analisi dei dati - Seconda parte Pag. 11
Anteprima di 7 pagg. su 29.
Scarica il documento per vederlo tutto.
Analisi dei dati - Seconda parte Pag. 16
Anteprima di 7 pagg. su 29.
Scarica il documento per vederlo tutto.
Analisi dei dati - Seconda parte Pag. 21
Anteprima di 7 pagg. su 29.
Scarica il documento per vederlo tutto.
Analisi dei dati - Seconda parte Pag. 26
1 su 29
D/illustrazione/soddisfatti o rimborsati
Acquista con carta o PayPal
Scarica i documenti tutte le volte che vuoi
Dettagli
SSD
Scienze economiche e statistiche SECS-S/05 Statistica sociale

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher flaviael di informazioni apprese con la frequenza delle lezioni di Analisi dei dati e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Roma La Sapienza o del prof Baragona Roberto.
Appunti correlati Invia appunti e guadagna

Domande e risposte

Hai bisogno di aiuto?
Chiedi alla community