Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
X X
frequenze di Y
I valori dentro la tabella sono frequenze congiunte (numero di unità
statistiche che presentano contemporaneamente una certa modalità di X e
una certa modalità di Y)
di totali di riga e di colonna, la tabella mostra anche le
Calcolando
frequenze semplici di X e le frequenze semplici di Y
Dal dataset alla tabella doppia
Distribuzione doppia Un esempio di matrice dei dati
disaggregata
(M,2),(M,4),(F,4),…,(F,2) unità u id SESSO ETA' (a.c.) LIVISTR DIST(KM)
Andrea 1 M 28 2 5
Baccio 2 M 17 4 7.5
Claudia 3 F 20 3 12
Dario 4 M 32 2 3.2
Emilia 5 F 16 1 -
Franco 6 M 34 2 12.3
Gino 7 M 18 1 25
Helen 8 F 25 2 7.7
Distribuzione doppia di
frequenza Tu.ua
Sesso variabili
2 contempo
Into il Liv. Istruz. M F
di u
nun Tabella a doppia entrata
stat Lic. Elem. 1 1 2
che o tabella di contingenza
Lic. Media 3 1 4
licenza
media e Maturità 0 1 1
maschi
sono Laurea 1 0 1 vello
pregai
istruzione
5 3 8 univariate varia
alla
riso
Di zone
isi
Tabella doppia
(frequenze assolute)
X: numero di figli; Y: condizione lavorativa centro
congiunte
area
Popolazione: donne in età fertile (Indagine INF/2 del 1995) margine
univariate
area
Occupata
Figli mai in passato adesso Totale
0 15 14 42 71
O_rioan
1 32 49 100 181 figlio
1
con
Frequenze
2 63 82 119 264 assolute
3 20 16 25 61
4 4 2 3 9
5 0 0 1 1
Totale 134 163 290 587
la
mai
r.oome a X
587
63
dame
gli
ali
dame con
n'di campione
occupate
mai
E 1100
Tabella doppia
(frequenze percentuali totali)
X: numero di figli; Y: condizione lavorativa
Popolazione: donne in età fertile (Indagine INF/2 del 1995)
Occupata
Figli mai in passato adesso Totale
0 2.6 2.4 7.2 12.1
1 5.5 8.3 17.0 30.8 Frequenze
2 10.7 14.0 20.3 45.0 percentuali totali
3 3.4 2.7 4.3 10.4
4 0.7 0.3 0.5 1.5
9
5 0.0 0.0 0.2 0.2
Totale 22.8 27.8 49.4 100.0
fa
107 ha
figli non
2 e 71
na na
na 10
Tabella doppia
(frequenze percentuali di colonna)
X: numero di figli; Y: condizione lavorativa
Popolazione: donne in età fertile (Indagine INF/2 del 1995) Frequenze
Occupata percentuali di
colonna
Figli mai in passato adesso Totale
0 11.2 8.6 14.5 12.1 Così si divide la
popolazione in 3
1 23.9 30.1 34.5 30.8 gruppi in base
2 47.0 50.3 41.0 45.0 alla condizione
3 14.9 9.8 8.6 10.4 lavorativa, e si
studia la
4 3.0 1.2 1.0 1.5 distribuzione del
5 0.0 0.0 0.3 0.2 numero di figli
Totale 100.0 100.0 100.0 100.0 separatamente
per ogni gruppo.
Tabella doppia
(frequenze percentuali di riga)
X: numero di figli; Y: condizione lavorativa
Popolazione: donne in età fertile (Indagine INF/2 del 1995) Frequenze
Occupata percentuali di riga
0
Figli mai in passato adesso Totale Così si divide la
popolazione in 6
0 21.1 19.7 59.2 100.0 gruppi in base
1 17.7 27.1 55.2 100.0 numero di figli, e
2 23.9 31.1 45.1 100.0 si studia la
distribuzione
3 32.8 26.2 41.0 100.0 della condizione
4 44.4 22.2 33.3 100.0 occupazionale
5 0.0 0.0 100.0 100.0 separatamente
per ogni gruppo.
Totale 22.8 27.8 49.4 100.0
2
con
dame
delle
23.97 lavorato
mai
ha
non
figli
Maschio tot
femm distrin
es della politico
orient
II
If
indip
Repubbe orientamento 25
tot maschi
politico
Ancora sulla matrice dei
dati: mancate risposte, dati
anomali, errori di misura
Cicchitelli-D'Urso-Minozzo sez. 2.6
Matrice dei dati: esempio
VARIABILI
Etichette di identificazione
STATISTICHE unità u id SESSO ETA' (a.c.) LIVISTR DIST(KM)
Andrea 1 M 28 2 5
Baccio 2 M 17 4 7.5
Claudia 3 F 20 3 12
Dario 4 M 32 2 3.2
Emilia 5 F 16 1 -
UNITÀ Franco 6 M 34 2 12.3
Gino 7 M 18 1 25
Helen 8 F 25 2 7.7
Modalità delle variabili
LIVISTR: livello di istruzione (1=Lic. Elem.,
Solitamente i nomi 2=Lic. Media, 3=Maturità, 4=Laurea)
vengono eliminati
(privacy) DIST(KM): distanza casa-lavoro in Km
Attenzione alla qualità dei dati
Prima di iniziare l’analisi occorre riflettere attentamente sulla qualità dei
dati (come è stato selezionato il campione? Vi sono mancate risposte? Vi
sono incoerenze?). Alcuni problemi possono essere individuati facilmente,
anche se la soluzione spesso non è ovvia.
unità u id SESSO ETA' (a.c.) LIVISTR DIST(KM)
Andrea 1 M 28 2 5 è
che
Baccio 2 M 17 4 7.5 ho bisogno
Claudia 3 F 20 3 12 da
di 2
Dario 4 M 32 2 3.2
Emilia 5 F 160 1 -
Franco 6 M 34 2 12.3
Gino 7 M 18 1 25
Helen 8 F 25 2 7.7
Emilia ha 160 anni? Baccio è già laureato a 17 anni? Dato mancante
(i due valori di Baccio presi separatamente sono (missing). Quale
plausibili, ma non la loro congiunzione) può essere il
motivo? non
che
essere
potrebbe da casa
lavoro
lavora p
e
e
Problemi con i dati
Arrotondamenti: es. la pressione arteriosa registrata con lo
sfigmomanometro presenta spesso valori come 60, 70, 80, e
raramente valori come 69 o 72.
Errori di inserimento dati (data entry): es. un 7 scambiato per
questionari
un 1, un 21 inserito come 210 etc. rari i
sono direttamente
ormai sono
inseriti online
Dichiarazioni non veritiere
Errori di misurazione
Dati mancanti
Avvertenza: dopo un breve cenno, nel resto del corso ignoreremo questi
problemi con i dati (la trattazione è rinviata a corsi successivi) 104
Dichiarazioni non veritiere
Talvolta le persone forniscono risposte deliberatamente errate con
l’intento di nascondere il vero valore, ad es. tasse
pagare
i redditi dichiarati sono inferiori a quelli effettivi x
le dipendenze (droghe, alcool, gioco) sono omesse o sottostimate
le opinioni sono talvolta espresse in modo da risultare conformi a
norme sociali (social desirability) o alle aspettative dell’intervistatore
c
desiderio se l’intervistato è poco coinvolto)
(specialmente
l'intervistatore
Alcuni ricercatori hanno analizzato i profili degli utenti di un sito web di incontri,
L scoprendo che le donne hanno la tendenza a dichiarare un peso inferiore a quello vero
e'intervistato
se
idee (nella fascia 40 49 anni il peso medio dichiarato è inferiore di 9 kg rispetto al peso
ntrocorrenti medio della popolazione) cfr. Hitsch, G. J., Hortacsu, A., & Ariely, D. (2005). What makes
passo
non
esprime
le you click: An empirical analysis of online dating (Working Paper).
Il tema delle bugie è analizzato da Seth Stephens Davidowitz nel libro Everybody lies on
the Internet (tradotto in italiano con il titolo La macchina della verità): ad esempio, in
merito al razzismo le opinioni espresse in modo anonimo scrivendo nella barra di ricerca
di Google sono molto diverse da quelle espresse nei sondaggi tradizionali. 105
Errori di misurazione
Il valore rilevato può essere diverso dal valore vero a causa
dell’errore di misurazione dello strumento. Alcuni esempi:
strumenti fisici per misurare quantità come il livello di
colesterolo nel sangue, la concentrazione di anidride
carbonica nell’aria, la velocità di un’automobile …
test psicometrici per valutare il quoziente intellettivo o il
benessere psico fisico
questionari di rilevazione, quando l’intervistato deve
esprimere un’opinione o effettuare una stima (es. quanto
alcool ha assunto nell’ultima settimana)
Ridurre gli errori di misurazione
Nelle indagini con questionari gli errori di misurazione possono
essere ridotti grazie ad una serie di accorgimenti in fase di
pianificazione:
Formulare con attenzione le domande coinvolgendo un
esperto di settore (economista, medico, psicologo …)
Testare le domande su alcuni soggetti (studio pilota)
Garantire l’anonimato delle risposte
Minimizzare il carico di lavoro dell’intervistato (keep it simple!)
Motivare gli intervistati (spiegando le finalità dell’indagine,
fornendo un feedback …)
Dati mancanti
I dati sono spesso incompleti, in particolare quelli derivanti da interviste (es.
l’intervistato non ha risposto ad una domanda, il paziente non si è presentato
ad una visita). Oppure lo strumento si è temporaneamente guastato, es. la
centralina che rileva le particelle inquinanti si è bloccata per alcune ore.
Mancanza totale: l’unità statistica non è stata
rilevata e quindi sono mancanti i valori di tutte le
variabili (es. l’individuo rifiuta di partecipare mancano
id X Y Z pochi
all’indagine) il campione può essere distorto prati
1 10 50 200
2 20 . 160
Mancanza parziale: l’unità statistica è stata mancanza
3 20 40 .
rilevata, ma sono mancanti i valori per alcune parziale
4 30 . .
variabili (es. l’individuo partecipa all’indagine, ma 5 . 60 210
non risponde ad alcune domane) l’analisi delle mancanza
6 . . . totale
variabili affette da valori mancanti può portare a
risultati distorti dati
molti
mancano
D.J. Hand in «Il tradimento dei numeri» presenta molti esempi di dati mancanti (chiamandoli dark
data), mostrando che ignorare l’esistenza di dati mancanti può portare a conclusioni del tutto errate 108
Perché il valore è mancante?
Per capire se i valori mancanti possono provocare distorsione è
necessario indagare le cause della mancanza:
Strutturali: il dato è necessariamente mancante, es. l’individuo
disoccupato non può (e non deve!) rispondere ai quesiti sul tipo
non
di lavoro svolto nessuna distorsione rispondere
il
è necessario
Non strutturali: il dato doveva essere presente, invece manca
• per motivi accidentali (es. il paziente non si è presentato alla visita
a causa di uno sciopero dei trasporti) nessuna distorsione
a
(naturalmente c’è una perdita di precisione a causa della è
poiché ciò
da
selciato
riduzione del numero di risposte) analizzando
sto
che
• per motivi legati al dato stesso (es. il paziente non si è presentato
visita perché stava male a causa della terapia sperimentale a
alla
cui era sottoposto) distorsione 109
Distorsione da dati mancanti
I dati mancanti «strutturali» ovviamente non sono un problema,
invece i «non strutturali» …
• riducon