Anteprima
Vedrai una selezione di 13 pagine su 60
Distribuzioni statistiche  Pag. 1 Distribuzioni statistiche  Pag. 2
Anteprima di 13 pagg. su 60.
Scarica il documento per vederlo tutto.
Distribuzioni statistiche  Pag. 6
Anteprima di 13 pagg. su 60.
Scarica il documento per vederlo tutto.
Distribuzioni statistiche  Pag. 11
Anteprima di 13 pagg. su 60.
Scarica il documento per vederlo tutto.
Distribuzioni statistiche  Pag. 16
Anteprima di 13 pagg. su 60.
Scarica il documento per vederlo tutto.
Distribuzioni statistiche  Pag. 21
Anteprima di 13 pagg. su 60.
Scarica il documento per vederlo tutto.
Distribuzioni statistiche  Pag. 26
Anteprima di 13 pagg. su 60.
Scarica il documento per vederlo tutto.
Distribuzioni statistiche  Pag. 31
Anteprima di 13 pagg. su 60.
Scarica il documento per vederlo tutto.
Distribuzioni statistiche  Pag. 36
Anteprima di 13 pagg. su 60.
Scarica il documento per vederlo tutto.
Distribuzioni statistiche  Pag. 41
Anteprima di 13 pagg. su 60.
Scarica il documento per vederlo tutto.
Distribuzioni statistiche  Pag. 46
Anteprima di 13 pagg. su 60.
Scarica il documento per vederlo tutto.
Distribuzioni statistiche  Pag. 51
Anteprima di 13 pagg. su 60.
Scarica il documento per vederlo tutto.
Distribuzioni statistiche  Pag. 56
1 su 60
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

X X

frequenze di Y

I valori dentro la tabella sono frequenze congiunte (numero di unità

statistiche che presentano contemporaneamente una certa modalità di X e

una certa modalità di Y)

di totali di riga e di colonna, la tabella mostra anche le

Calcolando

frequenze semplici di X e le frequenze semplici di Y

Dal dataset alla tabella doppia

Distribuzione doppia Un esempio di matrice dei dati

disaggregata

(M,2),(M,4),(F,4),…,(F,2) unità u id SESSO ETA' (a.c.) LIVISTR DIST(KM)

Andrea 1 M 28 2 5

Baccio 2 M 17 4 7.5

Claudia 3 F 20 3 12

Dario 4 M 32 2 3.2

Emilia 5 F 16 1 -

Franco 6 M 34 2 12.3

Gino 7 M 18 1 25

Helen 8 F 25 2 7.7

Distribuzione doppia di

frequenza Tu.ua

Sesso variabili

2 contempo

Into il Liv. Istruz. M F

di u

nun Tabella a doppia entrata

stat Lic. Elem. 1 1 2

che o tabella di contingenza

Lic. Media 3 1 4

licenza

media e Maturità 0 1 1

maschi

sono Laurea 1 0 1 vello

pregai

istruzione

5 3 8 univariate varia

alla

riso

Di zone

isi

Tabella doppia

(frequenze assolute)

X: numero di figli; Y: condizione lavorativa centro

congiunte

area

Popolazione: donne in età fertile (Indagine INF/2 del 1995) margine

univariate

area

Occupata

Figli mai in passato adesso Totale

0 15 14 42 71

O_rioan

1 32 49 100 181 figlio

1

con

Frequenze

2 63 82 119 264 assolute

3 20 16 25 61

4 4 2 3 9

5 0 0 1 1

Totale 134 163 290 587

la

mai

r.oome a X

587

63

dame

gli

ali

dame con

n'di campione

occupate

mai

E 1100

Tabella doppia

(frequenze percentuali totali)

X: numero di figli; Y: condizione lavorativa

Popolazione: donne in età fertile (Indagine INF/2 del 1995)

Occupata

Figli mai in passato adesso Totale

0 2.6 2.4 7.2 12.1

1 5.5 8.3 17.0 30.8 Frequenze

2 10.7 14.0 20.3 45.0 percentuali totali

3 3.4 2.7 4.3 10.4

4 0.7 0.3 0.5 1.5

9

5 0.0 0.0 0.2 0.2

Totale 22.8 27.8 49.4 100.0

fa

107 ha

figli non

2 e 71

na na

na 10

Tabella doppia

(frequenze percentuali di colonna)

X: numero di figli; Y: condizione lavorativa

Popolazione: donne in età fertile (Indagine INF/2 del 1995) Frequenze

Occupata percentuali di

colonna

Figli mai in passato adesso Totale

0 11.2 8.6 14.5 12.1 Così si divide la

popolazione in 3

1 23.9 30.1 34.5 30.8 gruppi in base

2 47.0 50.3 41.0 45.0 alla condizione

3 14.9 9.8 8.6 10.4 lavorativa, e si

studia la

4 3.0 1.2 1.0 1.5 distribuzione del

5 0.0 0.0 0.3 0.2 numero di figli

Totale 100.0 100.0 100.0 100.0 separatamente

per ogni gruppo.

Tabella doppia

(frequenze percentuali di riga)

X: numero di figli; Y: condizione lavorativa

Popolazione: donne in età fertile (Indagine INF/2 del 1995) Frequenze

Occupata percentuali di riga

0

Figli mai in passato adesso Totale Così si divide la

popolazione in 6

0 21.1 19.7 59.2 100.0 gruppi in base

1 17.7 27.1 55.2 100.0 numero di figli, e

2 23.9 31.1 45.1 100.0 si studia la

distribuzione

3 32.8 26.2 41.0 100.0 della condizione

4 44.4 22.2 33.3 100.0 occupazionale

5 0.0 0.0 100.0 100.0 separatamente

per ogni gruppo.

Totale 22.8 27.8 49.4 100.0

2

con

dame

delle

23.97 lavorato

mai

ha

non

figli

Maschio tot

femm distrin

es della politico

orient

II

If

indip

Repubbe orientamento 25

tot maschi

politico

Ancora sulla matrice dei

dati: mancate risposte, dati

anomali, errori di misura

Cicchitelli-D'Urso-Minozzo sez. 2.6

Matrice dei dati: esempio

VARIABILI

Etichette di identificazione

STATISTICHE unità u id SESSO ETA' (a.c.) LIVISTR DIST(KM)

Andrea 1 M 28 2 5

Baccio 2 M 17 4 7.5

Claudia 3 F 20 3 12

Dario 4 M 32 2 3.2

Emilia 5 F 16 1 -

UNITÀ Franco 6 M 34 2 12.3

Gino 7 M 18 1 25

Helen 8 F 25 2 7.7

Modalità delle variabili

LIVISTR: livello di istruzione (1=Lic. Elem.,

Solitamente i nomi 2=Lic. Media, 3=Maturità, 4=Laurea)

vengono eliminati

(privacy) DIST(KM): distanza casa-lavoro in Km

Attenzione alla qualità dei dati

Prima di iniziare l’analisi occorre riflettere attentamente sulla qualità dei

dati (come è stato selezionato il campione? Vi sono mancate risposte? Vi

sono incoerenze?). Alcuni problemi possono essere individuati facilmente,

anche se la soluzione spesso non è ovvia.

unità u id SESSO ETA' (a.c.) LIVISTR DIST(KM)

Andrea 1 M 28 2 5 è

che

Baccio 2 M 17 4 7.5 ho bisogno

Claudia 3 F 20 3 12 da

di 2

Dario 4 M 32 2 3.2

Emilia 5 F 160 1 -

Franco 6 M 34 2 12.3

Gino 7 M 18 1 25

Helen 8 F 25 2 7.7

Emilia ha 160 anni? Baccio è già laureato a 17 anni? Dato mancante

(i due valori di Baccio presi separatamente sono (missing). Quale

plausibili, ma non la loro congiunzione) può essere il

motivo? non

che

essere

potrebbe da casa

lavoro

lavora p

e

e

Problemi con i dati

Arrotondamenti: es. la pressione arteriosa registrata con lo

sfigmomanometro presenta spesso valori come 60, 70, 80, e

raramente valori come 69 o 72.

Errori di inserimento dati (data entry): es. un 7 scambiato per

questionari

un 1, un 21 inserito come 210 etc. rari i

sono direttamente

ormai sono

inseriti online

Dichiarazioni non veritiere

Errori di misurazione

Dati mancanti

Avvertenza: dopo un breve cenno, nel resto del corso ignoreremo questi

problemi con i dati (la trattazione è rinviata a corsi successivi) 104

Dichiarazioni non veritiere

Talvolta le persone forniscono risposte deliberatamente errate con

l’intento di nascondere il vero valore, ad es. tasse

pagare

i redditi dichiarati sono inferiori a quelli effettivi x

le dipendenze (droghe, alcool, gioco) sono omesse o sottostimate

le opinioni sono talvolta espresse in modo da risultare conformi a

norme sociali (social desirability) o alle aspettative dell’intervistatore

c

desiderio se l’intervistato è poco coinvolto)

(specialmente

l'intervistatore

Alcuni ricercatori hanno analizzato i profili degli utenti di un sito web di incontri,

L scoprendo che le donne hanno la tendenza a dichiarare un peso inferiore a quello vero

e'intervistato

se

idee (nella fascia 40 49 anni il peso medio dichiarato è inferiore di 9 kg rispetto al peso

ntrocorrenti medio della popolazione) cfr. Hitsch, G. J., Hortacsu, A., & Ariely, D. (2005). What makes

passo

non

esprime

le you click: An empirical analysis of online dating (Working Paper).

Il tema delle bugie è analizzato da Seth Stephens Davidowitz nel libro Everybody lies on

the Internet (tradotto in italiano con il titolo La macchina della verità): ad esempio, in

merito al razzismo le opinioni espresse in modo anonimo scrivendo nella barra di ricerca

di Google sono molto diverse da quelle espresse nei sondaggi tradizionali. 105

Errori di misurazione

Il valore rilevato può essere diverso dal valore vero a causa

dell’errore di misurazione dello strumento. Alcuni esempi:

strumenti fisici per misurare quantità come il livello di

colesterolo nel sangue, la concentrazione di anidride

carbonica nell’aria, la velocità di un’automobile …

test psicometrici per valutare il quoziente intellettivo o il

benessere psico fisico

questionari di rilevazione, quando l’intervistato deve

esprimere un’opinione o effettuare una stima (es. quanto

alcool ha assunto nell’ultima settimana)

Ridurre gli errori di misurazione

Nelle indagini con questionari gli errori di misurazione possono

essere ridotti grazie ad una serie di accorgimenti in fase di

pianificazione:

Formulare con attenzione le domande coinvolgendo un

esperto di settore (economista, medico, psicologo …)

Testare le domande su alcuni soggetti (studio pilota)

Garantire l’anonimato delle risposte

Minimizzare il carico di lavoro dell’intervistato (keep it simple!)

Motivare gli intervistati (spiegando le finalità dell’indagine,

fornendo un feedback …)

Dati mancanti

I dati sono spesso incompleti, in particolare quelli derivanti da interviste (es.

l’intervistato non ha risposto ad una domanda, il paziente non si è presentato

ad una visita). Oppure lo strumento si è temporaneamente guastato, es. la

centralina che rileva le particelle inquinanti si è bloccata per alcune ore.

Mancanza totale: l’unità statistica non è stata

rilevata e quindi sono mancanti i valori di tutte le

variabili (es. l’individuo rifiuta di partecipare mancano

id X Y Z pochi

all’indagine) il campione può essere distorto prati

1 10 50 200

2 20 . 160

Mancanza parziale: l’unità statistica è stata mancanza

3 20 40 .

rilevata, ma sono mancanti i valori per alcune parziale

4 30 . .

variabili (es. l’individuo partecipa all’indagine, ma 5 . 60 210

non risponde ad alcune domane) l’analisi delle mancanza

6 . . . totale

variabili affette da valori mancanti può portare a

risultati distorti dati

molti

mancano

D.J. Hand in «Il tradimento dei numeri» presenta molti esempi di dati mancanti (chiamandoli dark

data), mostrando che ignorare l’esistenza di dati mancanti può portare a conclusioni del tutto errate 108

Perché il valore è mancante?

Per capire se i valori mancanti possono provocare distorsione è

necessario indagare le cause della mancanza:

Strutturali: il dato è necessariamente mancante, es. l’individuo

disoccupato non può (e non deve!) rispondere ai quesiti sul tipo

non

di lavoro svolto nessuna distorsione rispondere

il

è necessario

Non strutturali: il dato doveva essere presente, invece manca

• per motivi accidentali (es. il paziente non si è presentato alla visita

a causa di uno sciopero dei trasporti) nessuna distorsione

a

(naturalmente c’è una perdita di precisione a causa della è

poiché ciò

da

selciato

riduzione del numero di risposte) analizzando

sto

che

• per motivi legati al dato stesso (es. il paziente non si è presentato

visita perché stava male a causa della terapia sperimentale a

alla

cui era sottoposto) distorsione 109

Distorsione da dati mancanti

I dati mancanti «strutturali» ovviamente non sono un problema,

invece i «non strutturali» …

• riducon

Dettagli
A.A. 2022-2023
60 pagine
SSD Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher Martinafrosali di informazioni apprese con la frequenza delle lezioni di Statistica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Firenze o del prof Grilli Leonardo.