Che materia stai cercando?

Statistica - Appunti Appunti scolastici Premium

Appunti di Statistica per l’esame del professor Ghellini. Gli argomenti trattati sono i seguenti: statistica sociale come metodo per la ricerca sociale empirica: concetti generali e definizioni di base, fasi del processo della ricerca sociale, alcune definizioni di base.

Esame di Statistica docente Prof. G. Ghellini

Anteprima

ESTRATTO DOCUMENTO

STS.Cap 1/ 24

La mediana in realtà è un particolare quantile della distribuzione. I quantili più importanti sono i quartili che dividono in quattro parti la distribuzione, i decili

che la dividono in dieci parti ed i percentili che la dividono in cento parti.

Parlando dei quartili (le considerazioni possono poi essere generalizzate agli altri quantici), mettiamo in evidenza che:

Il primo quartile (Q ) sarà quel valore che lascia a sinistra il 25% della distribuzione e a destra il restante 75%

1

Il secondo quartile(Q ) corrisponderà alla mediana in quanto lascerà a destra e a sinistra il 50%

2

Il terzo quartile (Q ), sarà invece quel valore per cui avremo a sinistra il 75% e a destra il 25%;

3

Infine, il quarto quartile (Q ), coinciderà con il valore più elevato della distribuzione.

4

Tab. Distribuzione di frequenza per titolo di studio

titolo studio frequenza Cumulata posizioni

Analfabeti 23 23 1-23

lic. Elementare 180 203 24-203

lic. media inf. 140 343 204-343

qualif. media sup 27 370 344-370

diploma media sup 80 450 371-450

Laurea 25 475 451-475

specializzazione L. 10 485 476-485

Ovviamente, a seconda delle esigenze possiamo costruirci i quantili (decili, ventili, centili ecc.) con una suddivisione in qualsivoglia numero di classi di

ampiezza uguale.

Il calcolo dei vari quantili è analogo a quello per il calcolo della mediana, dividendo la numerosità totale, invece che per due, per il numero di classi che sono

individuate (10 per i decili, 100 per i centili, ecc.).

Ad esempio, per i decili il primo decile sarà dato dal valore corrispondente alla posizione n/10, il secondo dalla posizione 2*n/10, …………. il quinto da 5*n/10

(=n/2=Mediana), …..il decimo da 10*n/10 (=n).

Sintesi statistiche per variabili su scala ad intervallo e a rapporto

Le variabili a scala ad intervallo, oltre alle proprietà delle scale inferiori, permettono di determinare l’esatta distanza tra i valori che la compongono, ovvero

effettuare sui dati operazioni algebriche di somma e di sottrazione. Siamo in grado di individuare quale distanza esiste tra un valore e l’altro e possiamo quindi

confrontare le loro differenze STS.Cap 1/ 25

Hanno cioè la seguente proprietà: a-b= c-d, a-c=b-d,

ovvero a+d=b+c.

Se è anche possibile individuare uno zero assoluto o non arbitrario allora si parla di scala a rapporti in quanto possiamo confrontare diversi punteggi

calcolandone il rapporto.

Le variabili intervallo (o a rapporti) raggruppate in classi

Molto spesso l’eccessiva frammentazione delle modalità di risposta (possono essere continue o discrete), rende poco interessante avere distribuzioni di frequenza

sulle variabili originarie; allora si procede al raggruppamento in classi delle varie modalità.

Raggruppare in classi implica la perdita delle proprietà proprie delle scala ad intervallo, riportando così la variabile raggruppata ad una scala inferiore (ordinale,

anche se un pò più raffinata).

La scelta di raggruppare in classi nasce dall’esigenza di poter rappresentare con una distribuzione di frequenza dati che di fatto si presentano sparsi (percentuale

di elettori per seggio elettorale, reddito pro capite delle famiglie), ed abbiamo invece l’esigenza di riassumere la situazione emersa dalla rilevazione in modo

sintetico.

Quando si raggruppa una variabile in classi perdiamo sempre informazione, ciò che è necessario tenere presente è cercare di minimizzare la perdita di visione

d’insieme del fenomeno.

Esempio: sia data la distribuzione di frequenza dell’altezza per i primi 10 studenti frequentanti il corso di statistica, la distribuzione è la seguente:

164 165 166 167 168 169 170 171 172 173 174 175

2 2 1 0 1 0 0 1 1 1 0 1

E’ possibile diminuire il numero delle modalità aggregando le modalità stesse in classi. Il numero delle classi e la loro definizione possono essere scelti

arbitrariamente, ma esistono metodi più o meno buoni. Un requisito fondamentale è che ogni modalità deve appartenere ad un solo intervallo.

Per fornire un’idea sintetica sulla costruzione delle classi è utile leggere i seguenti quesiti e le relative risposte:

Come si formano le classi per caratteri continui?

 Si costruiscono delle successioni di intervalli in modo che ogni unità possa essere attribuita a uno ed un solo intervallo.

Come possono essere le classi?

 Intervalli contenenti entrambi gli estremi, es. [164,170]

 Intervalli contenenti un solo estremo, es. [164,170) è una classe chiusa a sinistra e aperta a destra

 Che cos’è l’ampiezza di classe?

 E’ la lunghezza dell’intervallo che definisce la classe, se l’intervallo è nella forma (a,b] o [a,b), l’ampiezza è b-a; se l’intervallo è nella forma [a,b]

l’ampiezza è b-a+1.

Come si determina il numero di classi?

 Non esistono regole univoche, i criteri più comunemente usati sono:

Classi equi ampie, si suddivide l’intervallo di definizione della variabile in intervalli di uguale ampiezza (il problema si verifica quando nella distribuzione

si presentano valori anomali). In pratica, individuato il campo di variazione e il numero di classi si fa un rapporto tra le due grandezze che individua

l’ampiezza della classe. STS.Cap 1/ 26

Classi equi frequenti, si determinano gli estremi delle classi in modo che ognuna abbia frequenze assolute o relative costanti. In pratica si divide il totale

per il numero di classi e si individua l’ampiezza della classe.

Le frequenze di classi di ampiezze diverse si possono confrontare?

 Direttamente no, solo dopo aver eliminato l’effetto della diversa ampiezza.

Come si elimina l’effetto della diversa ampiezza?

Si divide la frequenza della classe per l’ampiezza della classe, in questo modo si calcola la frequenza per unità di misura della classe cioè la densità di

frequenza.

Esempio: Si confrontino le frequenze della seguente distribuzione per età:

Età frequenze assolute

0 - 10 10

10-20 10

20-40 20

40-60 30

60-100 30

Tot. 100

E’ possibile confrontare solo le frequenze assolute costruite relativamente a classi omogenee, quindi si calcolano le densità di frequenza (si noti che le singole

classi sono aperte a destra):

Età Freq.Assoluta ampiezza densità

0 -10 10 10 1.00

10-20 10 10 1.00

20-40 20 20 1.00

40-60 30 20 1.50

60-100 30 40 0.75

L’interpretazione è la seguente: la classe con maggiore densità è la classe [40-60), con densità pari a 1.5 (una unità statistica e mezzo per singolo anno di età).

E’ comunque buona norma utilizzare il buon senso per scegliere la dimensione delle classi, aiutati da alcune indicazioni oggettive (distribuzione dei casi singoli,

quartili, decili, ecc) e dalla numerosità complessiva osservata (evitare di creare classi con un numero troppo piccolo di casi)

Per quanto concerne le misure di sintesi su tali caratteri, è ovviamente possibile fare tutto ciò che è applicabile a caratteri su scala ordinale, inoltre si possono

determinare alcune altre misure.

Misure di tendenza centrale: la media aritmetica

La media aritmetica è la quantità che, sostituita a ciascuna modalità della distribuzione non ne altera la somma.

Sia X una variabile quantitativa qualsiasi (su scala a intervallo o rapporto) e siano x , x ,….x , le osservazioni rilevate sulle n unità statistiche esaminate (ogni

1 2 n

modalità è presente con frequenza pari a 1, cioè consideriamo una distribuzione unitaria). La media aritmetica delle misure x , x ,….x è:

1 2 n

n

∑ x i

=1

i

=

x n STS.Cap 1/ 27

Due proprietà:

1. è il valore che rappresenta l’equidistribuzione

2. la somma degli scarti dei singoli valori da essa è sempre uguale a 0.

n

∑ − =

( x x ) 0

i

=1

i

che è facilmente dimostrabile scomponendo la sommatoria

n n

∑ ∑ ∑

− = −

x x x nx

i i

= =

i 1 i 1

Un altra proprietà importante è che

n

∑ − =

( x x ) min

2

i

=1

i

Questa proprietà è importante quando vedremo le misure di variabilità.

Esempio di calcolo: un infermiere ha fatto nell’anno 1982 ore di lavoro straordinario così distribuite nei mesi (gennaio…dicembre):

10, 12, 11, 5, 7, 10, 5, 0, 7, 10, 7, 12

Si vuole conoscere il numero medio mensile di ore di straordinario.

Media=(10+12+11+5+7+10+5+0+7+10+7+12)/12=96/12=8

Quindi, in media, ha fatto 8 ore di straordinario al mese.

Per impostare il calcolo della media, avremmo potuto adottare anche un’altra strategia, cioé scrivere la distribuzione sotto forma di distribuzione di frequenza:

ore freq.ass.( n )

h

0 1

5 2

6 3

10 3

11 1

12 2

totale 12

avremmo ottenuto esattamente lo stesso valore medio moltiplicando ogni modalità del carattere per la rispettiva frequenza assoluta e dividendo per la somma

delle frequenze nel seguente modo

media=(0*1+5*2+6*3+10*3+11*1+12*2)/12=96/12=8

La regola appena applicata è quella del calcolo della media ponderata STS.Cap 1/ 28

Infatti per calcolare i valori medi di una distribuzione di frequenza dobbiamo ricorrere alle cosiddette medie ponderate, ovvero ogni valore di x (h=1….H, dove

h

H rappresenta il numero di modalità della distribuzione di frequenza di X) dovrà essere moltiplicato per la sua frequenza relativa w ; in formula:

h

H

∑ x n

h h H n

∑ ∑

µ = = =

= h

x x w

h 1 h h h

n n

=

h 1

Esempio: un collettivo di famiglie è classificato secondo il numero dei figli; trovare il numero medio di figli per le famiglie considerate:

N.figli N. famiglie Freq relativa

0 10 0.125

1 40 0.5

2 30 0.375

applicando il calcolo si ottiene una media di 1.25 figli.

Per calcolare i valori medi di variabili di cui abbiamo solo la distribuzione per intervalli, dobbiamo fare l’ipotesi (alle volte poco verosimile), che in ogni classe i

dati siano equidistribuiti; quindi prendiamo il valore centrale della classe come valore di x .

i

Tabella: classi di reddito per una collettività di famiglie

Classi h valore centrale (x ) frequenza x n

h h h

2.000-2.900 1 2.450 17 41.650

3.000-3.900 2 3.450 26 89.700

4.000-4.900 3 4.450 38 169.100

5.000-5.900 4 5.450 51 277.950

6.000-6.900 5 6.450 36 232.200

7.000-7.900 6 7.450 21 156.450

Totale 189 967.050

H

∑ x n

h h 967

.

050

= = =

=

h 1

x 5

.

117

n 189

Rappresentazioni grafiche

Risulta particolarmente adatto il sistema delle coordinate cartesiane.

Diagramma cartesiano ad aste (o bastoncini o segmenti): utile per rappresentare una distribuzione secondo un carattere quantitativo discreto

STS.Cap 1/ 29

Distribuzione per numero di componenti

della famiglia

35

assolute 30

25

20

frequenze 15

10

5

0 1 2 3 4 5

componenti

Diagramma cartesiano: particolarmente utile per rappresentare l’andamento nel tempo di un fenomeno; si riporta il tempo in ascissa ed in ordinata

l’ammontare del fenomeno.

Esempio: Autovetture ogni 1000 abitanti (1951-1993)

600

500

400

300

200

100

0

51 54 57 60 63 66 69 72 75 78 81 84 87 90 93

19 19 19 19

19 19 19 19 19 19 19 19 19 19 19

Istogrammi: Gli istogrammi sono rappresentazioni grafiche delle densità delle classi di una distribuzione continua raggruppata in classi.

L’istogramma definisce una successione di rettangoli contigui di base pari all’ampiezza di classe ed altezza pari alla densità di frequenza (data dal

rapporto tra la frequenza della classe e l’ampiezza della classe stessa). L’area del rettangolo è pari alla frequenza della classe.

Due frequenze uguali sono rappresentate da rettangoli aventi uguale area.

Un breve riepilogo sugli indici di posizione: STS.Cap 1/ 30

Indice di posizione Carattere con cui inizia la validità dell’ indice

Media Aritmetica Quantitativo

Mediana Qualitativo ordinato

Moda Qualitativo sconnesso

La tabella vuole significare che:

• la moda può essere calcolata per qualsiasi tipo di carattere

• la mediana può essere calcolata solo se il carattere è almeno qualitativo ordinale

• la media aritmetica può essere calcolata solo se il carattere è quantitativo

3.2. Le Misure di variabilità

Il trattamento della variabilità, ovvero dell’inevitabile fluttuazione dei fenomeni naturali, fisici, sociali ecc, può essere considerato come il compito centrale della

Statistica.

Di fatto la conoscenza di misure di tendenza centrale (la media), è poca cosa se confrontata all’aggiunta di informazione data da una misura di variabilità.

La famosa frase di Trilussa sui polli e la statistica è molto istruttiva al riguardo

Da li conti che se fanno

seconno le statistiche d’adesso

risurta che te tocca un pollo all’anno;

e se nun c’entra ne le spese tue

entra ne la statistica lo stesso

perché c’è un altro che ne magna due. (Trilussa)

Il valore di una media se non è accompagnato da una misura di variabilità è poco informativo. Come possiamo misurarla.

Il campo di variazione

E’ la più semplice ed è data dalla differenza tra il valore minimo e quello massimo

Range(X)= max(X)-min(X)

Risente dei casi anomali della distribuzione

Se abbiamo dati raggruppati il campo di variazione si misura tra i valori centrali delle classi estreme

La differenza interquartile

E’ simile al campo di variazione ma fa riferimento alla distanza tra il 1° e il 3° quartile. STS.Cap 1/ 31

Q Q

3 1

=

Q 2

Dal momento che Q e Q variano meno da collettivo a collettivo di quanto non facciano i casi estremi, la differenza interquartile è più stabile del campo di

1 3

variazione

Anche in questo caso però non prendiamo in considerazione tutte le informazioni e quindi non consideriamo la variabilità complessiva

Lo scarto quadratico medio

E’ certamente la misura di variabilità più importante ed usata e prende in considerazione tutte le informazioni

E’ definito come la radice quadrata della media aritmetica dei quadrati degli scarti dei valori dalla media

n

∑ − 2

( x x )

i

σ = =

i 1 n

Esempio

x (x -media) (x -media)

2

i i i

72 -1 1

81 8 64

86 13 169

69 -4 16

73 0 0

57 -16 256

Media=73 0 506

σ=√506/6 =√84,33=9,18

Tanto più i valori sono sparsi su di un intervallo molto ampio di valori, più aumenterà lo scarto quadratico medio; i casi estremi hanno molto peso perchè

usiamo i quadrati.

E’ una misura che dipende dall’ordine di grandezza della variabile che osserviamo

Si fa la radice quadrata per avere una misura comparabile con la media.

Un’altra misura utilizzata è la varianza che non è altro che il quadrato dello scarto quadratico medio STS.Cap 1/ 32

n

∑ − 2

( x x )

i

σ =

2 =

i 1 n

Per calcolare la varianza, e quindi lo scarto quadratico medio, si possono utilizzare formule semplificate che non richiedono di calcolare gli scarti dalla media;

infatti ∑ 2

x

σ = −

i

2 2

x

n

∑ 2

x

σ = −

i 2

x

n

Ovviamente se abbiamo i dati sotto forma di una distribuzione di frequenza dovremo procedere alla ponderazione degli scarti, in analogia di quanto fatto per le

medie H

∑ − 2

n ( x x )

h h

σ = =

h 1 n

Il coefficiente di variazione

Si tratta di una misura standardizzata, utile per confrontare la variabilità di campioni con medie diverse. Il coefficiente di variazione è dato dal rapporto tra lo

scarto quadratico medio e la media aritmetica della distribuzione

σ/µ

CV=

Esempi classici in cui viene usato CV sono: variabilità della distribuzione per età tra le varie regioni, distribuzione dei redditi per nazioni o per anno, variabilità

del peso rispetto al sesso, la variabilità nei flussi orari di traffico nei vari giorni della settimana (i flussi medi sono molto diversi nei vari giorni della settimana),

ecc.

Da ricordare che il CV non è definito per caratteri con valor medio negativo perché non è possibile interpretare una variabilità negativa.

Esempio: stabilire se è più variabile la distribuzione del peso dei bambini alla nascita o la distribuzione del peso delle relative madri al parto. Indichiamo con x il

peso dei bambini e con y il peso delle madri.

x y x-media y-media (x-µx)^2 (y-µy)^2

2.80 62.00 -0.40 -3.60 0.16 12.96

3.00 65.00 -0.20 -0.60 0.04 0.36

3.50 63.00 0.30 -2.60 0.09 6.76

4.20 70.00 1.00 4.40 1.00 19.36 STS.Cap 1/ 33

2.50 68.00 -0.70 2.40 0.49 5.76

16.00 328.00 0.00 0.00 1.78 45.20

µx=3.2 σx=0.5967 CVx=σx/µx=0.1864

µy=65.6 σy=3.0067 CVy=σy/µy=0.0458

σ σ

Osservando x e y si potrebbe dire, sbagliando, che il peso delle madri è più variabile del peso dei figli. L’errore di valutazione sarebbe dovuto al fatto che lo

scostamento quadratico medio dipende dalla media delle distribuzioni, essendo molto diverso il peso medio delle madri dal peso medio dei figli non possiamo

metterli a confronto tramite il valore dello scarto quadratico medio (o della varianza) si deve ricorrere al coefficiente di variazione. Proprio osservando il

coefficiente di variazione si deduce che la distribuzione del peso dei figli è molto più variabile di quella delle madri.

4. ANALISI BIVARIATA

4.1 Concetti di base

Fino ad ora abbiamo ragionato in termini di analisi univariata, ovvero metodi che prendono in considerazione una variabile alla volta.

Generalmente il ricercatore raccoglie informazioni su un ampio ventaglio di caratteristiche delle unità che fanno parte del campione e questo, sia per motivi

economici che scientifici.

Se l’analisi riguarda più di due variabili congiuntamente, si parla di statistica multivariata, ma nel nostro caso ci limitiamo all’analisi congiunta di due variabili

bivariata

statistica

In queste lezioni ci limiteremo a studiare metodi di analisi bivariata per variabili categoriali (sia nominali che ordinali).

L’analisi statistica, in questo caso si basa innanzi tutto sull’esame di distribuzioni di frequenza congiunte (o tabelle a doppia entrata).

In una tabella a doppia entrata si collocano due variabili, una in riga X (variabile di riga) ed una in colonna Y (variabile di colonna) e nelle celle, definite

dall’incrocio fra le righe e le colonne, il numero di casi che presentano le corrispondenti modalità delle due variabili (frequenze).

X/Y 1 2 ....h..... .......... H totali di riga

Σ n =n

1 n n ... n ......... n h 1h 1.

11 12 1h 1H Σ n =n

n n ... n ......... n h 2h 2.

21 22 2h 2H

2

. . STS.Cap 1/ 34

Σ n =n

. . h kh k.

k n n ... n ......... n

k1 k2 kh kH

. .

. . Σ n =n

K n n ... n ......... n h Kh n.

K1 K2 Kh KH

Totali di colonna Σ Σ Σ Σ Σ Σ

n =n n =n n =n n =n n =n

.........

k k1 .1 k k2 .2 k kh .h k kH .H k h kh ..

Ad esempio, da un’indagine su 102 giovani tra i 25 e i 35 anni otteniamo i risultati presentati nella seguente tabella:

Tabella: Giovani in età compresa tra 25 e 35 anni per titolo di studio e condizione lavorativa (frequenze assolute)

titolo di studio condizione lavorativa

occupato in cerca occup. non attivo totale

Basso 18 7 12 37

Medio 25 4 1 30

Alto 21 1 13 35

Totale 64 12 26 102

In grigio troviamo le distribuzioni marginali che permettono l’analisi delle due variabili separatamente.

Le distribuzioni condizionate sono le distribuzioni di un carattere dato che per l’altro si è fissato una determinata modalità. Quindi, la distribuzione

condizionata dalla variabile “Condizione Lavorativa”, dato che il “Titolo di Studio” è Alto è la seguente:

Condizione lavorativa Frequenza condizionata

occupato 21

In cerca di occupazione 1

Non attivo 13

Totale 35

Analogamente, la distribuzione condizionata dalla variabile “Condizione Lavorativa”, dato che il “Titolo di Studio” è Medio è la seguente:

STS.Cap 1/ 35

Condizione lavorativa Frequenza condizionata

occupato 25

In cerca di occupazione 4

Non attivo 1

Totale 30

Il termine condizionate ha origine dal fatto che calcoliamo la distribuzione condizionatamente al fatto che la riga/colonna assuma una data modalità

Le distribuzioni condizionate, non possono essere confrontate tra loro perché si riferiscono a totali marginali diversi, quindi per avere la possibilità di confrontare

distribuzioni, ancora una volta si ricorre alle distribuzioni percentuali.

4.2 Distribuzioni percentuali

Indichiamo con k la generica modalità della variabile di riga e con h la generica modalità della variabile di colonna. Allora:

Percentuali marginali di riga 100*n /n;

k.

Percentuali marginali di colonna 100*n /n;

.h

Percentuali condizionate di riga 100*n /n ;

kh k.

Percentuali condizionate di colonna 100*n /n ;

kh .h

Percentuali di cella (sul totale) 100*n /n

kh

Tabella: Giovani in età compresa tra 25 e 35 anni per titolo di studio e condizione lavorativa (% di riga e % marginale di colonna)

titolo di studio condizione lavorativa

occupato in cerca occ. non attivo totale

basso 48,6 32,4 100,0

18,9

medio 13,3 3,3 100,0

83,3

alto 60,0 2,9 100,0

37,1

totale 62,7 11,8 25,5 100,0

ci permettono, ad esempio di vedere se il titolo di studio posseduto ha influenza sulla condizione lavorativa ovvero si possono confrontare le distribuzioni

condizionate avendo posto pari a 100 le unità per ogni titolo di studio. Ad esempio, le persone in cerca di occupazione sono relativamente di più tra coloro in

STS.Cap 1/ 36

possesso di un basso titolo di studio, gli occupati sono relativamente più frequenti tra i titoli di studio medi, mentre i non attivi sono relativamente di più per

titoli di studio elevati.

Calcoliamo adesso le percentuali di colonna:

Tabella: Giovanni in età compresa tra 25 e 35 anni per titolo di studio e condizione lavorativa (% di colonna e % marginale di riga)

titolo di studio condizione lavorativa

occupato in cerca occ. non attivo totale

basso 28,1 46,2 36,7

58,3

medio 39,1 33,3 29,4

3,9

alto 32,8 8,3 50,0 34,3

totale 100,0 100,0 100,0 100,0

ci permette di analizzare se essere in una determinata condizione occupazionale incide sul titolo di studio posseduto (o meglio se avere un’indicazione sulla

condizione occupazionale ci aiuta ad avere un’indicazione sul titolo di studio posseduto dall’individuo). Ad esempio: i titoli di studio bassi sono più frequenti tra

le persone in cerca di occupazione, mentre i titoli di studio medi sono quasi assenti tra gli inattivi.

4.3 Matrici di transizione

Un altro caso interessante di uso di tabelle a doppia entrata è quello relativo alla costruzione di quelle che vengono usualmente chiamate matrici di transizione,

ovvero tabelle dove le unità statistiche vengono classificate rispetto ad una medesima variabile (X) in due diversi istanti di tempo (t, t+1)

t/t+1 1 2 ....j..... .......... n totali di riga

Σ n =n

1 n n ... n ......... n j 1j 1.

11 12 1j 1n Σ n =n

2 n n ... n ......... n j 2j 2.

21 22 2j 2n

. .

. . Σ n =n

i n n ... n ......... n j ij i.

i1 i2 ij in

. .

. .

. STS.Cap 1/ 37

Σ n =n

n n n ... n ......... n j nj n.

n1 n2 nj nn

Totali di colonna Σ Σ Σ Σ Σ Σ

n =n n =n n =n n =n n =n

.........

i i1 .1 i i2 .2 i ij .j i in .n i j ij ..

In questo caso i totali non sono altro che le distribuzioni marginali della variabile X al tempo t e al tempo t+1.

Inoltre, le distribuzioni condizionate di riga e di colonna assumono un significato particolare e di rilevante interesse analitico.

Le condizionate di riga sono di fatto una approsimazione della probabilità di transizione dallo stato i a quello j nel periodo di tempo che intercorre tra t e t+1.

Le condizionate di colonna, invece, sono una approsimazione della probabilità di esser al tempo t+1 nello stato j, provenendo (al tempo t) dallo stato i.

In questo caso è interessante anche l’interpretazione del valore n che rappresenta la permanenza in un dato stato tra i due istanti temporali considerati.

ii

4.4 Studio della mobilità

Un tipico esempio è rappresentato dalle matrici di transizione di una popolazione rispetto al lavoro, ad esempio da un anno all’altro.

condizione lavorativa (1995) condizione lavorativa

(1996)

occupato in cerca occ. non attivo totale

occupato 180 22 18 220

cerca occu. 10 30 15 55

non attivo 25 30 170 225

totale 215 82 203 500

Possiamo calcolare le percentuali di riga (marginali di colonna e condizionate di riga)

condizione lavorativa (1995) condizione lavorativa

(1996)

occupato in cerca occ. non attivo totale

occupato 81,8 10.0 8,2 100.0

cerca occu. 18,2 54,5 27,3 100.0

non attivo 11,1 13,3 75,6 100.0 STS.Cap 1/ 38

totale 43.0 16,4 40,6 100.0

e le percentuali di colonna (marginali di riga e condizionate di colonna)

condizione lavorativa (t) condizione lavorativa

(t+1)

occupato in cerca occ. non attivo totale

occupato 83,7 26,8 8,9 44,0

cerca occu. 4,7 36,6 7,4 11,0

non attivo 11,6 36,6 83,7 45,0

totale 100.0 100.0 100.0 100.0

Nelle tabelle a doppia entrata, oltre a valutazioni di confronto tra distribuzioni marginali e condizionate siamo interessati a valutare se tali differenze possono

essere imputate al caso o se esiste un associazione (connessione) tra le variabili.

5. Metodi d’indagine per lo studio dell’opinione pubblica

5.1 Premessa

Le indagini campionarie e i sondaggi (traduzione un po' imprecisa del termine inglese survey) sono uno strumento fondamentale di conoscenza per tutte le

scienze: non solo quelle propriamente scientifiche, ma anche per quelle sociali (economia, sociologia, psicologia), e per quelle politiche (programmazione e

valutazione di politiche di walfare, educative ecc.)

Nonostante il termine indagine assuma una varietà di significati nel nostro contesto consideriamo quelle con le seguenti caratteristiche:

1. devono produrre statistiche, ovvero descrizioni numeriche o quantitative di alcuni aspetti della popolazione sotto studio

2. le informazioni raccolte provengono dalle risposte fornite a quesiti specifici

3. usualmente tali informazioni sono rilevate solo su una parte della popolazione (campione), piuttosto che su ogni unità della popolazione.

STS.Cap 1/ 39

Escludiamo quindi dalla nostra analisi il Censimento della Popolazione (che per Legge in Italia si svolge ogni dieci anni), che è ovviamente un indagine nel

senso sopra descritto ai punti 1 e 2, anche se svolta sull’intera popolazione (serve per conoscere la popolazione legale, ma anche per raccogliere altre importanti

caratteristiche della popolazione).

La necessità di conoscenza richiede però informazioni più precise e tempestive sulle caratteristiche, le trasformazioni, gli atteggiamenti ecc. che

attraversano/caratterizzano una realtà sociale.

A tal fine (anni 30 in America) hanno preso piede indagini tematiche per lo studio di aspetti specifici (sondaggi di opinione per i mezzi

d’informazione, indagini di mercato, sondaggi sulle opinioni politiche per definire programmi e candidati).

Inoltre a partire dal dopoguerra anche nella statistica ufficiale si sono venute affermando le indagini campionarie propriamente dette, per lo studio di rilevanti

fenomeni sociali e d economici quali:

• le condizioni lavorative,

• la distribuzione dei redditi e dei consumi,

• lo stato di salute,

• la criminalità

• ecc.

Più recentemente hanno inoltre preso piede indagini multipourpose (multiscopo).

Vantaggi minori occasioni di contatto, minori costi;

Svantaggi/rischi maggior vaghezza dei quesiti, più superficialità nelle risposte

I vantaggi delle indagini campionarie

I vantaggi delle informazioni derivanti da un’indagine campionaria “ben condotta” sono i seguenti:

1. la scelta corretta di un “campione probabilistico” permette di misurare l’attendibilità delle informazioni raccolte, in quanto il campione, a meno di errori

predefinibili, rappresenta probabilisticamente la popolazione

2. avere a disposizione informazioni e misure consistenti (ottenute nello stesso modo) per tutto il campione, permette una corretta comparabilità delle stesse

3. aver definito l’obiettivo dell’indagine permette di mettere a punto una raccolta di informazioni completa (o perlomeno ritenuta tale dal ricercatore) di dati

sull’argomento permettendo uno studio delle interrelazioni esistenti tra gli stessi.

Ad esempio se siamo interessati a studiare l’opinione dei cittadini toscani sulle cosiddette “elezioni padane” dovremmo fare uno sforzo concettuale per

individuare quelli caratteristiche e/o quali comportamenti possono essere rilevanti nel definire le opinioni stesse:

• regione di nascita

• età

• istruzione

• attività lavorativa

• atteggiamenti sulla tolleranza

• atteggiamenti sull’emigrazione

• disponibilità verso il diverso

• ecc. STS.Cap 1/ 40

5.2 Le indagini campionarie

La capacità di un campione di rappresentare correttamente una popolazione dipende essenzialmente da tre aspetti:

1. la lista disponibile per la selezione del campione,

2. la dimensione del campione,

3. la procedura di selezione del campione.

Le indagini campionarie, ovviamente, servono nel momento in cui desideriamo avere informazioni estendibili ad una popolazione, e non solo spunti conoscitivi

o interpretativi di una data realtà, informazioni quindi che possono essere successivamente trattate con metodi statistici appropriati.

Come valutare e scegliere un campione

Per valutare un campione noi non dobbiamo tanto affidarci al risultato dell’analisi sul campione stesso, ma piuttosto esaminare approfonditamente il processo

che porta alla sua determinazione

Pertanto:

• un campione potrà essere rappresentativo solo della popolazione che costituisce la lista dal quale il campione è stato selezionato (lista di campionamento –

frame-). La lista di campionamento è quella lista di unità che hanno una definita probabilità di essere estratte.

• devono essere usate procedure di campionamento probabilistiche, ovvero ogni unità della lista di campionamento deve avere una probabilità nota di essere

inserita nel campione (requisito necessario per un uso statistico delle informazioni raccolte)

• il modo in cui si sceglie di estrarre la singola unità influenza direttamente la precisione delle stime ovvero le diverse tecniche di campionamento influenzano

la precisione delle stime

A questo riguardo è bene precisare che da un campione probabilistico si ottengono stime dei veri valori da cui è possibile definire quelli che vengono chiamati

gli intervalli di confidenza, ovvero gli intervalli entro cui è possibile affermare che cadranno i veri valori della popolazione ad una definito livello di

probabilità.

Riguardo alla lista di campionamento tre caratteristiche devono essere tenute sotto particolare controllo: STS.Cap 1/ 41

1. La sua completezza: è quindi importante avere chiaro quali selezioni possono essere state operate (o sono presenti) su una popolazione oggetto di studio

(popolazione di riferimento), per arrivare alla lista di campionamento disponibile, perché questo ha conseguenze dirette sulla rappresentatività del campione

(elenchi telefonici, liste elettorali, ecc.).

⇒ importanza di definire con precisione la popolazione obiettivo del sondaggio

2. La conoscenza della probabilità di selezione: non è necessario che tutte le unità della lista abbiano la stessa probabilità di estrazione, ma è necessario

conoscerla.

3. L’efficienza della lista: in alcuni casi nella lista possono essere presenti unità che non sono di diretto interesse per la ricerca

Un campione si dice probabilistico quando ogni unità che lo compone viene estratta con una probabilità nota e diversa da zero. Tali campioni si distinguono in

due grandi famiglie:

1. campioni ad uno stadio

: quelli in cui avviene una sola estrazione di unità campionarie e queste corrispondono alle unità statistica che siamo interessati a

studiare;

2. campioni a due o più stadi : tutte quelle forme di campionamento in cui avvengono almeno due estrazioni di unità campionarie, gerarchicamente ordinabili

(regioni, comuni, famiglie, individui ad esempio), di cui solo l’ultima rappresenta l’unità statistica di interesse per l’indagine.

I primi sono più semplici da trattare in fase elaborativa, in quanto la determinazione della probabilità di inclusione nel campione dipende da un’unica estrazione,

spesso sono più efficienti (hanno un grado di rappresentatività migliore -ovvero permettono di definire intervalli di confidenza più stretti - a parità di numerosità

campionaria n), anche se generalmente sono più costosi.

I secondi hanno una maggiore complessità di elaborazione, spesso sono meno efficienti; nonostante ciò sono molto usati per motivi organizzativi e di costo, in

particolare per indagini mediante intervista diretta. STS.Cap 1/ 42

Ad accompagnare l’esecuzione di una qualsivoglia indagine campionaria è quindi un processo di mediazione tra virtù attese (in termini statistici) e di vizi reali

(in termini pratici) che accompagnano l’esecuzione di una qualsivoglia indagine campionaria. STS.Cap 1/ 43

5.3 Il campionamento probabilistico: alcuni schemi

Se da una popolazione di N unità si estrae un campione di n unità, la frazione n/N rappresenta la frazione di campionamento, qualunque sia lo schema di

campionamento adottato.

5.3.1 Il campionamento casuale semplice (CCS)

E’ l’archetipo del campionamento probabilistico in quanto è quello che rappresenta il punto di riferimento per valutare l’efficienza di qualsiasi altra forma di

campionamento e anche sotto il profilo teorico è quello rispetto al quale è stata costruita la teoria dell’inferenza statistica.

Tutte le principali tecniche statistiche presuppongono che si abbia a che fare con un CCS; quando non è così, di fatto, le cose si complicano in alcuni casi in

modo rilevante, sia sotto il profilo dei calcoli, sia sotto quello della correttezza delle stime.

Come si realizza un campione casuale semplice

L’immagine più semplice di un CCS è quella di un’estrazione di numeri (tipo Lotto) da un’urna; in senso figurato, data una popolazione di N unità si immagina

un’urna contenente i numeri da 1 a N opportunamente mescolati (ognuno di questi associato ad un’unica unità) e si estraggono consecutivamente, senza

reinserimento, n numeri indipendenti uno dall’altro.

Operativamente questo viene realizzato avendo a disposizione una lista numerata da 1 a N delle unità della popolazione

Se abbiamo 15000 persone e vogliamo un campione di 100 unità dobbiamo innanzitutto numerare da 1 a 15000 le persone, quindi procedere con le tavole dei

numeri casuali o con una generazione automatica di numeri casuali ad estrarre 100 numeri e selezionare quindi le persone ad essi associati.

L’ampia diffusione di archivi computerizzati ha di molto facilitato l’uso dei CCS, anche per campioni di rilevanti dimensioni. STS.Cap 1/ 44

Come si usano i dati raccolti con un campione casuale semplice

Innanzitutto dobbiamo tenere presente che abbiamo a che fare con stime e non con valori veri.

Sotto il profilo dei metodi di calcolo si procede in modo simile a quanto si farebbe con i dati relativi all’universo.

Se siamo interessati a stimare un valore medio abbiamo:

n

=

CSS

Y Y n

medio i

=1

i

questa quantità rappresenta la stima puntuale ottenuta da uno specifico campione.

Se invece siamo interessati a stimare la proporzione o frazione della popolazione che possiede una certa caratteristica:

n

=

CSS

p n n ,

x i

=

i 1

dove n =1 se l’unità possiede la caratteristica, 0 altrimenti

i

5.3.2 Campione sistematico

E’ una variante semplificata del CCS, che però presenta alcuni inconvenienti.

In pratica è sufficiente disporre della lista di unità dalla quale estrarre il campione, conoscerne la sua dimensione (N), e definire la numerosità del campione da

selezionare (n). STS.Cap 1/ 45

Si calcola quindi il passo di campionamento K K=N/n

quantità che determina ogni quante unità devo selezionarne una.

Quindi si effettua l’estrazione casuale (unica) di un numero compreso tra 1 e K per determinare il punto di partenza S (e conseguentemente il primo estratto).

Successivamente si procede all’estrazione di tutte quelle unità che si trovano nelle posizioni:

S+K, S+2K, S+3K, .... S+(n-1)K

E’ molto importante che la lista sulla quale è effettuata l’estrazione non presenti particolari ordinamenti, vediamo perché.

Esempio: se vogliamo estrarre 20 unità da una lista di 120 persone in cui maschi e femmine sono alternati (una lista di coniugi/conviventi, ad esempio, con

prima il maschio e poi la femmina), otteniamo

K=120/20=6

Quindi se l’estrazione del punto di partenza darà un numero pari (2, 4, 6) i successivi estratti saranno tutte femmine, o viceversa, se il punto di partenza

ottenuto è dispari (1,3,5) i successivi estratti saranno tutti maschi

Il risultato quindi non sarebbe certo un campione casuale.

Il calcolo delle stime avviene come per il CCS STS.Cap 1/ 46

5.3.2 Il campionamento stratificato

Usualmente conosciamo molto poco delle caratteristiche delle unità che formano la popolazione prima di svolgere l’indagine.

Conoscendo però alcune caratteristiche generali delle unità di tutta la popolazione (sesso, luogo di residenza, età ad esempio) è possibile ricorrere ad un artificio

nella selezione del campione, per fare in modo che tali caratteristiche siano conservate e correttamente rappresentate nel campione.

Tale artificio prende il nome di stratificazione. Il campionamento stratificato si articola in tre fasi: a) si suddivide la popolazione di riferimento in

sottopopolazioni (dette strati), rispetto ad una o più variabili note sulla popolazione stessa; b) si estrae –mediante campionamento casuale semplice- un

campione da ogni strato; c) si uniscono i campioni corrispondenti ai singoli strati per ottenere il campione complessivo.

Nei campioni stratificati il calcolo delle stime è un po' più complesso in quanto si dovrà procedere prima al calcolo della stima nei singoli strati e

successivamente calcolare la media ponderata delle stime ottenute; ovvero nel caso della stima di un valor medio:

k k

∑ ∑

=

Y Y * N N

CCST

medio ,

h h h

medio

= =

h 1 h 1

oppure definendo i pesi W nel seguente modo:

h

W =N /N

h h k

=

Y Y * W

CCST

medio ,

h h

medio

=

h 1

Riepilogando:

Da ogni strato si calcola la media (o altra statistica d’interesse), chiamata media di strato (Y )

medio, h

⇒ la media pesata delle medie di strato dà la media della popolazione

Un metodo per allocare le unità campionarie tra gli strati, è quello dell’allocazione proporzionale. Un campione stratificato si dice proporzionale se riproduce la

stessa composizione degli strati nella popolazione, quindi le proporzioni presenti nella popolazione per le variabili usate per la stratificazione saranno quindi

esattamente (o quasi) presenti nel campione. STS.Cap 1/ 47

Non sempre è però opportuno avere campioni stratificati di tipo proporzionale, talvolta è opportuno sovracampionare (estrarre un numero maggiore di unità) da

certi strati, ad esempio quelli che presentano maggiore variabilità del fenomeno.

Perché si fa il campionamento stratificato

1. Diminuire la variabilità delle stime campionarie, ovvero avere stime con intervalli più stretti

2. Perché le sottopopolazioni degli strati rappresentano anch’esse dominio di studio (i comuni in un indagine su un comprensorio)

Sotto il profilo statistico l’aspetto più importante è il primo in quanto si dimostra che quanto più si è in grado di suddividere in strati simili al loro interno

(omogeneità interna rispetto al fenomeno che vogliamo studiare), tanto più le medie degli strati differiranno una dall’altra (eterogeneità esterna).

La stratificazione implicita

Una strategia semplificata per realizzare dei campioni stratificati è quella di ricorrere alla stratificazione implicita.

In analogia con il campionamento sistematico, si procede all’estrazione del campione definendo un passo di campionamento K.

L’aspetto caratterizzante è però che per avere una cosiddetta stratificazione implicita bisogna procedere ad un ordinamento della lista secondo i criteri di

stratificazione prescelti

Se il criterio è unico (ovvero la variabile di stratificazione è unica come ad esempio il sesso) la cosa è piuttosto semplice in quanto la lista dovrà essere ordinata

rispetto quella variabile (prima tutte le femmine, poi tutti i maschi, o viceversa), garantendo però l’assenza di altre forme di ordinamento all’interno degli strati

impliciti così definiti.

Così operando si ottiene un campione stratificato proporzionale, in quanto le proporzioni esistenti nella popolazione sono rispettate nel campione

Leggermente più complesso è il caso di più criteri di stratificazione implicita, in quanto dovremo ordinare la lista concatenando i criteri STS.Cap 1/ 48

I problemi della stratificazione implicita sono sostanzialmente i medesimi del campione sistematico, ovvero il rischio della presenza di un

organizzazione/ordinamento dei dati all’interno degli strati che precluda la casualità dell’estrazione all’interno degli strati.

Le Variabili di stratificazione

La scelta è di compromesso tra le conoscenze del ricercatore e le variabili disponibili. Alcuni criteri generali:

a) variabili con disaggregazioni non troppo articolate.

b) ricercare variabili che plausibilmente siano relazionate al fenomeno oggetto d’indagine.

c) Se si usano più variabili di stratificazione, verificare che esse non presentino forte associazione tra loro, ma ovviamente è auspicabile

forte associazione con il fenomeno oggetto d’indagine

In generale:

1. sono da preferire combinazioni di variabili, anche aggregate, piuttosto che un’unica variabile;

2. la suddivisione territoriale amministrativa è utile anche perché il territorio può essere dominio di studio;

3. la dimensione degli strati in cui si suddivide la popolazione dovrebbe essere non troppo variabile;

4. sono da preferire variabili di tipo qualitativo

5. per individuare gli strati alle volte può essere utile il ricorso a procedure di agglomerazione delle unità mediante tecniche statistiche multivariate (tipo

cluster analysis). STS.Cap 1/ 49

5.4 L’errore campionario e la numerosità del campione

Tutti gli schemi di campionamento visti, condividono la stessa aspirazione: rappresentare il più fedelmente possibile, seppur in scala ridotta, la popolazione di

interesse. La rappresentatività è fondamentale per estendere le conclusione delle analisi svolte sul campione all’intera popolazione, ovvero per fare inferenza.

Ogni procedura inferenziale è caratterizzata da un certo livello di incertezza, per queste ragioni:

• da ogni popolazione sufficientemente grande è possibile estrarre un numero virtualmente infinito di campioni di una determinata ampiezza;

• ognuno di questi campioni rappresenta la popolazione in modo probabilistico;

• in ogni singolo studio viene analizzato solo uno dei possibili campioni di ampiezza prefissata.

Quindi anche la procedura di campionamento più perfetta ed accurata è soggetta ad errore: l’errore di campionamento.

A questo punto è necessario aprire una breve parentesi per definire la distribuzione Normale che sarà utile nel seguito delle lezioni.

STS.Cap 1/ 50

LA VARIABILE CASUALE NORMALE

La distribuzione normale o gaussiana è particolarmente importante perché molte variabili nelle scienze sociali sono distribuite in questo modo.

∞ ∞ µ σ

La v.c. normale è una v.c casuale continua definita sull’asse dei numeri Reali (- <X<+ ) che dipende da due parametri e che corrispondono

2

rispettivamente alla media e alla varianza della distribuzione. Al variare della media la curva si trasla al variare della varianza diventa più piatta o più allungata.

Alcune caratteristiche fondamentali sono:

• Il valor medio si trova al centro della distribuzione e la curva è simmetrica rispetto ad esso

• La moda e la mediana coincidono con il valor medio.

• La maggior parte delle osservazioni si trova attorno al valore medio (poche sono molto più piccole o molto più grandi).

Aree sotto la curva normale

L’area totale sottostante la curva è pari a 1.

A sinistra della media è sottesa un’area pari a 0.5 così come a destra della media.

Distribuzione normale standard

La v.c. normale standardizzata si ottiene tramite l’operazione di standardizzazione, ovvero

µ σ

Z=(X- )/

La media risulta pari a 0 e la varianza pari a 1.

Ricorrendo alle tavole della distribuzione normale standardizzata si ottengono i valori di probabilità sottesi dalla curva. STS.Cap 1/ 51

Esempi:

Probabilità che 0<Z<2=0.4772

Probabilità che Z<1.5=0.4332+0.5

Probabilità che Z>1.5=0.5-0.4332

Esempio: X rappresenta il voto alla maturità e si distribuisce normalmente con media 74 e scarto quadratico medio pari a 4. Qual è la probabilità che un

individuo prenda un voto maggiore di 80?

Pr(X>80)= ?

Z=(80-74)/4=1.5

Pr(X>80)=Pr(Z>1.5)= 0.5-0.4332

5.4.1 Distribuzione della media campionaria STS.Cap 1/ 52

La distribuzione campionaria rappresenta il modo in cui possiamo ipotizzare si dispongano i risultati, ovvero le stime, replicando un numero infinito di volte il

campione.

Data una popolazione, da essa posso estrarre diversi campioni che risulteranno diversi tra loro.

Suppponiamo di avere una popolazione di donne e su tale popolazione vogliamo calcolare il numero medio di figli. Si ricorre ad un’indagine campionaria anzi a

5 indagini, cioè si estraggono 5 campioni “indipendenti”. L’esito è riportato in tabella:

campione Numero figli

A 0 2 2 1 1

B 3 0 1 0 2

C 2 1 2 2 0

D 2 0 4 1 0

E 1 3 0 2 2

Possiamo ora calcolare la media per ciascun campione:

campione Num. Medio figli

A 1.2

B 1.2

C 1.4

D 1.4

E 1.6

Le medie dei diversi campioni vengono chiamate medie campionarie, se i campioni sono rappresentativi della popolazione i loro valori saranno vicini al valore

medio vero (quello della popolazione). Tuttavia ci possono essere alcune medie campionarie che distano più o meno dalla media vera. STS.Cap 1/ 53

Concetto di correttezza:

Immaginando di ripetere un numero molto elevato (infinito) di volte un campionamento sulla medesima popolazione si otterranno altrettante stime della

variabile che siamo interessati a studiare: il concetto di correttezza ci assicura che se noi facciamo la media di tutte queste stime (valore atteso) questa sarà

uguale al vero valore della popolazione n

∑ X / n

X

E( )= =µ

=

i 1

Alcune caratteristiche della media campionaria

• La distribuzione delle medie campionarie segue approssimativamente la distribuzione normale

• La media delle medie campionarie è approssimativamente uguale al valore medio della popolazione (correttezza) σ

=

es

• Lo scarto quadratico medio della distribuzione delle medie campionarie è detto errore standard (

standard error ) ed è pari a n

La sintesi delle tre proprietà si esprime con il Teorema del Limite Centrale: σ

µ =

es ”

“Se si estraggono da una popolazione campioni di dimensione n, la media campionaria sarà approssimativamente distribuita normalmente con media uguale alla media della popolazione e standard error n

σ

N.B. la distribuzione della media campionaria dipende essenzialmente dalla numerosità del campione n e dalla variabilità del fenomeno di cui calcoliamo la

media

Esercizio

I perimetri toracici della popolazione maschile italiana, di età compresa tra 18 e 74 anni si distribuiscono normalmente con media pari a 75 Kg e scarto

quadratico medio pari a 19 Kg. Determinare la probabilità che il perimetro medio calcolato in un campione casuale di numerosità n=100 superi i 79.75 Kg

STS.Cap 1/ 54

I parametri della distribuzione media campionaria sono:

σ 19

= = = =

x 75

, s 1

. 9

n 100 >

X 79

. 75

Quindi si deve calcolare la probabilità che −

79

. 75 75

> = > = > = − < =

Pr( X 79 . 75

) Pr( Z ) Pr( Z 2

. 5

) 1 Pr( Z 2 .

5

)

1

. 9

= − =

1 0 .

99379 0

. 00621

5.4.2 L’errore di campionamento

Torniamo all’analisi del singolo campione estratto, e supponiamo di aver estratto un campione di numerosità n=1000 da una popolazione di numerosità

N=1000000. Supponiamo che sul campione abbiamo stimato un reddito mensile medio pari a 900 Euro, questo valore costituisce la stima campionaria. In

realtà di campioni di numerosità pari a 1000 unità dalla nostra popolazione ne avremo potuti estrarre virtualmente infiniti (100, 1000, 10000 ecc) e su ognuno

di essi avremmo potuto determinare una stima del reddito medio mensile, ottenendo virtualmente infinite stime.

Le stime che si sarebbero ottenute non sarebbero completamente diverse tra loro, perché tenderebbero ad approssimare, per eccesso o per difetto, il “vero” valore

del reddito medio mensile della popolazione (quello della collettività di 1000000 di individui). In particolare i valori delle stime si sarebbero distribuiti con

distribuzione normale con una media pari al valore vero del parametro ed una certa varianza che offre un’indicazione dei valori che le stime campionarie

tendono ad assumere con maggiore probabilità.

Per misurare l’incertezza delle stime campionarie vogliamo stabilire qual’è la gamma di valori entro la quale molto probabilmente si trova il valore vero del

parametro. Questa gamma di valori è detta intervallo di confidenza. Quando si costruisce un intervallo di confidenza l’affermazione conclusiva cui si giunge è di

questo tipo: “c’è il 95% di probabilità che l’intervallo 1200±300 euro sia uno di quelli che contiene il parametro vero della popolazione”.

La determinazione di questo intervallo si calcola facendo ricorso al concetto di errore standard, che abbiamo già introdotto precedentemente

Var

=

es n STS.Cap 1/ 55

dove Var rappresenta la varianza nella popolazione del fenomeno oggetto di studio e n la numerosità campionaria.

Esiste un fattore di correzione per tenere conto che abbiamo a che fare con popolazioni finite, tale fattore, detto fattore di correzione per popolazioni

finite, è il seguente

N n

N 1

per cui tenendo conto del fattore di correzione si ha

Var ( N n )

=

es * −

n ( N 1

)

Si noti che se la numerosità della popolazione è molto maggiore della numerosità del campione il fattore di correzione diventa talmente vicino a 1 che può essere

trascurato.

Se indichiamo con Y il valore (sconosciuto) del parametro della popolazione e con Ŷ il valore trovato nel campione, cioè la sua stima e con e l’errore di

campionamento, si avrebbe:

Y= Ŷ±e

Il valore di Ŷ è noto, ma il valore di Y è incognito, quindi anche l’errore di campionamento non è direttamente calcolabile.

La statistica ci permette di ottenere una stima di tale errore, nel caso di campionamento probabilistico.

Per il calcolo dell’errore campionario, ci limitiamo al caso più semplice, quello di campionamento casuale semplice. In questo caso l’errore campionario è dato

da STS.Cap 1/ 56

Var ( N n )

=

e z *

α −

n ( N 1

)

2

dove z è il coefficiente dipendente dal livello di fiducia della stima che, nel caso del 95% è pari a 1.96.

α

Valori base di e corrispondenti valori di z

α/2

α=0.10 ⇒ z =1,68

α/2

α=0.05 ⇒ z =1,96

α/2

α=0.01 ⇒ z =2,58

α/2

Errore di campionamento nella stima della media aritmetica

Nel caso specifico in cui il parametro incognito da stimare sia la media aritmetica della popolazione si ha che

σ

= 2

Var

σ

dove rappresenta varianza della variabile studiata.

2

Quindi l’errore campionario sarà dato da

σ −

2 ( N n )

= ⋅

e z

α −

n ( N 1

)

2

Si noti che l’errore è tanto più grande:

• quanto più grande è il livello di fiducia che il ricercatore vuole avere nella sua stima. STS.Cap 1/ 57

• quanto più è elevata la variabilità della variabile studiata

• quanto minore è l’ampiezza del campione.

Esempio: Sulla base di un campione di 100 studenti si è stimata l’età media alla laurea triennale. Stabilire l’errore campionario massimo che si può commettere

assumendo un livello di confidenza pari a 0.95 e sapendo inoltre che la popolazione degli studenti è costituita da 1000 unità e che la varianza della popolazione

è pari a 45.

α=0.05α/2=0.025z =1.96

α/2

fattore di correzione per popolazioni finite è:

− −

N n 1000 100

= = 0 . 9

− −

N 1 1000 1

45

= ⋅ ⋅ =

e 1 .

96 0

. 9

100

⋅ =

1 . 96 0

. 405 1 .

25

ciò significa che assumendo un livello di confidenza pari a 0.95 l’errore che si può commettere stimando l’età media alla laurea degli studenti con un campione

±1.25

di 100 unità è di anni. Ciò significa anche che se l’età media stimata sul campione era di 22 anni l’intervallo di confidenza al 95% è

22±1.25IC=[20.75;23.25]

Se avessimo omesso il fattore di correzione per popolazioni finite il risultato non sarebbe stato così diverso, data l’elevata numerosità del campione, infatti:

σ 2

≅ ⋅ =

e z 1 .

3

α n

2

Errore di campionamento nella stima delle proporzioni

∑ X / n

La proporzione è una media di una variabile che assume due soli valori: 0, quando la caratteristica non è presente, 1 quando invece è presente.

STS.Cap 1/ 58

Dato un campione costituito da 50 unità supponiamo di chiedere loro se posseggono o meno un personal computer: 20 dicono (1), e 30 (0);

SÌ NO

ΣX= 20*1 +30*0 = 20; ∑ X 20

= = = = =

ˆ

E ( X ) X p . 40

n 50

rappresenta effettivamente una media.

Per il calcolo dell’errore standard nel caso di una variabile di questo tipo (distribuzione binomiale) si segue il seguente ragionamento:

= ⋅ −

var( X ) p (

1 p )

si ha che −

p (

1 p )

= =

ˆ

var( X ) var( p ) n p̂

Ma essendo p un parametro incognito, nel calcolo dello standard error viene sostituito con la sua stima . Per cui:

Var p (

1 p )

= = ≅

ˆ

s

.

e ( p ) n n

ˆ ˆ

p (

1 p ) 0

, 24

= = 0

. 069

n 50 ⇒

Se la numerosità fosse stata 500

ˆ ˆ

p (

1 p ) 0

, 24

= = 0

. 022

.

n 500 STS.Cap 1/ 59

Se la numerosità fosse stata 5000

ˆ ˆ

p (

1 p ) 0

, 24

= = 0 . 007 .

n 5000

Come si vede con questa formula mettiamo in relazione lo standard error con la numerosità del campione; pertanto la relazione vale anche in senso inverso,

ovvero si può calcolare la numerosità dato lo s.e. STS.Cap 1/ 60

5.4.3 Determinazione della numerosità campionaria

Siamo quindi in grado di determinare quale numerosità dovrà avere il campione per far sì che l’errore di campionamento sia al massimo e (o equivalentemente

d/2) , definita una certa probabilità di errore.

Ricordando che: −

Var ( N n )

= ⋅ = ⋅ ⋅

d 2 e 2 z

α −

n ( N 1

)

2

allora possiamo ricavare n 2

Var * z

α

= 2

n 2

Var * z

− α

N 1

d + 2

( )

2

2 N N

La formula diviene più semplice se la popolazione è molto grande, in questo caso infatti il fattore di correzione tende a 1.

2

Var * z

α

= 2

n d

( )

2

2 STS.Cap 1/ 61

α),

Riepilogando, per il calcolo della numerosità campionaria si devono conoscere: il livello di significatività che vogliamo per le nostre stime ( l’intervallo che

accettiamo per le nostre stime (±d/2=±e), il valore della varianza della popolazione (Var) e la numerosità della popolazione (N).

Alcuni esempi

Esercizio: determinare la numerosità del campione casuale che deve essere assunta per stimare l’età media degli studenti alla laurea triennale, sapendo che la

±0.7,

varianza è pari a 45, affinché l’errore di campionamento massimo ammesso e sia pari a assumendo ancora un intervallo al 95%.

Per semplicità adottiamo la formula in cui il fattore di correzione è omesso e ricaviamo n:

σ

2 2 ⋅

2

z 1

. 96 45

α

≅ = = ≅

n 352

. 8 353

2 2 2

e ( 0

. 7 )

Esercizio: Si vuole indagare sulla spesa media giornaliera delle famiglie della Toscana (N è molto grande e quindi possiamo tralasciare il fattore di correzione).

α=0.01

A tale scopo si vuole condurre un’indagine campionaria con la quale determinare il valore con un livello di significatività e una precisione d/2=±4000;

un’indagine pilota ci ha fornito il valore della varianza della spesa media giornaliera per famiglia Var= 18570 2

2

Var * z

α 18570 * 2 ,

58

2 2

= =

2

n d 4000

2

( )

2

2

351562500 * 6

, 656

= ≅

n 146

16000000

se si volesse ottenere una maggiore precisione (d/2=2000) STS.Cap 1/ 62

351562500 * 6

, 656

= ≅

n 585

4000000

Il problema maggiore è la conoscenza della variabilità di ciò che vogliamo stimare (Var) perché nella realtà la varianza sulla popolazione non è nota.

Per il calcolo della numerosità campionaria per la stima di una proporzione, il ragionamento è un po’ più articolato. Come sappiamo la varianza della

distribuzione di bernoulli dipende dal parametro incognito p e quindi anche in questo caso si dovrebbe utilizzare una stima preliminare di p che indichiamo

p̂ ; la formula per il calcolo di n sarà pertanto:

− 2

ˆ ˆ

p (

1 p ) * z

α

= 2

n − 2

ˆ ˆ

p (

1 p ) * z

N 1 α

d +

2

( ) 2

2 N N

oppure per N molto grande

− 2

ˆ ˆ

p (

1 p ) * z

α

=

n 2

d 2

( )

2 =

ˆ

p 0 . 5

Quando non si ha alcuna informazione sul parametro incognito p si può utilizzare il valore prudenziale a cui corrisponde il massimo valore di

ˆ ˆ

p (

1 p ) e quindi il valore massimo della numerosità campionaria necessaria a garantire un errore campionario non superiore a quello fissato.

ˆ

var( p )

p̂ 1-

0.10 0.90 0,09

0.20 0.80 0,16

0.30 0.70 0,21

0.40 0.60 0,24

0.50 0.50 0,25 STS.Cap 1/ 63

Esempio: si vuole stimare la percentuale di individui che ha seguito un programma televisivo, sulla base di una rilevazione campionaria, con livello di

α=0,05

significatività e commettendo un errore massimo di stima pari a d/2=0,01.

Anche in questo caso N può essere considerato molto grande e si adotta la formula semplificata, inoltre non conoscendo la varianza si assume la varianza

massima, ovvero quella che si ottiene per =0.5

− 2

ˆ ˆ

p (

1 p ) * z 2

0

, 25 * 1

,

96

α

= =

n 2

d 2

0 .

01

2

( )

2

0

,

960

= =

n 9600

0

,

0001

se ci accontentiamo di d/2=0,02

0

,

960

= =

n 2400

0

, 0004

un campione di 2400 ci permetterà di stimare la percentuale con un errore in più o in meno del 2% e con una probabilità pari a 0.05 (1-0.95) di uscire da tale

intervallo. STS.Cap 1/ 64

STS.Cap 1/ 65

Esercizio: Quante persone occorre intervistare per effettuare un’indagine sul consumo pro capite in Puglia se da un indagine pilota è noto che s=5Kg. (s =25

2

α=0.05

Kg.) e si fissa e d/2=0.5Kg.

2

Var * z

α s * 196

. 9604

.

2 2

= = =

2

n d 025

.

05

. 2

( )

2

2

= 38416

.

Esercizio

Qual è l’ampiezza di un campione perché ad un livello di significatività pari al 5% si possa stimare la produzione media giornaliera per operaio di una azienda

con 1000 operai con un errore massimo di 5 unità, dato s=25.

2

Var * z

α

= 2

n 2

Var * z

− α

N 1

d + 2

( )

2

2 N N

25 * 196

.

2 2 =

1000 1 25 * 196

.

2 2

+

5

2 1000 1000

2401 = 87 ,

7

2401

+

24

.

97 1000

se l’azienda avesse 100 operai il risultato sarebbe invece pari a 49. STS.Cap 1/ 66

Esercizio ±0.03

Se nella città di Roma si vuole fare un sondaggio per sapere quanti sono favorevoli ai consigli di quartiere, con un errore massimo pari a ad una

α=0.01,

significatività quale sarebbe la dimensione campionaria necessaria?

− 2

ˆ ˆ

p (

1 p ) * z 2

0 .

25 * 2 .

58

α

= =

n 2

d 2

0 .

03

2

( )

2

= 1849

se la stessa indagine deve essere fatta su una cittadina di 5.000 abitanti, si deve fare la correzione per popolazioni finite:

⇒ n= 1349 STS.Cap 1/ 67

5.5 Le indagini con campioni non probabilistici

Per indagini con campioni non probabilistici intendiamo quelle indagini dove non è possibile determinare la probabilità di appartenenza al campione delle unità

elementari.

Sono quindi il risultato di un processo non casuale: quindi non possiamo applicare i principi che abbiamo visto per i campionamenti probabilistici.

Il più noto degli schemi di campionamento non probabilistici è il campionamento per quote

Agli intervistatori vengono fornite delle quote o istruzioni riguardanti il numero di persone di vario genere che dovranno intervistare, lasciandoli liberi di

scegliere le specifiche persone in modo personale.

L’idea di base è che molta della variabilità del comportamento umano si spiega se il campione è adeguatamente rappresentativo di alcune variabili (di solito età,

sesso, classe sociale): di fatto è un processo di stratificazione con estrazione non casuale delle unità.

I controlli delle quote riducono la variabilità e se la selezione degli individui è fatta in modo intelligente la probabilità di introdurre distorsioni può essere

trascurabile. Purtroppo la possibilità di controllo dell’attività del rilevatore è molto limitata e quindi le distorsioni che possono essere introdotte sono solitamente

rilevanti.

E’ vantaggioso solo per motivi economici ed organizzativi.

In ogni caso il ricorso al campionamento non probabilistico dovrebbe essere limitato solo a quelle situazioni in cui la realizzazione di un campionamento casuale

risulti estremamente difficile. 6. TEST STATISTICI

La teoria dei test prevede la formulazione di specifiche ipotesi sulla distribuzione della popolazione ovvero di una congettura riguardante un parametro

incognito della popolazione.

Esempio: dobbiamo decidere se affidare una ricerca di mercato ad una società di ricerca. Per rafforzare la candidatura, la società stessa dichiara che il proprio

staff è estremamente preparato e che il valore medio del QI (quoziente di intelligenza) è pari a 120 con uno scarto quadratico medio di 10. Decidiamo di

verificare questa affermazione sottoponendo ad un test di intelligenza un gruppo di 36 persone dello staff. Si ottiene un QI medio pari a a 114, evidentemente

più basso di quello dichiarato dal dirigente della società. Ci chiediamo:

L’affermazione del dirigente è vera: solo casualmente abbiamo scelto un campione che presenta un QI inferiore

L’affermazione del dirigente è falsa: la totalità dei membri dello staff ha ottenuto un QI inferiore a 120.

Quale spiegazione è giusta? Come giungere ad una decisione?

6.1 Ipotesi

Dobbiamo formulare un’ipotesi su quello che ci aspettiamo riguardo all’affermazione della società. A questa ipotesi si dà il nome di ipotesi nulla (H ). In questo

0

esempio possiamo definire come ipotesi nulla la seguente:

H : lo staff ha un valore medio del QI di 120

0

Nel passo successivo ci chiediamo: i dati campionari suffragano la nostra ipotesi?

E’ chiaro che comunque sia scelto il campione, lo stesso non rispecchierà in modo esatto la popolazione, tuttavia se H è sensata ci aspettiamo che il valore della

0

media campionaria cada in un’area di valori piuttosto vicini al valore vero della popolazione ovvero quello specificato sotto H .

0

A questo punto ci chiediamo dove porre il confine tra il credere e il non credere all’affermazione della società? Formuliamo quindi l’ipotesi alternativa H come

1

segue:

H : lo staff della società presenta un valore medio del QI diverso da 120.

1 STS.Cap 1/ 68

µ

In modo formale se rappresenta la media della popolazione formuliamo il sistema di ipotesi nel seguente modo:

µ=120

H : (il campione proviene da una popolazione con media 120)

0 µ≠120

H : (il campione non proviene da una popolazione con media 120)

1

Si deve decidere se accettare l’ipotesi nulla oppure rifiutarla a favore dell’ipotesi alternativa. Per giungere ad una decisione si ricorre ai test statistici.

Dobbiamo stabilire un intervallo di valori campionari entro il quale accetteremo l’ipotesi nulla, al di fuori di quell’intervallo rifiuteremo l’ipotesi nulla.

6.2 Test statistici

Per test statistico intendiamo un processo di verifica d’ipotesi in cui sottoponiamo a verifica un ipotesi nulla (H ), contro un ipotesi alternativa (H ).

0 1

In generale per ogni problema decisionale esiste una procedura di verifica ottimale basata su una funzione degli elementi del campione, detta statistica test e

sulla distribuzione di probabilità della statistica test stessa.

I test statistici sono l’essenza della statistica inferenziale in quanto ci permettono di accettare o rifiutare ipotesi secondo definiti criteri probabilistici; ovvero

determinare quale probabilità di errore diamo alle nostre affermazioni induttive. α,

Supponiamo che siamo disposti a sbagliare – rifiutando l’ipotesi nulla quando è vera- il 5% delle volte. Formalmente diciamo che probabilità di commettere

un’errore di I tipo, è pari a 0.05.

Dobbiamo allora cercare l’intervallo di valori in cui accettiamo H avendo il 95% [ovvero (1-α)*100] di probabilità che il valore sotto H sia quello vero.

0 0

L’insieme dei valori della statistica test che portano all’accettazione di H è chiamata regione di accettazione

0

L’insieme dei valori della statistica test che portano al rifiuto di H è chiamata regione di rifiuto.

0

Se il valore campionario della statistica test cade nella regione di accettazionesi accetta H 0

Se il valore campionario della statistica test cade nella regione di rifiutosi rifiuta H 0

Ovviamente se il valore campionario cade nell’area di accettazione, si sceglie H , ma possiamo commettere un errore di II tipo (accettare H quando questa è

0 0

falsa).

Tornando al nostro esempio, ci chiediamo: come si trova il valore standardizzato dato un qualsiasi valore campionario?

Si adotta la formula usuale della funzione di standardizzazione tenendo conto che lo scarto quadratico medio da porre al denominatore è lo standard error, dato

che stiamo lavorando con valori campionari.

stima puntuale sul campione - valore sotto H

= 0

Z standard error dello stimatore

µ

− −

x 114 120

= = = −

0

Z 3 .

6

σ 10

n 36

Il valore del test statistico è pari a –3.6, tale valore cade nella regione critica (-3.6<-1.96)

rifiuta l’ipotesi nulla

si

ovvero

risulta molto improbabile che lo staff della società abbia un QI pari a 120.

Concludendo per effettuare una verifica di ipotesi si seguono i seguenti passi:

Si definiscono le ipotesi

Si determina la statistica campionaria di riferimento

Si calcola il valore della statistica test

Si confronta il valore del test con i valori critici conclusione

Test relativi a medie e proporzioni

Test sulla media con varianza della popolazione nota

Sistema di Ipotesi:

µ

H : =µ

0 0

µ≠µ

H :

1 0

Statistica test di riferimento

µ

X

=

Z σ n

che sotto ipotesi nulla si distribuisce come una N(0,1).

α,

Fissato un livello di significatività del test pari a la regione di rifiuto del test sarà quindi |Z|>z

α/2

Esempio: Una macchina per il riempimento delle buste di patatine ha uno scarto quadratico medio di 6 grammi e una media incognita. La macchina è stata

costruita per un riempimento medio delle buste di patatine di 100 grammi. Per verificare la conformità del riempimento a quello previsto dalle specifiche

costruttive si estrae un campione di 100 buste ottenendo un contenuto medio di 99 grammi. α

Definire il sistema di ipotesi opportuno per stabilire se il sistema di riempimento è conforme alle specifiche costruttive al livello di significatività pari a 0.05.

99 100

= = −

Z 1

,

67

6 100

|-1,67|<1,96accetto H

0 µ≠µ

Se il sistema di ipotesi ha ipotesi alternative diverse da H :

1 0

cambiano anche le aree di rifiuto del test, in particolare

µ<µ

Se H : H per Z<-z

rifiuto α

1 0 0

µ>µ

Se H : H per Z>z

rifiuto α

1 0 0

Test sulla media con varianza della popolazione incognita

σ

In questo caso dobbiamo ricorrere anche alla stima di ovvero alla varianza corretta s

2

Allora la statistica test, sotto ipotesi nulla, non è più una normale standard ma una distribuzione t di Student con (n-1) gradi di libertà: STS.Cap 1/ 69

µ

X

= 0

t S n

µ

H : =µ

0 0

Le seguenti sono le possibili ipotesi alternative e le relative aree di rifiuto

µ≠µ

Se H : rifiuto H per |t|>t

 α/2

1 0 0

µ<µ

Se H : rifiuto H per t<-t

 α

1 0 0

µ>µ

Se H : rifiuto H per t>t

 α

1 0 0

Esempio: si deve decidere se aprire o meno un centro commerciale in un certo Comune della regione Lazio. La decisione è connessa al reddito medio degli

abitanti del comune e di quelli limitrofi, se tale reddito superiore o uguale a 2000 euro mensili conviene aprire tale centro, altrimenti conviene mirare in un’altra

area. A tal fine è stata svolta un’indagine campionaria rilevando il reddito mensile di 196 famiglie, sulle quali è stato rilevato un reddito medio mensile pari a

1864 euro con una varianza campionaria corretta di 141,61 euro.fissato un livello di significatività pari a 0,01 che cosa si decide di fare?

Il sistema di ipotesi adeguato al problema è

µ

H : =2000

0 µ<2000

H :

1

La statistica test è

µ

− −

X 1864 2000

= = = −

0

t 160

S 141

,

61

n 196

Il valore di (-t ) con 195 g.l è approssimabile alla distribuzione N(0,1) e quindi a (-z ) che è pari a

0,01 0,01

(-2,326), quindi

-160<-2,326 rifiuto H ovvero pare che nei comuni oggetto di studio ci sia un reddito troppo basso per ritenere conveniente l’investimento.

0

Test su una proporzione

Supponiamo che X sia una variabile dicotomica che assume valori 0 e 1.

In questo caso l’ipotesi nulla da verificare è del tipo

π=π

H :

0 0

la statistica test di riferimento è

π

ˆ

p

= 0

Z π π

(

1 ) n

0 0

le possibili ipotesi alternative e le relative regioni di rifiuto sono:

π≠ π

Se H : |z|>z

 α/2

1 0

π< π

Se H : z<-z

 α

1 0

π> π

Se H : z>z

 α

1 0

Esempio:

L’Istat ha rilevato che nel 1991 l’8,4% degli occupati in Italia è impiegato nel settore agricolo. Si vuole verificare se nel 1992 questa proporzione è rimasta

invariata. Per questo nel 2002 viene osservato un campione di 1000 occupati, di questi 53 risultano occupati nel settore agricolo. Fissato un livello di

significatività pari a 0,05 che cosa possiamo concludere?

π=

H : 0,084

0 π≠

H : 0,084

1 π

− −

ˆ

p 0

,

053 0

,

084

= = = −

0

Z 3

,

534

π π

− −

(

1 ) n 0

,

084 (

1 0

,

084 ) 1000

0 0

z =1,96

α/2

|-3,534|>1,96 rifiuto H

0

Se invece avessi voluto verificare se se nel 2002 la proporzione degli occupati in agricoltura è diminuita avrei specificato un’ipotesi alternativa unilaterale

π=

H : 0,084

0 π<

H : 0,084

1

Il valore della statistica test sarebbe stato lo stesso

t=-3,534 ma l’area di rifiuto sarebbe stata diversa

z<-z =-1,645

0,05

-3,534<-1,645 rifiuto H

 0

6.2.3 Test per tabelle di contingenza

Torniamo all’analisi di dati qualitativi o comunque riportati su una tabella di contingenza o tabella a doppia entrata in cui sono classificate le unità statistiche

rispetto alle modalità delle due variabili considerate. All’incrocio tra le modalità delle due variabili (celle) abbiamo la frequenza di cella.

Esempio: La tabella seguente riporta i dati campionari di un’indagine su 2469 emgrati italiania New York per città di provenienza e sesso.

Città di provenienza Genere Totale

M F

Napoli 337 65 402

Reggio Calabria 1249 182 1431

Messina 235 31 266

Roma 74 8 82

Milano 36 15 51

Udine 44 6 50

Bari 172 15 187

Totale 2147 322 2469 STS.Cap 1/ 70

Supponiamo che l’oggetto della nostra analisi sia verificare se la città di provenienza ed il genere degli immigrati sono indipendenti o se tra le due variabili esiste

una qualche forma di associazione.

χ

L’applicazione del test (Chi quadrato o Chi-Squared) ci permette di prendere delle decisioni sull’esistenza o meno di dipendenza tra due variabili di tipo

2

nominale.

Il sistema di ipotesi è il seguente:

H : indipendenza statistica tra X e Y

0

H : dipendenza statistica tra X e Y

1

La statistica test per la verifica è : 2

 

n n

 

− i . . j

( ) n

 

2

− e ij

n n n

 

∑∑ ∑∑

χ ij ij

= =

2 n n

e

n i . . j

i j i j

ij n

Sotto H tale statistica test si distribuisce come un chi-quadrato con gradi di libertà pari a

0

(numero di righe –1)*(numero di colonne-1).

La regione di rifiuto cade nella coda destra della distribuzione.

Schema di calcolo

Specificazione dell’ipotesi nulla e dell’ipotesi alternativa

H :indipendenza tra le variabili

0

H : c’è associazione tra le due variabili

1 n

ij

Calcolo della statistica test: le frequenze specificate nella tabella dei dati campionari sono detti valori osservati . Per il calcolo della statistica test si deve

calcolare la tabella dei valori attesi, ovvero quei valori che ci aspetteremmo di trovare in ciascuna cella se non ci fosse associazione tra le variabili. Per calcolare

i valori attesi usiamo la formula: ×

totale della riga totale della colonna

=

valore atteso totale generale

Questo perché se le variabili sono indipendenti le frequenze relative marginali saranno uguali alle rispettive condizionate ovvero la frequenza di una cella sarà

perfettamente determinata dal prodotto tra le frequenze relative di riga e totale di colonna e viceversa, in quanto

e ⋅

n n n

n e

ij i . . j

= → =

i . n

ij

n n n

. j e

n

ij

Generalmente le frequenze attese sono indicate con

Calcolo della Statistica Test χ

Il test ha una distribuzione campionaria, ovvero e un valore che varia al ripetersi infinite volte del campionamento; tale distribuzione è un con un numero di

2

χ

gradi di libertà (g.l.) pari al prodotto (numero di righe –1)*(numero di colonne-1). Si deve calcolare il valore critico del sulle tavole, dato il livello di

2

significatività del test.

Si confronta il valore critico con il valore della statistica test e si rifiuta l’ipotesi nulla se il valore della statistica test è maggiore del valore critico.

Torniamo all’esempio:

H :indipendenza tra città di provenienza e sesso degli emigrati

0

H : c’è associazione tra le due variabili

1 e

n

n ij

ij

La tabella delle frequenze osservate è quella specificata precedentemente, dobbiamo determinare la tabella delle frequenze attese

n n

e = i . . j

n per ogni i ed ogni j

ij n

Città di provenienza Genere Totale

M F

Napoli 349.57 52.43 402

Reggio Calabria 1244.37 186.63 1431

Messina 231.31 34.69 266

Roma 71.31 10.69 82

Milano 44.35 6.65 51

Udine 43.48 6.52 50

Bari 162.61 24.39 187

Totale 2147 322 2469

( ) 2 ( )

e

− 2

n n

7 2 337 349

. 57

∑∑

χ ij ij

= = +

2 e 349 .

57

n

= =

1 1 j 1 ij

( ) ( )

2 2

− −

1249 1244 .

37 15 24 .

39

+ + =

... 21 .

08

1244 .

37 24

. 39 α=0.05 χ

g.l=(7-1)*(2-1)=6, per si ha =12.592

20.05;6

Siccome il valore della statistica test è 21.08 si ha: STS.Cap 1/ 71

21.08>χ =12.592l’ipotesi di indipendenza è rifiutata.

20.05;6

Nota sui gradi di libertà

Nelle tavole 2*2 abbiamo un grado di libertà, perchè?

Perchè, note le marginali, avendo un unico dato interno della tabella possiamo calcolare gli altri 3uno solo è libero

Nelle tabelle (r*c), invece i gradi di libertà sono

(r-1)*(c-1)

cioè una riga e una colonna sono sempre calcolabili per differenza.

χ

Problemi di calcolo per il 2 χ

Un problema che si può incontrare nel calcolo del è dato dalla presenza di celle con un numero limitato di osservazioni (< 5), perchè questo provoca delle

2

instabilità nel calcolo. Per ovviare a tale problema, talvolta si ricorre all’aggregazione di modalità adiacenti, ovviamente se tale a aggregazione ha significato.

χ

Limiti del 2

χ

Il il test del , ci permette quindi di rifiutare o meno l’ipotesi di indipendenza tra due variabili, anche se non ci fornisce alcuna indicazione sulla forza

2

dell’eventuale legame esistente tra le due variabili χ

Per fare ciò sono calcolabili altre misure (misure di connessione), che basandosi sempre sul test del forniscono degli indici relativi. Tali indici variano infatti

2

tra 0 e 1; dove 0 indica indipendenza tra i caratteri e 1 perfetta connessione.

Ovviamente tutte le misure di connessione per variabili qualitative o rese tali, possono darci indicazioni sull’esistenza del legame e parzialmente sulla forza, ma

certamente non possono dirci nulla sulla direzione dell’eventuale legame, visto che tali variabili non rispondono ai requisiti minimi di ordinabilità.

AEREOGRAMMA: è un diagr a m m a per are e, cioè un grafico in cui le frequ e n z e o le qua n tit à di una

distribuzion e statistic a sono rappr e s e n t a t e da supe rfici di figure pian e post e una acca n t o all’altra o da parti

di ess e. Un aero gr a m m a particolar e è il dia g r a m m a a tort a . In esso l’area del cerchio espri m e la

frequ e n z a totale del feno m e n o , i settori circolari rappr e s e n t a n o le frequ e n z e delle singole mod alit à del

cara tt e r e . La misur a dei settori circolari si ottien e dividen d o l’angolo giro in parti proporzion ali alle

frequ e n z e del cara tt e r e .

CAMPIONE: la capa cit à di un cam pion e di rappr e s e n t a r e corre tt a m e n t e una popolazion e dipen d e dalla lista

disponibile per la selezion e del cam pion e , dalla dime n sio n e del ca m pio n e , dalla proce d u r a di selezion e del

ca m pio n e . Per valuta r e un cam pion e bisogn a esa min a r e approfon dit a m e n t e il proc e s s o che port a alla sua

dete r mi n a zio n e . Dunqu e un cam pion e potrà ess er e rappr e s e n t a tiv o solo della popolazion e che costituisc e la

lista dal quale il cam pion e è stato selezion a t o (la list a di ca m p i o n a m e n t o è quella lista di unità che hann o

una definita prob a bilità di ess er e estr a t t e ), devono ess er e usat e liste di cam pion a m e n t o proba bilistich e

(ogni unità della lista di cam pion a m e n t o deve aver e una proba bilità nota di ess er e inserit a nel ca m pio n e ), il

modo in cui si sceglie di estr a rr e la singola unità influenz a la precision e delle stim e.

CAMPIONE PROBABILISTICO : si ha quan d o ogni unità che lo com po n e viene estra t t a con una prob a bilità nota

e divers a da zero. Tali cam pioni si distingu o n o in ca m p i o n i ad un o st a d i o (quelli in cu avvien e una sola

estr azion e di unità cam pion a ri e e que s t e corrispo n d o n o alle unità statistich e che siamo inter e s s a t i a

studiar e ) e in ca m p i o n i a du e o più st a d i (tutt e quelle forme di cam pion a m e n t o in cui avven g o n o alm e n o

due estr a zioni di unità ca m pio n a ri e, gerarc hic a m e n t e ordina bili, di cui solo l’ultima rappr e s e n t a l’unità

statistic a di intere s s e per l’indagin e).

CAMPIONAMENTO PER QUOTE : all’intervist a t o r e vengo n o fornite delle quot e o istruzioni riguar d a n ti il

nu m er o di perso n e di vario gen e r e che dovra n n o intervist a r e , lascia n d oli liberi di sceglier e le specifiche

perso n e in modo perso n al e.

CAMPIONAMENTO PROBABILISTICO : se da una popolazion e di N unità si estra e una cam pion e di n unità, la

frazion e n/N rappr e s e n t a la frazione di cam pion a m e n t o qualu n q u e sia lo sch e m a di ca m pio n a m e n t o

adott a t o.

• Cam pion a m e n t o casu al e se m plice: è quello che rappr e s e n t a il punto di riferim e n t o per valuta r e

l’efficienz a di qualsia si altar forma di cam pion a m e n t o e anch e sotto il profilo teorico è quello rispet t o

al quale è stat a costruit a la teoria dell’infere n z a statistic a. Esso viene realizzat o aven d o a

disposizion e una lista num e r a t a da 1 a N delle unità della popolazion e . Per stim ar e un valore me dio

Per stim ar e una proporzion e o una frazione della popolazion e che possie d e una certa carat t e ri s tic a

• Cam pion e siste m a t i co: è sufficient e aver e la lista di unità dalla quale estr arr e il ca m pio n e ,

conosc e r n e la sua dime n sio n e (N) e definire la nu m e r o si t à del cam pion e da selezion a r e (n). si

calcola poi il pas so di cam pion a m e n t o K=N/n (quan tit à che det er mi n a ogni quan t e unità devo

selezion a r n e una). Poi si effettu a l’estr azion e casu al e di un nu m e r o compr e s o tra 1 e K per

dete r mi n a r e il punto di part e n z a S. poi si proce d e all’estr azion e di tutt e quelle unità che si trovan o

nelle posizioni S+K, S+ 2K, S+ 3K, ….., S+(n- 1)K. La lista sulla quale viene effettu a t a l’estr azion e non

deve pres e n t a r e particolari ordina m e n t i.

• Cam pion a m e n t o stra tificato: si articola in tre fasi: si suddivid e la popolazion e di riferim e n t o in stra ti

rispett o ad una o più variabili note sulla popolazion e ste s s a , si estr a e con ca m pio n a m e n t o casu al e

se m plice un ca m pio n e ad ogni stra to, si uniscon o i ca m pio ni corrispo n d e n ti ad ogni stra to per

otten e r e il cam pion e com pl e s sivo. Per calcolar e le stim e bisog n a calcolare prim a la stim a nei singoli

strati e poi la media pond e r a t a delle stim e otte n u t e . Un meto d o per allocar e le unità ca m pio n a ri e fra

gli stra ti è quello dell’allocazion e proporzion al e. Cam pi o n e pro p o r z i o n a l e : è un particolar e tipo di

STS.Cap 1/ 72

ca m pio n e stra tificato che riprodu c e la stes s a com po sizion e degli strati nella popolazion e. Il

ca m pio n a m e n t o stratificat o si fa per diminuire la variabilità delle stim e ca m pio n a ri e e perch é anch e

le sotto po p ol a zioni degli strati rappr e s e n t a n o domino di studio.

Si può ricorrer e per se m plificar e le cose alla str a ti fi c a z i o n e implici t a : anch e qui si proce d e

all’estr a zio n e del ca m pio n e define n d o un pass o di ca m pio n a m e n t o K. Bisogn a però proc e d e r e ad un

ordina m e n t o della lista secon d o i criteri di stratificazion e presc elti. Se la vari a b il e di stratificazion e

è unic a (sess o ) la lista deve ess e r e ordinat a rispe t t o a quella variabile gara n t e n d o l’ass e n z a di altre

forme di ordina m e n t o all’intern o degli strati impliciti così definiti. Si ottien e un cam pion e stratificato

proporzion al e. Se invece abbia m o più criteri di stratificazion e implicita dobbia m o ordinar e la lista

conca t e n a n d o i criteri.

CARATTERE QUANTITATIVO: se assu m e per mod alit à dei nu m e ri reali. Espre s si media n t e valori nu m e rici.

(p e s o , alt e z z a , t e m p e r a t u r a , vo t o e s a m e ). A loro volta si dividono in VARIABILI DISCRETE (in un

interv allo limitato posso n o assu m e r e solo un num er o finito di valori, le mod alit à posso n o se m p r e ess e r e

mes s e in corrispo n d e n z a con i num e ri natur ali: nu m e r o co m p o n e n t i fa m i g l i a , nu m e r o s p o r t e l l i

ba n c a r i pr o v i n c i a , dip e n d e n t i azi e n d a , pa s s e g g e r i alit a li a ) e VARIABILI CONTINUE (poss o n o ass u m e r e

qualsia si valore nell’insie m e dei num e ri reali).

CARATTERE QUALITATIVO: se assu m e mod alit à non num e ric h e . ( gr a d o ist r u z i o n e , s e s s o , gru p p o

sa n g u i g n o , pr o f e s s i o n e , s t a t o civil e , ca t e g o r i a al b e r g h i e r a ).

CARATTERI SCALA NOMINALE : costituisco n o variabili le cui mod alit à non ass u m o n o alcun ordine

preco s tit uit o (reli gi o n e , pr o f e s s i o n e , na zi o n a l i t à , s e s s o ). Sotto il profilo di sinte si statistic a per le scale

nomin ali si posso n o applicar e proporzioni, perc e n t u a li, rapporti, calcolar e la mod a, fare rappr e s e n t a zi o ni

grafiche.

CARATTERI SCALA ORDINALE: costituisco n o variabili che pur non facen d o riferim e n t o a valori num e rici,

ass u m o n o mod alit à logica m e n t e seq u e n zi ali, cresc e n ti o decre s c e n ti. Non si posso n o fare oper azioni

aritm e tic h e sulla mod alità del carat t e r e ma si può stabilire una relazion e d’ordin e ( gr a d o ist r u z i o n e ).

CARATTERI CON SCALA A INTERVALLO: sono variabili che cons e n t o n o un confront o per differenz a fra le

mod alità che i sogg e t ti ass u m o n o poiché i valori hann o un’origine arbitr aria, non univoc a m e n t e definita.

(t e m p e r a t u r a ).

Le variabili a scala ad interv allo per m e t t o n o di dete r mi n a r e l’esatt a dist an z a tra i valori che le comp o n g o n o ,

di effett u a r e sui dati delle oper azioni algebrich e di som m a e sottr a zion e . Possia m o individu a r e quale

dista n z a esist e fra un valore e un altro e possia m o confron t a r e le differe nz e . Hanno que s t a propriet à: a- b= c-

d a- c= b- d, cioè a + d = b + c .

CARATTERI CON SCALA DI RAPPORTO : sono variabili quan tit a tiv e le cui mod alit à posso n o ess e r e misur a t e

part e n d o da un’origin e che rappr e s e n t a la nullità del feno m e n o quindi univoca m e n t e definita. ( re d d i t o ,

nu m e r o figli fa m i g l i a , nu m e r o ad d e t t i im p r e s a , p e s o , alt e z z a ). Si parla di scala a rapporti qua n d o

possia m o individu a r e uno zero assoluto o non arbitr ario poich é possia m o confront a r e diversi punt e g gi

calcola n d o n e il rapport o.

CODEBOOK: è il riferim e n t o dove si riporta n o variabili che app a r t e n g o n o a una matrice di dati e mod alit à

variabili. È il risulta to del pro c e s s o di cod ifi c a il quale ass e g n a ad ogni mod alit à di ogni variabile un valore

nu m erico; esso deve rispon d e r e a 2 requisiti fonda m e n t a li: mutu a esclusività ed esa u s tivit à.

COEFFICIENTE DI VARIAZIONE : è una misur a stan d a r dizz a t a utile per confront a r e la variabilità di cam pioni

con medie divers e . È dato dal rappor to fra lo scarto quadr a tico medio e la me di a arit m e tic a della

distribuzion e. Si usa per calcolar e la variabilità per età fra le varie regioni, distribuzion e dei redditi per

nazion e o per anno, variabilità del peso rispe t t o al sess o, la variabilità nei flussi orari di traffico nei vari

giorni della setti m a n a . Esso non è definito per cara t t e ri con valore medio neg a tivo perch é non si può

interpr e t a r e una variabilità neg a tiv a.

COLLETTIVO STATISTICO (po p o l a z i o n e o univ e r s o ): è un qualsia si insie m e di ele m e n ti, reale o ipote tico,

ogg et t o di uno studio statistico. Si disting u e fra POPOLAZIONE REALE (esist e n t e e visibile) e POPOLAZIONE

VIRTUALE (definibile ma non osserv a t a né oss erv a bile). Una popolazion e è ben definita quan d o siano

chiara m e n t e specificat e le cara tt e ris tic h e che i sogg e t ti devono poss e d e r e per far part e della collettività

stes s a .

CONCETTO DI CORRETTEZZA : imm a gin a n d o di ripet er e un nu m e r o molto eleva to di volte un

ca m pio n a m e n t o sulla me d e si m a popolazion e si otterr a n n o altre tt a n t e stim e della variabile che sia mo

inter e s s a ti a studiar e : il conc e t t o di corret t e z z a ci assicur a che se noi faccia m o la media di tutt e que s t e

stim e (val or e att e s o ) ques t o sarà uguale al vero valore della popolazion e.

La distribuzion e delle medie cam pion a ri e segu e appro s si m a tiv a m e n t e la distribuzion e norm al e; la media

delle me di e cam pion a ri e è appro s si m a tiv a m e n t e ugu al e al valore medio della popolazion e (corret t e z z a ), lo

scarto quadr a tico me dio della distribuzion e delle medie ca m pio n a ri e è dett o err or e st a n d a r d .

DIAGRAMMI A BARRE: riport a n o su un ass e le mod alità del carat t e r e e sull’altro la frequ e n z a associat a ad

ogni mod alit à. Il grafico consist e in una serie di rett a n g oli equidist a n ti.

DIAGRAMMI A BARRE VERTICALI: servono per aver e una rappr e s e n t a zio n e sintetic a su un’unica variabile

riferita a una o più situazioni. STS.Cap 1/ 73

DIAGRAMMA CARTESIANO AD ASTE (o ba s t o n c i n i o s e g m e n t i ): è utile per rappr e s e n t a r e una distribuzion e

seco n d o un cara tt e r e qualita tivo discre t o.

DIAGRAMMA CARTESIANO : è utile per rappr e s e n t a r e l’anda m e n t o nel tem p o di un feno m e n o ; si riport a il

tem p o in asciss a e l’am m o n t a r e del feno m e n o in ordinat a .

DIFFERENZA INTERQUARTILE: è simile al ca m p o di variazion e ma fa riferim e n t o alla dista nz a fra il 1°e il

3°qu ar tile. Essa è più stabile del cam p o di variazion e perch é Q e Q variano men o da collettivo a collettivo

di quan t o non facciano i casi estre m i. DISTRIBUZIONI CONDIZIONATE: sono le distribuzioni di un cara tt e r e

dato che per l’altro si è fissat a una det er mi n a t a mod alit à. Il ter min e condizion a t e ha origine dal fatto che

calcolia m o la distribuzion e condizion a t a m e n t e al fatto che la riga/colon n a ass u m a una data mod alit à. Le

distribuzioni condizion a t e non posso n o ess er e confront a t e fra loro perch é si riferiscon o a totali margin ali

diversi; per poter confront a r e le distribuzioni si ricorre alle perc e n t u a li.

DISTRIBUZIONE DELLA MEDIA CAMPIONARIA: la distribuzion e ca m pio n a ri a rappr e s e n t a il modo in cui

possia m o ipotizzar e si dispo n g a n o i risultati replican d o un num e r o infinito di volte il cam pion e . Le medie dei

diversi cam pioni vengo n o chia m a t e me di e cam pion a ri e. σ

DISTRIBUZONE NORMALE STANDARDIZZATA: si ottien e con Z=(X- µ)/ . La media risulta pari a 0 e la

varianz a pari a 1.

DISTRIBUZIONI PERCENTUALI: se si indica con k la gen eric a mod alit à della variabile di riga e con h la

gen e ric a mod alità della variabile di colonn a abbia m o :

• Perce n t u ali margin ali riga: 100*n /n

• Perce n t u ali margin ali colonn a : 100*n /n

• Perce n t u ali condizion a t e riga: 100*n /n

• Perce n t u ali condizion a t e colonn a : 100*n /n

• Perce n t u ali di cella sul totale: 100*n /n

FASI DEL PROCESSO DELLA RICERCA SOCIALE:

de fi n i zi o n e obi e t t i v i di ric er c a : il ricerc a t o r e trasfor m a le idee iniziali in interro g a tivi di ricerca concre ti.

Defi ni zi o n e d ell e ipot e s i : conc e t ti astr a t ti vengo n o trado t ti in ipote si rigoros e bas a t e su cara t t e ri s tich e

oss erv a bili e/o misura bili. Elab or a z i o n e di str u m e n t i atti a mi s u r a r e le car a t t e r i s t i c h e sp e c i f i c a t e

dall e ipo t e s i di ric er c a . Rile v a z i o n e dei dati: le cara t t e ri s tich e di inter e s s e vengo n o osserv a t e e/o

misur a t e e registr a t e . I dati rile v a t i ve n g o n o co difi c a t i e arc hi v i a t i . Elab or a z i o n e dei dati :

applicazion e di meto di appro pria ti di analisi statistic a delle variabili prec e d e n t e m e n t e misur a t e per

dete r mi n a r e se e in che misur a le ipote si formulat e sono sost e n u t e dall’evide nz a empirica. Formulazion e di

conclusioni sull’import a n z a relativa delle fonti di variazion e inizialm e n t e riten u t e respo n s a bili del feno m e n o

ogg et t o di studio.

FREQUENZA: è il nu m e r o di volte che una det er mi n a t a mod alit à si pres e n t a nella popolazion e di riferim e n t o

(F. ASSOLUTA); quan d o la frequ e n z a assolut a è rappor t a t a al totale della collettività si ha la F. RELATIVA.( si

definisc e proporzion e dei casi classificati o frequ e n z a relativa n /n =f . Se calcoliam o la frequ e n z a e la

frequ e n z a relativa per ogni mod alità del caratt e r e X e inseria m o tali inform a zio ni in una tab ella ottenia m o la

DISTRIBUZIONE DI FREQUENZA (assolut a e relativa).

FREQUENZA CUMULATA: è il num e r o di casi che sono < = di un certo valore.

INFORMAZIONE STATISTICA: è un risultat o otten u t o da un’inda gin e sui collettivi esa mi n a ti in corrispo n d e n z a

delle singole unità statistich e, in rappor to ad un feno m e n o o a più feno m e ni.

INTERVALLO DI CONFIDENZA: da un ca m pio n e prob a bilistico si otten g o n o stim e dei veri valori da cui è

possibile definire gli intervalli di confide nz a, cioè gli intervalli entro cui è possibile affer m a r e che cadra n n o i

veri valori della popolazion e ad un definito livello di proba bilità.

INTERVALLO DI CONFIDENZA: è la ga m m a di valori entro al quale molto proba bil m e n t e si trova il valore vero

del para m e t r o . Quest o intervallo si det er mi n a ricorre n d o al conce t t o di error e stan d a r d .

ISTOGRAMMA: è una rappr e s e n t a zio n e grafica delle den sit à delle classi di una distribuzion e continu a

raggru p p a t a in classi. È una succ e s sio n e di rett a n g oli contigui con la bas e pari all’ampiezz a di class e e

altezz a pari alla den sit à di frequ e n z a . L’area del rett a n g olo è apri alla densit à di frequ e n z a .

LISTA DI CAMPIONAMENTO : co m p l e t e z z a : è import a n t e aver e chiaro quali selezioni posso n o ess er e stat e

oper a t e su una popolazion e ogget t o di studio per arrivar e alla l. di cam pion a m e n t o disponibile perch é ciò ha

cons e g u e n z e dirett e sulla rappr e s e n t a tivit à del cam pion e . È import a n t e definire con precision e la

popolazion e obiettivo del sond a g gio; co n o s c e n z a dell a prob a b ili t à di s el e z i o n e ; effi ci e n z a dell a list a .

MATRICE DEI DATI:è un insiem e rett a n g ol a r e di num e ri o di cara tt e ri dove in riga ci sono le unità statistich e

e in colonn a le variabili. In ogni cella deriva n t e dall’incrocio riga/colon n a abbia m o un dato, ossia il valore

registr a t o per una particolar e variabile e un particolar e caso.

MATRICI IN TRANSIZIONE: tab elle dove le unità statistich e vengo n o classificat e rispet t o ad una stes s a

variabile (X) in due istan ti diversi di te m p o (t, t+ 1). I totali sono le distribuzioni margin ali della variabile X al

tem p o t e al tem p o t+ 1. le condizion a t e di riga sono un’appr o s si m a zi o n e della prob a bilità di tran sizion e

dallo stato i a quello j nel periodo di te m p o che intercorr e tra t e t+ 1. Le condizion a t e di colonn a sono

un’app ro s si m a zio n e della proba bilità di ess er e al tem p o t+ 1 nello stato j prove n e n d o al te m p o t dallo stato i.

il valore n rappr e s e n t a la per m a n e n z a in un dato stato tra i 2 istan ti tem p or ali consid er a ti. STS.Cap 1/ 74

MEDIANA: è il valore della variabile al quale corrispo n d e il centro (50%) della distribuzion e . Per calcolarla è

nec e s s a rio ordinar e i dati, trovar e la posizione media n a ,in dividu a r e la media n a che è il valore poss e d u t o da

chi occup a la posizion e media n a . Spes s o per calcolar e la media n a viene usat a la distribuzion e di frequ e n z a :

ordinar e la distribuzion e di frequ e n z a (cu m ula t a ), individu ar e la posizion e me di a n a , ved er e in quale

mod alità mi cade ques t a posizion e. La frequ e n z a cum ula t a si può fare anch e sulle proporzioni e sulle

perc e n t u ali. La media n a sarà quella in cui è com pr e s a la freq. cum ula t a pari al 50%. La media n a è un

particolar e quan tile.

La me dia n a è definita per carat t e ri su scala ordinale e può ess er e calcolat a solo se il carat t e r e è alme n o

qualitativo ordinale; posso calcolar e la me dia n a per il livello di gradi m e n t o di un progra m m a tv. È la

mod alità del carat t e r e che divide a met à la distribuzion e .

MEDIA: è la qua n tit à che sostituit a a ciasc u n a mod alità della distribuzion e non ne alter a la som m a .

Essa è il valore che rappr e s e n t a l’equidistribuzion e e la som m a degli scarti è se m p r e 0.

Si può calcolar e la media della perc e n t u al e di stra ni eri nelle città italian e o del reddito individu ale espr e s s o

in euro.

Può ess er e calcolat a solo se il cara tt e r e è quan tit a tivo.

MEDIA CAMPIONARIA: la distribuzion e delle medie cam pion a ri e segu e appro s si m a tiv a m e n t e la distribuzion e

norm al e, è appro s si m a tiv a m e n t e uguale al valore me dio delle popolazion e , lo scarto quadr a tico medio è

dett o err or e st a n d a r d . La distribuzion e della me dia cam pion a ri a dipen d e dalla nu m e r o sit à del cam pion e n

σ

e dalla variabilità del feno m e n o di cui calcolia m o la me dia.

MODA: è l’unica misur a di tend e n z a centr al e che possia m o calcolar e per carat t e ri su scala sconn e s s a ; ess a

corrispo n d e alla mod alità che pres e n t a ma g gior e frequ e n z a o alla proporzion e perc e n t u a l e più elevat a nella

distribuzion e. È definita per cara tt e ri su scala ordinale. Si può calcolar e la mod a di un corso di laure a

frequ e n t a t o dagli stud e n ti di Siena o della nazion alità. Può ess er e calcolat a per qualsia si tipo di carat t e r e .

MODALITÀ: è l’espre s sio n e concr e t a che la variabile assu m e sulle unità statistich e.

PROBABILITÀ: casi favorevoli / casi possibili.

PROPOSIZIONE IPOTETICA: affer m a zioni sulle relazioni che intercorro n o fra conc e t ti astr a t ti.

QUANTILE: i qua n tili più import a n ti sono i quartili che dividono in 4 parti la distribuzion e, i decili (10 parti) e i

centili (100 parti). Il primo quartile (Q ) sar à quel valore che lascia a sinistr a il 25% della distribuzion e e a

destr a il 75%, il secon d o (Q ) corrispo n d e r à alla me di a n a perch é lasc er à sia a destr a che a sinistr a il 50%, il

terzo (Q )sarà quel valore per cui avre m o a sinistra il 75% e a destr a il 25%, il quarto (Q ) coincid er à con il

valore più eleva t o della distribuzion e . Il calcolo dei qua n tili è ugu al e a quello per la media n a solo che invec e

di dived er e per 2 bisogn a divider e per il nu m e r o di classi che sono individu a t e : 10 per i decili, 100 per i

centili, ecc.

REGIONE ACCETTAZIONE : l’insie m e dei valori della statistic a test che porta n o all’acce t t a zio n e dell’ipot e si

nulla.

REGIONE DI RIFIUTO: l’insie m e dei valori della statistic a test che port a n o al rifiuto dell’ipote si nulla.

RICERCA APPLICATA: si propo n e di spieg a r e i feno m e ni sociali che han no imm e di a t e implicazioni per le

politich e pubblich e.

RICERCA DI BASE: si propon e di esa mi n a r e la validità di affer m a zio ni gen er ali sulle relazioni che riguar d a n o

proce s si sociali gen er ali.

RILEVAZIONE STATISTICA: compl e s s o delle oper a zioni rivolte ad acquisire una o più inform a zioni su un

insie m e di ele m e n ti ogge t t o di studio. Si disting u o n o in RILEVAZIONE PARZIALE ( ca m p i o n a r i a ), che è una

rilevazion e condot t a su una part e della popolazion e e non su tutt e le unità statistich e e in RILEVAZIONE

TOTALE (ce n s i m e n t o ), che è una rilevazion e effettu a t a sulla totalità delle unità statistich e che comp o n g o n o

la popolazion e di riferim e n t o.

SCARTO QUADRATICO MEDIO: è definito com e la radice quadr a t a della me dia arit m e tic a dei quadr a ti degli

scarti dei valori della media. È una misur a che dipen d e dall’ordine di gran d e z z a della variabile che

oss ervia m o .

STATISTICA BIVARIATA: si ha quan d o c’è un’an alisi congiun t a di due variabili. L’analisi statistic a si bas a

sull’esa m e di distribuzioni di frequ e n z a congiun t e o tab elle a doppia entra t a .

STATISTICA DESCRITTIVA (no n pro b a b i li s t i c a ): è volta alla rappr e s e n t a zio n e media n t e stru m e n ti

mat e m a t i ci di feno m e ni reali con uno studio sull’inter a collettività in cui si ma nifes t a il feno m e n o di

inter e s s e . È la prima form a di analisi statistic a utilizzat a .

STATISTICA INFERENZIALE (ind u t t i v a o pro b a b ili s t i c a ): è volta all’induzion e proba bilistica circa la

strut t ur a incognit a della popolazion e, part e n d o da inform a zio ni rilevat e su un sottoin si e m e della

popolazion e. L’infere nz a è una cat e n a di ragion a m e n t i che part e n d o da una pre m e s s a giung e a una

conclusion e logica. Può ess e r e DEDUTTIVA (da assu n ti gen e r ali a conclusioni particolari. Se le pre m e s s e

sono vere lo sono anch e le conclusioni) o INDUTTIVA (da casi particolari a conclusioni gen e r ali. Le

conclusioni sono se m p r e incert e, prob a bilistich e).

STATISTICA SOCIALE: è il compl e m e n t o natur al e della ricerc a sociale em pirica in qua n t o fornisce meto di di

indagin e e stru m e n ti di analisi affidabili per verificare/falsificar e le ipote si di ricerc a che nece s s a ri a m e n t e un

STS.Cap 1/ 75

accorto ricerc a t o r e deve porsi. È un mezzo per rispon d e r e agli interrog a tivi concre ti riguar d a n ti i feno m e ni e

le relazioni sociali.

TABELLE A DOPPIA ENTRATA: vi si collocan o due variabili, una sulla riga X e una sulla colonn a Y e nelle celle

definite dall’incrocio fra le righe e le colonn e c’è il num e r o di casi che pres e n t a n o le corrispo n d e n ti mod alit à

delle due variabili (frequ e n z e ).

TASSO DI INCREMENTO (vari a z i o n e per c e n t u a l e ): si divide l’aum e n t o (diminuzion e) avven u t a in un certo

periodo di tem p o per l’am m o n t a r e del tem p o di part e n z a .

TEST STATISTICO: è un proc e s s o di verifica d’ipot e si in cui sottop o ni a m o a verifica un’ipote si nulla contro

un’ipot e si altern a tiv a.

TEST SULLA MEDIA CON VARIANZA DELLA POPOLAZIONE NOTA:

• µ µ

Siste m a di ipotesi: H : µ = ; H : µ≠

0 0

• µ σ √

Statistic a test di riferim e n t o : Z=X- / / n

0

• α

Regione di rifiuto: |Z| > z /2 per m e t t e di pren d e r e delle decisioni

TEST PER TABELLE DI CONTINGENZA: dobbia m o usar e il che ci

sull’esist e n z a o m e n o di dipe n d a tra 2 varia bili di tipo nomi n al e.

• Siste m a di ipotesi: H : indipen d e n z a statistic a tra X e Y; H : dipen d e n z a statistic a fra X e Y.

• Statistic a test:

sotto H tale statistic a test si distribuisc e com e un con gradi di libertà pari a (nu m e r o di righe –

1)*(nu m e r o di colonn e – 1). Per il calcolo della statistic a test si deve calcolar e la tab ella dei valori

att e si.

• Regione di rifiuto: cade nella coda destr a della distribuzion e.

Se il siste m a di ipote si ha ipote si alter n a tiv e divers e da H : µ µ ca m bi a n o le are e di rifiuto:

• µ α

Se H : µ < rifiuto H per Z< - z /2

0

• µ α

Se H : µ > rifiuto H per Z> z /2

0 σ

TEST SULLA MEDIA CON VARIANZA DELLA POPOLAZIONE INCOGNITA: si deve ricorrer e alla stim a di . Allora

la statistic a test, sotto ipotesi nulla, non è più una norm al e stan d a r d ma una distribuzion e t di Stud e n t con

(n- 1) gradi di libert à.

• Siste m a di ipotesi: H : µ = µ

• √

Statistic a test di riferim e n t o : t=X- µ /S/ n

• µ≠µ

Se H : rifiuto H per |t|>t

Regioni d rifiuto: α/2

1 0 0

µ<µ

Se H : rifiuto H per t<-t α

1 0 0

µ>µ

Se H : rifiuto H per t>t α

1 0 0

TEST SU UNA PROPORZONE: se X è una variabile che assu m e valori 0 e 1 si ha:

• π=π

H :

Sistema di ipotesi: 0 0

• µ π π

Statistic a test di riferime n t o: Z= p - √

0 / 0 (1 - 0) / n

• π≠ π

Se H : rifiuto H |z|>z

Regioni di rifiuto: per α/2

1 0 0

π< π

Se H : rifiuto H z<-z

per α

1 0 0

π> π

Se H : rifiuto H z>z

per α

1 0 0

UNITÀ STATISTICA: è l’ele m e n t o di bas e della popolazion e sul quale viene rilevat a la cara tt e ris tic a ogge t t o di

studio.

VARIABILE: qualsiasi carat t e ri s tic a, attribu to di perso n e , ogge t ti o eventi che posso n o ass u m e r e diversi

valori. Esiston o v. indipe n d e n t i (svolgon o un ruolo ant e c e d e n t e o casu al e e gen er al m e n t e com p aio n o nella

part e iniziale dell’ipot e si) e v. dipen d e n ti (svolgon o un ruolo cons e g u e n t e rispe t t o alle indipe n d e n ti). Ogni

cara tt e ris tic a che pres e n t a ciasc u n a unità statistic a.

VARIABILE CASUALE NORMALE: è una variabile casu al e continu a definita sull’ass e dei nu m e ri reali (-

∞ ∞ σ

<X < + ) c h e dipen d e dai par a m e t ri µ e quadr o che corrispo n d o n o alla media e alla varianz a della

distribuzion e. Al variar e della me di a la curva trasla e al variar e della varianz a divent a più piatt a e allung a t a .

Il valore me dio si trova al centro della distribuzion e e la curva è sim m e t ric a rispet t o ad esso; la mod a e la

medi a n a coincidon o con il valore medio; la mag gior part e delle osserv a zioni si trova attorn o al valore medio.

L’area totale sotto s t a n t e la curva è pari a 1, a sinistra della medi a l’area è pari a 0.5 così com e a destr a.

VARIABILI A INTERVALLO O RAPPORTO RAGGRUPPATE IN CLASSI: è possibile diminuire il num e r o delle

mod alità aggr e g a n d o le mod alità stes s e in classi. Il nu m e r o delle classi e la loro definizione posso n o ess er e

scelti arbitr aria m e n t e . Ogni mod alità deve app ar t e n e r e ad un solo interv allo. Le classi per car a t t e r i

con ti n u i si form a n o costru e n d o delle succ e s sio ni di intervalli in modo che ogni unità poss a ess e r e attribuit a

STS.Cap 1/ 76

ad uno e un solo intervallo. Le classi posso n o cont e n e r e entr a m b i gli e s t r e m i o solo uno di essi.

L’a m p i e z z a di class e è la lungh ez z a dell’interv allo che definisc e la class e : se l’intervallo è nella form a (a, b]

o [a,b) l’ampiezz a è b- a; se l’intervallo è nella form a [a,b] l’ampiezz a è b- a + 1. Le classi posso n o ess e r e

eq ui a m p i e (si suddivid e l’interv allo di definizion e della variabile in interv alli di ugu al e am pi ezz a) o

eq ui fr e q u e n t i (si dete r mi n a n o gli estr e m i delle classi in modo che ognun a abbia frequ e n z e assolut e o

relative costa n ti, cioè si divide il totale per il nu m e r o di classi e si individua l’ampiezz a). Le frequ e n z e di

classi di am pi ezz a divers a si posso n o co n fr o n t a r e solo dopo aver elimin at o l’effetto della divers a ampiezz a .

Per eliminar e tale effetto si divide la frequ e n z a della class e per l’ampiezz a della class e : si ottien e così la

de n s i t à di fre q u e n z a .

VARIANZA: è il quad r a t o dello scarto quadr a tico medio.

VERIFICA IPOTESI: si definisco n o le ipotesi, si det er mi n a la statistic a cam pion a ri a di riferim e n t o, si calcola il

valore della statistic a test, si confront a il valore del test con i valori critici, conclusion e.

VETTORE: è una succ e s sio n e di valori riferiti ad una data carat t e ri stica X.

1. Le seg u e n ti inda gini statistich e sono di tipo cam pio n a rio o cens u a rio ?

A) Per verificar e l’efficacia del proprio sist e m a scolas tico pubblico la Region e

Tosca n a com mi s sio n e un’inda gin e sul 10% delle classi di ogni scuola pubblica

della provincia.

Cam pi o n a ri o

Cen s u a ri o

B) Per investig a r e sugli “stili di vita” delle Famiglie Tosca n e la Region e Tosca n a

com mis sion e un’inda gin e su 5000 famiglie reside n ti al 1 gen n ai o 2005 nel

territorio region al e.

Cam pi o n a ri o Cen s u a ri o

C) Per inves tig a r e in merito alle possibili discrimin azioni di gen e r e tra i dipen d e n ti

dell’Universit à di Sien a, il “Comit a t o Pari Opportu nit à” conduc e un’inda gini su

tutti i dipen d e n ti dell’Aten e o stes s o.

Cam pi o n a ri o Cen s u a ri o

2. Per investig a r e sull’efficacia dei corsi prop e d e u ti ci (facolta tivi) di ma t e m a t i c a

per gli stud e n ti della Facolt à di Econo mi a vien e ese g ui to uno studio che me tt e in

relazion e il voto ott e n u t o all’es a m e di Analisi Mate m a tic a con la part e cip azion e o


PAGINE

118

PESO

1.37 MB

AUTORE

erikav

PUBBLICATO

+1 anno fa


DETTAGLI
Esame: Statistica
Corso di laurea: Corso di laurea in scienze della comunicazione
SSD:
Università: Siena - Unisi
A.A.: 2014-2015

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher erikav di informazioni apprese con la frequenza delle lezioni di Statistica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Siena - Unisi o del prof Ghellini Giulio.

Acquista con carta o conto PayPal

Scarica il file tutte le volte che vuoi

Paga con un conto PayPal per usufruire della garanzia Soddisfatto o rimborsato

Recensioni
Ti è piaciuto questo appunto? Valutalo!

Altri appunti di Corso di laurea in scienze della comunicazione

Economia della cultura - Appunti
Appunto
Economia politica - Appunti
Appunto
Marketing - Appunti
Appunto