Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
M F
Napoli 337 65 402
Reggio Calabria 1249 182 1431
Messina 235 31 266
Roma 74 8 82
Milano 36 15 51
Udine 44 6 50
Bari 172 15 187
Totale 2147 322 2469 STS.Cap 1/ 70
Supponiamo che l’oggetto della nostra analisi sia verificare se la città di provenienza ed il genere degli immigrati sono indipendenti o se tra le due variabili esiste
una qualche forma di associazione.
χ
L’applicazione del test (Chi quadrato o Chi-Squared) ci permette di prendere delle decisioni sull’esistenza o meno di dipendenza tra due variabili di tipo
2
nominale.
Il sistema di ipotesi è il seguente:
H : indipendenza statistica tra X e Y
0
H : dipendenza statistica tra X e Y
1
La statistica test per la verifica è : 2
n n
− i . . j
( ) n
2
− e ij
n n n
∑∑ ∑∑
χ ij ij
= =
2 n n
e
n i . . j
i j i j
ij n
Sotto H tale statistica test si distribuisce come un chi-quadrato con gradi di libertà pari a
0
(numero di righe –1)*(numero di colonne-1).
La regione di rifiuto cade nella coda destra della distribuzione.
Schema di calcolo
Specificazione dell’ipotesi nulla e dell’ipotesi alternativa
H :indipendenza tra le variabili
0
H : c’è associazione tra le due variabili
1 n
ij
Calcolo della statistica test: le frequenze specificate nella tabella dei dati campionari sono detti valori osservati . Per il calcolo della statistica test si deve
calcolare la tabella dei valori attesi, ovvero quei valori che ci aspetteremmo di trovare in ciascuna cella se non ci fosse associazione tra le variabili. Per calcolare
i valori attesi usiamo la formula: ×
totale della riga totale della colonna
=
valore atteso totale generale
Questo perché se le variabili sono indipendenti le frequenze relative marginali saranno uguali alle rispettive condizionate ovvero la frequenza di una cella sarà
perfettamente determinata dal prodotto tra le frequenze relative di riga e totale di colonna e viceversa, in quanto
e ⋅
n n n
n e
ij i . . j
= → =
i . n
ij
n n n
. j e
n
ij
Generalmente le frequenze attese sono indicate con
Calcolo della Statistica Test χ
Il test ha una distribuzione campionaria, ovvero e un valore che varia al ripetersi infinite volte del campionamento; tale distribuzione è un con un numero di
2
χ
gradi di libertà (g.l.) pari al prodotto (numero di righe –1)*(numero di colonne-1). Si deve calcolare il valore critico del sulle tavole, dato il livello di
2
significatività del test.
Si confronta il valore critico con il valore della statistica test e si rifiuta l’ipotesi nulla se il valore della statistica test è maggiore del valore critico.
Torniamo all’esempio:
H :indipendenza tra città di provenienza e sesso degli emigrati
0
H : c’è associazione tra le due variabili
1 e
n
n ij
ij
La tabella delle frequenze osservate è quella specificata precedentemente, dobbiamo determinare la tabella delle frequenze attese
⋅
n n
e = i . . j
n per ogni i ed ogni j
ij n
Città di provenienza Genere Totale
M F
Napoli 349.57 52.43 402
Reggio Calabria 1244.37 186.63 1431
Messina 231.31 34.69 266
Roma 71.31 10.69 82
Milano 44.35 6.65 51
Udine 43.48 6.52 50
Bari 162.61 24.39 187
Totale 2147 322 2469
( ) 2 ( )
e
− 2
−
n n
7 2 337 349
. 57
∑∑
χ ij ij
= = +
2 e 349 .
57
n
= =
1 1 j 1 ij
( ) ( )
2 2
− −
1249 1244 .
37 15 24 .
39
+ + =
... 21 .
08
1244 .
37 24
. 39 α=0.05 χ
g.l=(7-1)*(2-1)=6, per si ha =12.592
20.05;6
Siccome il valore della statistica test è 21.08 si ha: STS.Cap 1/ 71
21.08>χ =12.592l’ipotesi di indipendenza è rifiutata.
20.05;6
Nota sui gradi di libertà
Nelle tavole 2*2 abbiamo un grado di libertà, perchè?
Perchè, note le marginali, avendo un unico dato interno della tabella possiamo calcolare gli altri 3uno solo è libero
Nelle tabelle (r*c), invece i gradi di libertà sono
(r-1)*(c-1)
cioè una riga e una colonna sono sempre calcolabili per differenza.
χ
Problemi di calcolo per il 2 χ
Un problema che si può incontrare nel calcolo del è dato dalla presenza di celle con un numero limitato di osservazioni (< 5), perchè questo provoca delle
2
instabilità nel calcolo. Per ovviare a tale problema, talvolta si ricorre all’aggregazione di modalità adiacenti, ovviamente se tale a aggregazione ha significato.
χ
Limiti del 2
χ
Il il test del , ci permette quindi di rifiutare o meno l’ipotesi di indipendenza tra due variabili, anche se non ci fornisce alcuna indicazione sulla forza
2
dell’eventuale legame esistente tra le due variabili χ
Per fare ciò sono calcolabili altre misure (misure di connessione), che basandosi sempre sul test del forniscono degli indici relativi. Tali indici variano infatti
2
tra 0 e 1; dove 0 indica indipendenza tra i caratteri e 1 perfetta connessione.
Ovviamente tutte le misure di connessione per variabili qualitative o rese tali, possono darci indicazioni sull’esistenza del legame e parzialmente sulla forza, ma
certamente non possono dirci nulla sulla direzione dell’eventuale legame, visto che tali variabili non rispondono ai requisiti minimi di ordinabilità.
AEREOGRAMMA: è un diagr a m m a per are e, cioè un grafico in cui le frequ e n z e o le qua n tit à di una
distribuzion e statistic a sono rappr e s e n t a t e da supe rfici di figure pian e post e una acca n t o all’altra o da parti
di ess e. Un aero gr a m m a particolar e è il dia g r a m m a a tort a . In esso l’area del cerchio espri m e la
frequ e n z a totale del feno m e n o , i settori circolari rappr e s e n t a n o le frequ e n z e delle singole mod alit à del
cara tt e r e . La misur a dei settori circolari si ottien e dividen d o l’angolo giro in parti proporzion ali alle
frequ e n z e del cara tt e r e .
CAMPIONE: la capa cit à di un cam pion e di rappr e s e n t a r e corre tt a m e n t e una popolazion e dipen d e dalla lista
disponibile per la selezion e del cam pion e , dalla dime n sio n e del ca m pio n e , dalla proce d u r a di selezion e del
ca m pio n e . Per valuta r e un cam pion e bisogn a esa min a r e approfon dit a m e n t e il proc e s s o che port a alla sua
dete r mi n a zio n e . Dunqu e un cam pion e potrà ess er e rappr e s e n t a tiv o solo della popolazion e che costituisc e la
lista dal quale il cam pion e è stato selezion a t o (la list a di ca m p i o n a m e n t o è quella lista di unità che hann o
una definita prob a bilità di ess er e estr a t t e ), devono ess er e usat e liste di cam pion a m e n t o proba bilistich e
(ogni unità della lista di cam pion a m e n t o deve aver e una proba bilità nota di ess er e inserit a nel ca m pio n e ), il
modo in cui si sceglie di estr a rr e la singola unità influenz a la precision e delle stim e.
CAMPIONE PROBABILISTICO : si ha quan d o ogni unità che lo com po n e viene estra t t a con una prob a bilità nota
e divers a da zero. Tali cam pioni si distingu o n o in ca m p i o n i ad un o st a d i o (quelli in cu avvien e una sola
estr azion e di unità cam pion a ri e e que s t e corrispo n d o n o alle unità statistich e che siamo inter e s s a t i a
studiar e ) e in ca m p i o n i a du e o più st a d i (tutt e quelle forme di cam pion a m e n t o in cui avven g o n o alm e n o
due estr a zioni di unità ca m pio n a ri e, gerarc hic a m e n t e ordina bili, di cui solo l’ultima rappr e s e n t a l’unità
statistic a di intere s s e per l’indagin e).
CAMPIONAMENTO PER QUOTE : all’intervist a t o r e vengo n o fornite delle quot e o istruzioni riguar d a n ti il
nu m er o di perso n e di vario gen e r e che dovra n n o intervist a r e , lascia n d oli liberi di sceglier e le specifiche
perso n e in modo perso n al e.
CAMPIONAMENTO PROBABILISTICO : se da una popolazion e di N unità si estra e una cam pion e di n unità, la
frazion e n/N rappr e s e n t a la frazione di cam pion a m e n t o qualu n q u e sia lo sch e m a di ca m pio n a m e n t o
adott a t o.
• Cam pion a m e n t o casu al e se m plice: è quello che rappr e s e n t a il punto di riferim e n t o per valuta r e
l’efficienz a di qualsia si altar forma di cam pion a m e n t o e anch e sotto il profilo teorico è quello rispet t o
al quale è stat a costruit a la teoria dell’infere n z a statistic a. Esso viene realizzat o aven d o a
disposizion e una lista num e r a t a da 1 a N delle unità della popolazion e . Per stim ar e un valore me dio
Per stim ar e una proporzion e o una frazione della popolazion e che possie d e una certa carat t e ri s tic a
• Cam pion e siste m a t i co: è sufficient e aver e la lista di unità dalla quale estr arr e il ca m pio n e ,
conosc e r n e la sua dime n sio n e (N) e definire la nu m e r o si t à del cam pion e da selezion a r e (n). si
calcola poi il pas so di cam pion a m e n t o K=N/n (quan tit à che det er mi n a ogni quan t e unità devo
selezion a r n e una). Poi si effettu a l’estr azion e casu al e di un nu m e r o compr e s o tra 1 e K per
dete r mi n a r e il punto di part e n z a S. poi si proce d e all’estr azion e di tutt e quelle unità che si trovan o
nelle posizioni S+K, S+ 2K, S+ 3K, ….., S+(n- 1)K. La lista sulla quale viene effettu a t a l’estr azion e non
deve pres e n t a r e particolari ordina m e n t i.
• Cam pion a m e n t o stra tificato: si articola in tre fasi: si suddivid e la popolazion e di riferim e n t o in stra ti
rispett o ad una o più variabili note sulla popolazion e ste s s a , si estr a e con ca m pio n a m e n t o casu al e
se m plice un ca m pio n e ad ogni stra to, si uniscon o i ca m pio ni corrispo n d e n ti ad ogni stra to per
otten e r e il cam pion e com pl e s sivo. Per calcolar e le stim e bisog n a calcolare prim a la stim a nei singoli
strati e poi la media pond e r a t a delle stim e otte n u t e . Un meto d o per allocar e le unità ca m pio n a ri e fra
gli stra ti è quello dell’allocazion e proporzion al e. Cam pi o n e pro p o r z i o n a l e : è un particolar e tipo di
STS.Cap 1/ 72
ca m pio n e stra tificato che riprodu c e la stes s a com po sizion e degli strati nella popolazion e. Il
ca m pio n a m e n t o stratificat o si fa per diminuire la variabilità delle stim e ca m pio n a ri e e perch é