Statistica - Appunti

Appunti di Statistica per l’esame del professor Ghellini. Gli argomenti trattati sono i seguenti: statistica sociale come metodo per la ricerca sociale empirica: concetti generali e …

Esame Statistica

Facoltà Lettere e filosofia

Dal corso del Prof. Ghellini Giulio

Università Università degli Studi di Siena

Publisher erikav

A.A. 2013-2014

118 pagine

Appunto

Vota

Scarica

Estratto del documento

M F

Napoli 337 65 402

Reggio Calabria 1249 182 1431

Messina 235 31 266

Roma 74 8 82

Milano 36 15 51

Udine 44 6 50

Bari 172 15 187

Totale 2147 322 2469 STS.Cap 1/ 70

Supponiamo che l’oggetto della nostra analisi sia verificare se la città di provenienza ed il genere degli immigrati sono indipendenti o se tra le due variabili esiste

una qualche forma di associazione.

L’applicazione del test (Chi quadrato o Chi-Squared) ci permette di prendere delle decisioni sull’esistenza o meno di dipendenza tra due variabili di tipo

nominale.

Il sistema di ipotesi è il seguente:

H : indipendenza statistica tra X e Y

H : dipendenza statistica tra X e Y

La statistica test per la verifica è : 2

 

n n

 

− i . . j

( ) n

 

− e ij

n n n

 

∑∑ ∑∑

χ ij ij

= =

2 n n

n i . . j

i j i j

ij n

Sotto H tale statistica test si distribuisce come un chi-quadrato con gradi di libertà pari a

(numero di righe –1)*(numero di colonne-1).

La regione di rifiuto cade nella coda destra della distribuzione.

Schema di calcolo

Specificazione dell’ipotesi nulla e dell’ipotesi alternativa

H :indipendenza tra le variabili

H : c’è associazione tra le due variabili

1 n

Calcolo della statistica test: le frequenze specificate nella tabella dei dati campionari sono detti valori osservati . Per il calcolo della statistica test si deve

calcolare la tabella dei valori attesi, ovvero quei valori che ci aspetteremmo di trovare in ciascuna cella se non ci fosse associazione tra le variabili. Per calcolare

i valori attesi usiamo la formula: ×

totale della riga totale della colonna

valore atteso totale generale

Questo perché se le variabili sono indipendenti le frequenze relative marginali saranno uguali alle rispettive condizionate ovvero la frequenza di una cella sarà

perfettamente determinata dal prodotto tra le frequenze relative di riga e totale di colonna e viceversa, in quanto

e ⋅

n n n

n e

ij i . . j

= → =

i . n

n n n

. j e

Generalmente le frequenze attese sono indicate con

Calcolo della Statistica Test χ

Il test ha una distribuzione campionaria, ovvero e un valore che varia al ripetersi infinite volte del campionamento; tale distribuzione è un con un numero di

gradi di libertà (g.l.) pari al prodotto (numero di righe –1)*(numero di colonne-1). Si deve calcolare il valore critico del sulle tavole, dato il livello di

significatività del test.

Si confronta il valore critico con il valore della statistica test e si rifiuta l’ipotesi nulla se il valore della statistica test è maggiore del valore critico.

Torniamo all’esempio:

H :indipendenza tra città di provenienza e sesso degli emigrati

H : c’è associazione tra le due variabili

1 e

n ij

La tabella delle frequenze osservate è quella specificata precedentemente, dobbiamo determinare la tabella delle frequenze attese

⋅

n n

e = i . . j

n per ogni i ed ogni j

ij n

Città di provenienza Genere Totale

M F

Napoli 349.57 52.43 402

Reggio Calabria 1244.37 186.63 1431

Messina 231.31 34.69 266

Roma 71.31 10.69 82

Milano 44.35 6.65 51

Udine 43.48 6.52 50

Bari 162.61 24.39 187

Totale 2147 322 2469

( ) 2 ( )

− 2

−

n n

7 2 337 349

. 57

∑∑

χ ij ij

= = +

2 e 349 .

= =

1 1 j 1 ij

( ) ( )

2 2

− −

1249 1244 .

37 15 24 .

+ + =

... 21 .

1244 .

37 24

. 39 α=0.05 χ

g.l=(7-1)*(2-1)=6, per si ha =12.592

20.05;6

Siccome il valore della statistica test è 21.08 si ha: STS.Cap 1/ 71

21.08>χ =12.592l’ipotesi di indipendenza è rifiutata.

20.05;6

Nota sui gradi di libertà

Nelle tavole 2*2 abbiamo un grado di libertà, perchè?

Perchè, note le marginali, avendo un unico dato interno della tabella possiamo calcolare gli altri 3uno solo è libero

Nelle tabelle (r*c), invece i gradi di libertà sono

(r-1)*(c-1)

cioè una riga e una colonna sono sempre calcolabili per differenza.

Problemi di calcolo per il 2 χ

Un problema che si può incontrare nel calcolo del è dato dalla presenza di celle con un numero limitato di osservazioni (< 5), perchè questo provoca delle

instabilità nel calcolo. Per ovviare a tale problema, talvolta si ricorre all’aggregazione di modalità adiacenti, ovviamente se tale a aggregazione ha significato.

Limiti del 2

Il il test del , ci permette quindi di rifiutare o meno l’ipotesi di indipendenza tra due variabili, anche se non ci fornisce alcuna indicazione sulla forza

dell’eventuale legame esistente tra le due variabili χ

Per fare ciò sono calcolabili altre misure (misure di connessione), che basandosi sempre sul test del forniscono degli indici relativi. Tali indici variano infatti

tra 0 e 1; dove 0 indica indipendenza tra i caratteri e 1 perfetta connessione.

Ovviamente tutte le misure di connessione per variabili qualitative o rese tali, possono darci indicazioni sull’esistenza del legame e parzialmente sulla forza, ma

certamente non possono dirci nulla sulla direzione dell’eventuale legame, visto che tali variabili non rispondono ai requisiti minimi di ordinabilità.

AEREOGRAMMA: è un diagr a m m a per are e, cioè un grafico in cui le frequ e n z e o le qua n tit à di una

distribuzion e statistic a sono rappr e s e n t a t e da supe rfici di figure pian e post e una acca n t o all’altra o da parti

di ess e. Un aero gr a m m a particolar e è il dia g r a m m a a tort a . In esso l’area del cerchio espri m e la

frequ e n z a totale del feno m e n o , i settori circolari rappr e s e n t a n o le frequ e n z e delle singole mod alit à del

cara tt e r e . La misur a dei settori circolari si ottien e dividen d o l’angolo giro in parti proporzion ali alle

frequ e n z e del cara tt e r e .

CAMPIONE: la capa cit à di un cam pion e di rappr e s e n t a r e corre tt a m e n t e una popolazion e dipen d e dalla lista

disponibile per la selezion e del cam pion e , dalla dime n sio n e del ca m pio n e , dalla proce d u r a di selezion e del

ca m pio n e . Per valuta r e un cam pion e bisogn a esa min a r e approfon dit a m e n t e il proc e s s o che port a alla sua

dete r mi n a zio n e . Dunqu e un cam pion e potrà ess er e rappr e s e n t a tiv o solo della popolazion e che costituisc e la

lista dal quale il cam pion e è stato selezion a t o (la list a di ca m p i o n a m e n t o è quella lista di unità che hann o

una definita prob a bilità di ess er e estr a t t e ), devono ess er e usat e liste di cam pion a m e n t o proba bilistich e

(ogni unità della lista di cam pion a m e n t o deve aver e una proba bilità nota di ess er e inserit a nel ca m pio n e ), il

modo in cui si sceglie di estr a rr e la singola unità influenz a la precision e delle stim e.

CAMPIONE PROBABILISTICO : si ha quan d o ogni unità che lo com po n e viene estra t t a con una prob a bilità nota

e divers a da zero. Tali cam pioni si distingu o n o in ca m p i o n i ad un o st a d i o (quelli in cu avvien e una sola

estr azion e di unità cam pion a ri e e que s t e corrispo n d o n o alle unità statistich e che siamo inter e s s a t i a

studiar e ) e in ca m p i o n i a du e o più st a d i (tutt e quelle forme di cam pion a m e n t o in cui avven g o n o alm e n o

due estr a zioni di unità ca m pio n a ri e, gerarc hic a m e n t e ordina bili, di cui solo l’ultima rappr e s e n t a l’unità

statistic a di intere s s e per l’indagin e).

CAMPIONAMENTO PER QUOTE : all’intervist a t o r e vengo n o fornite delle quot e o istruzioni riguar d a n ti il

nu m er o di perso n e di vario gen e r e che dovra n n o intervist a r e , lascia n d oli liberi di sceglier e le specifiche

perso n e in modo perso n al e.

CAMPIONAMENTO PROBABILISTICO : se da una popolazion e di N unità si estra e una cam pion e di n unità, la

frazion e n/N rappr e s e n t a la frazione di cam pion a m e n t o qualu n q u e sia lo sch e m a di ca m pio n a m e n t o

adott a t o.

• Cam pion a m e n t o casu al e se m plice: è quello che rappr e s e n t a il punto di riferim e n t o per valuta r e

l’efficienz a di qualsia si altar forma di cam pion a m e n t o e anch e sotto il profilo teorico è quello rispet t o

al quale è stat a costruit a la teoria dell’infere n z a statistic a. Esso viene realizzat o aven d o a

disposizion e una lista num e r a t a da 1 a N delle unità della popolazion e . Per stim ar e un valore me dio

Per stim ar e una proporzion e o una frazione della popolazion e che possie d e una certa carat t e ri s tic a

• Cam pion e siste m a t i co: è sufficient e aver e la lista di unità dalla quale estr arr e il ca m pio n e ,

conosc e r n e la sua dime n sio n e (N) e definire la nu m e r o si t à del cam pion e da selezion a r e (n). si

calcola poi il pas so di cam pion a m e n t o K=N/n (quan tit à che det er mi n a ogni quan t e unità devo

selezion a r n e una). Poi si effettu a l’estr azion e casu al e di un nu m e r o compr e s o tra 1 e K per

dete r mi n a r e il punto di part e n z a S. poi si proce d e all’estr azion e di tutt e quelle unità che si trovan o

nelle posizioni S+K, S+ 2K, S+ 3K, ….., S+(n- 1)K. La lista sulla quale viene effettu a t a l’estr azion e non

deve pres e n t a r e particolari ordina m e n t i.

• Cam pion a m e n t o stra tificato: si articola in tre fasi: si suddivid e la popolazion e di riferim e n t o in stra ti

rispett o ad una o più variabili note sulla popolazion e ste s s a , si estr a e con ca m pio n a m e n t o casu al e

se m plice un ca m pio n e ad ogni stra to, si uniscon o i ca m pio ni corrispo n d e n ti ad ogni stra to per

otten e r e il cam pion e com pl e s sivo. Per calcolar e le stim e bisog n a calcolare prim a la stim a nei singoli

strati e poi la media pond e r a t a delle stim e otte n u t e . Un meto d o per allocar e le unità ca m pio n a ri e fra

gli stra ti è quello dell’allocazion e proporzion al e. Cam pi o n e pro p o r z i o n a l e : è un particolar e tipo di

STS.Cap 1/ 72

ca m pio n e stra tificato che riprodu c e la stes s a com po sizion e degli strati nella popolazion e. Il

ca m pio n a m e n t o stratificat o si fa per diminuire la variabilità delle stim e ca m pio n a ri e e perch é

Anteprima

Vedrai una selezione di 25 pagine su 118