vuoi
o PayPal
tutte le volte che vuoi
W =N /N S
dove e è la deviazione standard del fenomeno nello strato.
h h h
15) Il campionamento stratificato: caratteristiche e vantaggi rispetto
al campione casuale semplice
Innanzitutto, nel campionamento stratificato partendo dalla popolazione
vengono costruiti dei sottoinsiemi chiamati segmenti o strati, i quali sono
omogenei al loro interno in base a delle caratteristiche sulla quale è possibile
classificare le unità statistiche appartenenti alla lista. Mentre gli strati sono tra
loro eterogenei. Ogni strato si distingue dagli altri per una caratteristica
peculiare. Da ciascuno strato si estrae un campione casuale semplice e si fa la
stima che è costruita su due livelli: calcolo della statistica d’interesse per
ciascun segmento e combino poi le stime facendo una media ponderata con il
peso all’interno del campione uguale al peso di ciascun segmento nella
popolazione. Così facendo è possibile ottenere una riduzione della varianza
della stima se le medie dei singoli strati sono tra loro molto distanti. Se invece
le medie non sono diverse tra gli strati, la stima ottenibile con questo
campionamento è uguale a quella che si otterrebbe con il campione casuale
semplice, questo significa che l’ipotesi alla base della stratificazione non si è
verificata. L’intervallo di confidenza costruito con il campionamento stratificato
è più piccolo di quello costruito con il campionamento casuale semplice. La
stratificazione può essere: proporzionale, quando la probabilità di estrazione è
costante e uguale per tutte le unità statistiche; uniforme, quando la numerosità
campionaria viene divisa in parti uguali tra gli strati e quindi le probabilità di
estrazione sono diverse tra gli strati; ottimale, dove nel ripartire la numerosità
campionaria non si tiene conto solo del peso e della numerosità di ciascun
strato, ma anche della varianza del carattere nei diversi strati, vanno inserite
più unità campionarie dagli strati con varianza maggiore, bisogna quindi avere
una buona stima delle varianze degli strati a priori, per questo è poco applicato
nella realtà. Un altro vantaggio del campionamento stratificato è che con esso
si riesce ad avere una numerosità campionaria inferiore rispetto al
campionamento casuale semplice, ma con la stessa precisione. Inoltre, il
campionamento stratificato fornisce informazioni anche su ciascuno strato a
differenza del campionamento casuale semplice che fornisce informazioni solo
sulla popolazione nel suo complesso.
16) Le fasi di un’indagine statistica
La prima fase di un’indagine statistica è la definizione delle unità statistiche.
L’insieme delle unità statistiche viene chiamato collettivo o popolazione e il
processo per la definizione delle unità statistiche e per precisare il collettivo è
detto astrazione classificatoria. La seconda fase è quella di scelta delle
nomenclature e schemi di classificazione. La terza fase consiste nella
definizione delle variabili da osservare. In generale, seppur con le differenze
derivanti dal tipo di indagine che si deve effettuare, le variabili devono poter
essere definite oggettivamente perché sono più facili da rilevare e hanno un
grado di accettazione interpersonale più elevato. La quarta fase è la scelta
della modalità di selezione delle unità di rilevazione. Esistono due modalità:
esaustiva e campionaria, però la prima non si utilizza più, per cui si utilizza la
selezione campionaria. La quinta fase riguarda la scelta del metodo di
osservazione. In generale si ha un’interazione tra analista e intervistato che
cambia in base al metodo di osservazione. Esistono vari metodi: intervista
diretta/personale, è il metodo più efficace perché l’interazione tra i due
soggetti permette di chiarire elementi del questionario che possono risultare
complessi o riguardanti questioni delicate, per questo sono delle interviste
lunghe; interviste telefoniche, che riguardano indagini di fenomeni più semplici
in quanto c’è un’interazione più fredda e macchinosa, sono caratterizzate da
breve durata; interviste postali, sono poco utilizzate e interviste tramite web.
L’ultima fase riguarda la valutazione dei costi. I costi si dividono in fissi
derivanti dalla rilevazione, quindi riguardano gli aspetti organizzativi e costi
diretti che dipendono dal metodo di osservazione utilizzato e dalla numerosità
del campione. Si fa una stima dei costi, se risultano più alti del budget si deve
intervenire sugli elementi costitutivi dell’indagine.
17) La determinazione della numerosità campionaria nel campione
casuale semplice
La determinazione della numerosità campionaria è finalizzata a trovare quella
numerosità che sia la più piccola possibile e allo stesso tempo permetta di
soddisfare i criteri di precisone dell’indagine. I criteri di precisone sono:
determinazione del margine d’errore che si è disposti a tollerare (scelta
dell’intervallo di confidenza) e la probabilità che la stima si collochi all’interno
di tale margine d’errore (verificare che la differenza tra il vero valore e stima
sia inferiore al margine di errore 1 – α). La dimensione del campione è
possibile determinarla sapendo la dimensione della popolazione, il piano di
campionamento, l’errore e il grado di fiducia. A volte è possibile calcolare gli
errori massimi corrispondenti a diversi gradi di fiducia sapendo la numerosità
della popolazione e campionaria, la probabilità d’errore e il piano di
campionamento.
Il punto di partenza è il teorema centrale del limite che ci dice che presa una
popolazione, formata da individui sui quali è possibile trovare una variabile
casuale, questa variabile ha una varianza finita e tutte le variabili casuali
associate a ciascun individuo hanno la stessa distribuzione, per cui hanno la
stessa media e varianza. Estraendo casualmente tutte le osservazioni sono
indipendenti, per cui si hanno variabili indipendenti e identicamente
distribuite. Se prendiamo un insieme di variabili indipendenti e identicamente
distribuite il teorema centrale del limite ci dice che la media è distribuita come
una variabile casuale normale, quindi il valore atteso della media campionaria
è il vero valore della media della popolazione e la varianza della media
campionaria è uguale alla varianza nella popolazione fratto la numerosità
campionaria.
Se il parametro oggetto di inferenza è la media campionaria per determinare la
dimensione del campione dobbiamo fare riferimento alla sua distribuzione. In
particolare, nel campionamento con ripetizione .
Quindi maggiore è la numerosità campionaria, minore è la varianza, cioè
campione più preciso.
Nel campionamento senza ripetizione .
In questo caso la varianza viene moltiplicata per un fattore di correzione per
far si che la popolazione sia finita dato che non si reinseriscono le unità
statistiche. Se si lavora con popolazioni numerose questo fattore tende ad
essere pari a 1, per cui ha un’importanza ridotta. Al contrario se si ha una
popolazione piccola assume una grande importanza e comporta una grande
differenza. Successivamente possiamo calcolare l’intervallo di confidenza
e di conseguenza il margine d’errore
Date queste informazioni è possibile calcolare la numerosità campionaria.
Eguagliamo le due formule per la varianza della media campionaria e
risolviamo per n.
Numerosità campionaria per il campionamento con ripetizione:
Numerosità campionaria per il campione senza ripetizione:
2
Ơ , la varianza nella popolazione, non è ancora nota, però esistono vari metodi
per calcolarla: stima ottenuta attraverso indagini svolte in passato o su
popolazioni simili (è l’opzione più sicura), stima della varianza ottenuta nella
fase di pre-test del questionario (pericolosa) e stima desunta sfruttando la
relazione tra lo scarto quadratico medio ơ e il campo di variazione CV seconda
2 2
la quale ơ <= CV/2, da cui si deriva Ơ <= CV /4.
Invece, se l’oggetto dell’indagine è la proporzione campionaria, quindi la stima
è una stima percentuale, si deve tenere conto della sua distribuzione e in
particolare della media e varianza. Indichiamo con π la percentuale nella
popolazione e possiamo interpretare quel simbolo come la probabilità che un
individuo scelto casualmente possieda il carattere che stiamo analizzando o
che abbia manifestato un certo comportamento. Avendo a che fare con variabili
indipendenti e identicamente distribuite possiamo affermare che π sia identico
per tutti gli individui. Lo stimatore corretto è indicato con P ed è dato da nx/N,
dove nx sono gli individui che presentano il carattere, mentre N le unità
osservate. Quindi la distribuzione è nota ed è una distribuzione bernoulliana. Il
valore atteso di P è pari a π. Mentre la varianza è diversa a seconda che si
tratti di un campione con o senza ripetizione.
Con ripetizione:
Senza ripetizione:
Per N sufficientemente grande, la bernoulliana tende alla normale e quindi è
possibile definire una normale standardizzata .
Ora possiamo trovare l’intervallo di confidenza e andando a sostituire a V(P) la
sua formula nel caso del campionamento senza ripetizione e risolvendo per n
otteniamo la formula per la numerosità campionaria nel caso del
campionamento senza ripetizione: 2 2
Nel caso del campionamento con ripetizione n = (z / ε )*[π*(1-π)]
α/2
La binomiale ha un valore di massimo in corrispondenza di π = 0,5. Quindi è
una parabola.
La numerosità campionaria dipende da π che può essere stimato utilizzando
delle indagini preliminari o si può ipotizzare la situazione di massima
variabilità nella quale π(1-π) = 0.25.
18) Gli stimatori della media e della proporzione nel campionamento
stratificato e le relative varianze
Data una popolazione di N unità, viene suddivisa in H sottopopolazioni di
numerosità N (con i = 1, 2, …, H). La somma delle numerosità di ciascuno
i
strato deve essere pari a N, quindi N + N + … + N = N. Viene estratto un
1 2 H
campione da ogni strato di numerosità n (con i = 1, 2, …, H) e la somma delle
i
numerosità campionarie di ogni strato deve essere uguale alla numerosità
campionaria totale indicata con n.
Indicando con la stima della media della popolazione all’interno dello strato
(media dello strato), si ha:
dove h &egra