Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
CAMPIONE CASUALE SEMPLICE CON REIMMESSA / RIPETIZIONE
In questo tipo di disegno le unità campionarie hanno probabilità costante di essere incluse nel campione,
pari a 1/N. Lo spazio campionario è composto dall’insieme dei campioni ordinari e con reimmessa. Si parla,
→
quindi, di prove ripetute IID tante binomiali, che compongono una bernoulliana.
1
() =
La probabilità del campione è:
E la probabilità di inclusione di primo ordine di ogni unità statistica nel campione è pari a:
1
= 1 − (1 − )
La probabilità di inclusione del secondo ordine, invece, è:
1 2
= 1 − 2 ∗ (1 − ) + (1 − )
Data , variabile che assume valore 1 se l’unità statistica i appartiene al campione j e 0 altrimenti. La
frequenza attesa dell’unità statistica i nel campione j è pari alla frazione di campionamento o di sondaggio:
= () = ∑ () =
1
() =
Essendo che , in quanto in questo caso vi sono prove indipendenti e identicamente distribuite.
CAMPIONAMENTO CON PROBABILITA’ VARIABILI E COSTANTI
I piani di campionamento a probabilità costanti sono caratterizzati da meccanismi di estrazione casuale in
cui ogni unità statistica ha la stessa probabilità di estrazione. (CCS CR, CCS SR)
Nei piani di campionamento a probabilità variabili, ogni unità della popolazioni ha una probabilità di
estrazione diversa da quella delle altre. Si utilizzano dei pesi per capire qual è la probabilità di estrazione di
ogni unità, affinchè il campione rappresenti la popolazione in maniera adeguata. Solitamente, il peso
(probabilità di inclusione nel campione) dipende dalla grandezza dell’unità statistica.
Il “peso” è detto ‘variabile ausiliaria’ o ‘misura d’ampiezza’.
Il campionamento con probabilità costanti può essere considerato un caso particolare del campionamento
con probabilità variabili.
STIMA DELLA MEDIA E DEL TOTALE
Sono gli aspetti più rilevanti dell’inferenza descrittiva per popolazioni finite. Dalla popolazione indicata
come: {Y ,Y ,…,Y }, su cui si rileva il carattere Y, si possono calcolare la media e il totale della popolazione:
1 2 N
= ∑
=1
1
̅ = ∗ ∑ =
=1
La stima del totale è la stima della somma delle modalità manifestate della variabile y da tutte le unità
statistiche della popolazione. Può capitare che il miglior stimatore sia, comunque, uno stimatore distorto.
La proporzione è il numero di unità statistiche della popolazione, che, rispetto al totale, appartengono a un
cluster che ha una determinata caratteristica. Solitamente il cluster viene formato tramite una variabile
binarizzata.
Lo stimatore del totale nel caso di probabilità costanti si calcola allo stesso modo per il campionamento con
→
e senza reimmessa i due stimatori hanno lo stesso valore puntuale. Ciò che cambia è la varianza: nel
→
campionamento CR la varianza è maggiore che nel campionamento SR. A parità di probabilità di
estrazione è più informativo lo stimatore calcolato attraverso il campionamento SR, in cui non si rischia di
→
estrarre la stessa unità statistica più volte, è più efficiente, in quanto ha varianza minore, quindi è più
preciso. L’effetto del disegno (designed effect) è, quindi, sulla varianza e, di conseguenza, sull’intervallo di
confidenza dello stimatore, non sul suo valore puntuale. →
Per il teorema centrale del limite si può approssimare qualsiasi distribuzione alla normale quando N +∞,
e la distribuzione è simmetrica e unimodale.
Campionamento con ripetizione (CCS CR) e probabilità costanti
Le prove sono IID reinserimento dell’unità statistica estratta.
Dato che Pi (i=1,2,…,N) sono le probabilità di estrazione delle N unità della popolazione, con
∑
0 ≤ ≤ 1 = 1
e , se le probabilità di estrazione sono costante si ha:
1 →
= per ogni i ogni individuo ha equiprobabilità di venire estratto.
E quindi la stima della media e del totale sono rispettivamente:
1
̅ = ∗ ∑
̂ = ∗ ̅
La varianza dello stimatore è calcolabile come: 2
(̂) 2
= ∗
2
Dove è la varianza della popolazione, che ha formula:
1 ̅)
2 2
= ∗ ∑( −
=1
Ma per eseguire questo calcolo si ha bisogno di informazioni riguardanti la popolazione totale, che, invece,
sono ignote. Perciò si utilizza lo stimatore corretto (e naturale):
2
(̂) 2
= ∗
Dove al posto della vera varianza della popolazione, si pone uno stimatore di questa, ricavato dal campione
utilizzato.
Campionamento con ripetizione (CCS CR) e probabilità variabili
In questo caso per stimare il totale e la media si costruiscono delle combinazioni lineari dei valori delle
variabili attraverso dei pesi (reciproci delle probabilità delle rispettive unità statistiche). Queste
informazioni ausiliarie / variabili di ampiezza sono molto utili, in quanto permettono di avere una maggior
precisione nella stima, rispetto a quando si utilizzano probabilità costanti.
Essendo il campionamento con ripetizione, la sua numerosità rimane invariata.
Per stimare il totale, in questo caso, si utilizza lo stimatore di Hansen-Hurwitz:
1
̂ = ∗∑
=1
La varianza di questo stimatore è: 2
1
(̂ = ∗ ∑ ∗ ( − )
)
=1
Dove Pi è la probabilità dell’i-esima unità statistica di essere estratta dalla popolazione e Y il vero valore del
totale. Poiché questi valori non possono essere conosciuti, allora si utilizza uno stimatore corretto della
varianza dello stimatore: 2
1
(̂ ̂
= ∗ ∑ ( − )
)
∗ ( − 1)
=1
Che è uno stimatore naturale anziché utilizzare le informazioni riguardanti la popolazione, utilizzo
informazioni riguardanti il campione estratto.
La varianza dello stimatore è tanto più bassa (lo stimatore è tanto più preciso), quanto più la variabile di
ampiezza è correlata con la variabile target. Infatti, se si utilizza una variabile di ampiezza perfettamente
→
correlata con il target, allora lo stimatore è perfetto, ha cioè varianza zero. Si punta alla perfetta
collinearità tra la variabile di ampiezza e la variabile target.
Data X, variabile ausiliaria: (̂
→
= = ∀ i = 0
)
NB: andando a sostituire 1/N a ogni Pi si ottengono le stesse formule e, di conseguenza, gli stessi risultati,
che si otterrebbero da un campionamento con ripetizione e probabilità costanti.
Campionamento senza ripetizione (CCS SR) e probabilità costanti
In questo tipo di campionamento non vi è rischio di estrarre più volte la stessa unità statistica, è infatti
quello ideale per popolazioni finite, ma le estrazioni non sono IID e, inoltre, la dimensione della popolazione
cambia a ogni estrazione. Il processo di estrazione segue la distribuzione ipergeometrica.
Se le probabilità di estrazione delle unità della popolazione sono costanti, lo sono anche le probabilità di
inclusione: 1
=
Lo stimatore corretto del totale della popolazione è:
̂ = ∗ ∑ = ∗ ̅
Che è uguale allo stimatore del totale del campionamento con reimmessa e probabilità costanti.
è il reciproco della frazione di campionamento ed è chiamato fattore di espansione. Permette di passare
dal totale del campione, alla stima del totale della popolazione.
La varianza dello stimatore è: (1 − )
(̂) 2 2
= ∗ ∗
2
Dove S indica la varianza della popolazione ed è calcolabile come:
1
̅
2 2 2
∑
= ∗ ( − ) = ∗ ,
=1
−1 −1
= è la frazione di sondaggio / di campionamento e
1 − è il fattore di correzione per popolazioni finite, grazie al quale si tiene conto che la misura della
popolazione si riduce a ogni estrazione. Questo è tanto più importante quanto la popolazione è piccola e la
frazione di campionamento grande. L’estrazione successiva è tanto più condizionata dalla precedente,
quanto più la popolazione è piccola. Infatti, la frazione di sondaggio tende a 1, quando N è molto grande e
n/N piccola. − − → →
1 − = ≅ →1 quando N +∞ e n/N 0
−1
In questo caso il CCS SR tende al CCS CR, perché oltre a portare allo stesso valore della stima puntuale del
totale, portano anche a un valore della varianza del totale molto simile.
Siccome per calcolare la varianza dello stimatore, occorrerebbero informazioni sulla popolazione, che non
abbiamo, allora si calcola il suo stimatore corretto: (1 − )
(̂) 2 2
= ∗ ∗
2
Dove s è la varianza campionaria, stimatore naturale corretto della varianza dello stimatore del totale, ed è
pari a:
1
2 2
= ∗ ∑( − ̅)
−1 =1
Campionamento senza ripetizione (CCS SR) e probabilità variabili 1
=
In questo caso, data πi, probabilità di inclusione del primo ordine, si fissano i pesi . Il calcolo delle
probabilità di inclusione πi dipende dal modo in cui si effettuano le estrazioni.
Lo stimatore corretto del totale è quello di Horwitz-Thompson:
̂ = ∑
=1
1
La quantità è chiamato ‘fattore di espansione’,