Anteprima
Vedrai una selezione di 7 pagine su 29
Prima parte del programma di Piano degli esperimenti: metodi di campionamento Pag. 1 Prima parte del programma di Piano degli esperimenti: metodi di campionamento Pag. 2
Anteprima di 7 pagg. su 29.
Scarica il documento per vederlo tutto.
Prima parte del programma di Piano degli esperimenti: metodi di campionamento Pag. 6
Anteprima di 7 pagg. su 29.
Scarica il documento per vederlo tutto.
Prima parte del programma di Piano degli esperimenti: metodi di campionamento Pag. 11
Anteprima di 7 pagg. su 29.
Scarica il documento per vederlo tutto.
Prima parte del programma di Piano degli esperimenti: metodi di campionamento Pag. 16
Anteprima di 7 pagg. su 29.
Scarica il documento per vederlo tutto.
Prima parte del programma di Piano degli esperimenti: metodi di campionamento Pag. 21
Anteprima di 7 pagg. su 29.
Scarica il documento per vederlo tutto.
Prima parte del programma di Piano degli esperimenti: metodi di campionamento Pag. 26
1 su 29
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

CAMPIONE CASUALE SEMPLICE CON REIMMESSA / RIPETIZIONE

In questo tipo di disegno le unità campionarie hanno probabilità costante di essere incluse nel campione,

pari a 1/N. Lo spazio campionario è composto dall’insieme dei campioni ordinari e con reimmessa. Si parla,

quindi, di prove ripetute IID tante binomiali, che compongono una bernoulliana.

1

() =

La probabilità del campione è:

E la probabilità di inclusione di primo ordine di ogni unità statistica nel campione è pari a:

1

= 1 − (1 − )

La probabilità di inclusione del secondo ordine, invece, è:

1 2

= 1 − 2 ∗ (1 − ) + (1 − )

Data , variabile che assume valore 1 se l’unità statistica i appartiene al campione j e 0 altrimenti. La

frequenza attesa dell’unità statistica i nel campione j è pari alla frazione di campionamento o di sondaggio:

= () = ∑ () =

1

() =

Essendo che , in quanto in questo caso vi sono prove indipendenti e identicamente distribuite.

CAMPIONAMENTO CON PROBABILITA’ VARIABILI E COSTANTI

I piani di campionamento a probabilità costanti sono caratterizzati da meccanismi di estrazione casuale in

cui ogni unità statistica ha la stessa probabilità di estrazione. (CCS CR, CCS SR)

Nei piani di campionamento a probabilità variabili, ogni unità della popolazioni ha una probabilità di

estrazione diversa da quella delle altre. Si utilizzano dei pesi per capire qual è la probabilità di estrazione di

ogni unità, affinchè il campione rappresenti la popolazione in maniera adeguata. Solitamente, il peso

(probabilità di inclusione nel campione) dipende dalla grandezza dell’unità statistica.

Il “peso” è detto ‘variabile ausiliaria’ o ‘misura d’ampiezza’.

Il campionamento con probabilità costanti può essere considerato un caso particolare del campionamento

con probabilità variabili.

STIMA DELLA MEDIA E DEL TOTALE

Sono gli aspetti più rilevanti dell’inferenza descrittiva per popolazioni finite. Dalla popolazione indicata

come: {Y ,Y ,…,Y }, su cui si rileva il carattere Y, si possono calcolare la media e il totale della popolazione:

1 2 N

= ∑

=1

1

̅ = ∗ ∑ =

=1

La stima del totale è la stima della somma delle modalità manifestate della variabile y da tutte le unità

statistiche della popolazione. Può capitare che il miglior stimatore sia, comunque, uno stimatore distorto.

La proporzione è il numero di unità statistiche della popolazione, che, rispetto al totale, appartengono a un

cluster che ha una determinata caratteristica. Solitamente il cluster viene formato tramite una variabile

binarizzata.

Lo stimatore del totale nel caso di probabilità costanti si calcola allo stesso modo per il campionamento con

e senza reimmessa i due stimatori hanno lo stesso valore puntuale. Ciò che cambia è la varianza: nel

campionamento CR la varianza è maggiore che nel campionamento SR. A parità di probabilità di

estrazione è più informativo lo stimatore calcolato attraverso il campionamento SR, in cui non si rischia di

estrarre la stessa unità statistica più volte, è più efficiente, in quanto ha varianza minore, quindi è più

preciso. L’effetto del disegno (designed effect) è, quindi, sulla varianza e, di conseguenza, sull’intervallo di

confidenza dello stimatore, non sul suo valore puntuale. →

Per il teorema centrale del limite si può approssimare qualsiasi distribuzione alla normale quando N +∞,

e la distribuzione è simmetrica e unimodale.

Campionamento con ripetizione (CCS CR) e probabilità costanti

Le prove sono IID reinserimento dell’unità statistica estratta.

Dato che Pi (i=1,2,…,N) sono le probabilità di estrazione delle N unità della popolazione, con

0 ≤ ≤ 1 = 1

e , se le probabilità di estrazione sono costante si ha:

1 →

= per ogni i ogni individuo ha equiprobabilità di venire estratto.

E quindi la stima della media e del totale sono rispettivamente:

1

̅ = ∗ ∑

̂ = ∗ ̅

La varianza dello stimatore è calcolabile come: 2

(̂) 2

= ∗

2

Dove è la varianza della popolazione, che ha formula:

1 ̅)

2 2

= ∗ ∑( −

=1

Ma per eseguire questo calcolo si ha bisogno di informazioni riguardanti la popolazione totale, che, invece,

sono ignote. Perciò si utilizza lo stimatore corretto (e naturale):

2

(̂) 2

= ∗

Dove al posto della vera varianza della popolazione, si pone uno stimatore di questa, ricavato dal campione

utilizzato.

Campionamento con ripetizione (CCS CR) e probabilità variabili

In questo caso per stimare il totale e la media si costruiscono delle combinazioni lineari dei valori delle

variabili attraverso dei pesi (reciproci delle probabilità delle rispettive unità statistiche). Queste

informazioni ausiliarie / variabili di ampiezza sono molto utili, in quanto permettono di avere una maggior

precisione nella stima, rispetto a quando si utilizzano probabilità costanti.

Essendo il campionamento con ripetizione, la sua numerosità rimane invariata.

Per stimare il totale, in questo caso, si utilizza lo stimatore di Hansen-Hurwitz:

1

̂ = ∗∑

=1

La varianza di questo stimatore è: 2

1

(̂ = ∗ ∑ ∗ ( − )

)

=1

Dove Pi è la probabilità dell’i-esima unità statistica di essere estratta dalla popolazione e Y il vero valore del

totale. Poiché questi valori non possono essere conosciuti, allora si utilizza uno stimatore corretto della

varianza dello stimatore: 2

1

(̂ ̂

= ∗ ∑ ( − )

)

∗ ( − 1)

=1

Che è uno stimatore naturale anziché utilizzare le informazioni riguardanti la popolazione, utilizzo

informazioni riguardanti il campione estratto.

La varianza dello stimatore è tanto più bassa (lo stimatore è tanto più preciso), quanto più la variabile di

ampiezza è correlata con la variabile target. Infatti, se si utilizza una variabile di ampiezza perfettamente

correlata con il target, allora lo stimatore è perfetto, ha cioè varianza zero. Si punta alla perfetta

collinearità tra la variabile di ampiezza e la variabile target.

Data X, variabile ausiliaria: (̂

= = ∀ i = 0

)

NB: andando a sostituire 1/N a ogni Pi si ottengono le stesse formule e, di conseguenza, gli stessi risultati,

che si otterrebbero da un campionamento con ripetizione e probabilità costanti.

Campionamento senza ripetizione (CCS SR) e probabilità costanti

In questo tipo di campionamento non vi è rischio di estrarre più volte la stessa unità statistica, è infatti

quello ideale per popolazioni finite, ma le estrazioni non sono IID e, inoltre, la dimensione della popolazione

cambia a ogni estrazione. Il processo di estrazione segue la distribuzione ipergeometrica.

Se le probabilità di estrazione delle unità della popolazione sono costanti, lo sono anche le probabilità di

inclusione: 1

=

Lo stimatore corretto del totale della popolazione è:

̂ = ∗ ∑ = ∗ ̅

Che è uguale allo stimatore del totale del campionamento con reimmessa e probabilità costanti.

è il reciproco della frazione di campionamento ed è chiamato fattore di espansione. Permette di passare

dal totale del campione, alla stima del totale della popolazione.

La varianza dello stimatore è: (1 − )

(̂) 2 2

= ∗ ∗

2

Dove S indica la varianza della popolazione ed è calcolabile come:

1

̅

2 2 2

= ∗ ( − ) = ∗ ,

=1

−1 −1

= è la frazione di sondaggio / di campionamento e

1 − è il fattore di correzione per popolazioni finite, grazie al quale si tiene conto che la misura della

popolazione si riduce a ogni estrazione. Questo è tanto più importante quanto la popolazione è piccola e la

frazione di campionamento grande. L’estrazione successiva è tanto più condizionata dalla precedente,

quanto più la popolazione è piccola. Infatti, la frazione di sondaggio tende a 1, quando N è molto grande e

n/N piccola. − − → →

1 − = ≅ →1 quando N +∞ e n/N 0

−1

In questo caso il CCS SR tende al CCS CR, perché oltre a portare allo stesso valore della stima puntuale del

totale, portano anche a un valore della varianza del totale molto simile.

Siccome per calcolare la varianza dello stimatore, occorrerebbero informazioni sulla popolazione, che non

abbiamo, allora si calcola il suo stimatore corretto: (1 − )

(̂) 2 2

= ∗ ∗

2

Dove s è la varianza campionaria, stimatore naturale corretto della varianza dello stimatore del totale, ed è

pari a:

1

2 2

= ∗ ∑( − ̅)

−1 =1

Campionamento senza ripetizione (CCS SR) e probabilità variabili 1

=

In questo caso, data πi, probabilità di inclusione del primo ordine, si fissano i pesi . Il calcolo delle

probabilità di inclusione πi dipende dal modo in cui si effettuano le estrazioni.

Lo stimatore corretto del totale è quello di Horwitz-Thompson:

̂ = ∑

=1

1

La quantità è chiamato ‘fattore di espansione’,

Dettagli
Publisher
A.A. 2020-2021
29 pagine
1 download
SSD Scienze fisiche FIS/01 Fisica sperimentale

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher 14Laura di informazioni apprese con la frequenza delle lezioni di Piano degli esperimenti e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Milano - Bicocca o del prof Chiodini Paola.