vuoi
o PayPal
tutte le volte che vuoi
X Y
2 2
la varianza della differenza, quando Cov(X,Y) = 0, è: Var(X – Y) = σ – σ – 2Cov(X,Y).
X Y
CAPITOLO VII – Campionamento e distribuzioni campionarie
La scelta di usare i campioni invece che l’intera popolazione, è subordinata ai vantaggi che si ottengono:
questo procedimento infatti comporta una minore spesa e un minor costo. Il campione casuale semplice è il
campione ideale per ottenere dei risultati che si avvicinino a quelli della popolazione. Esso è caratterizzato
dal fatto che le unità vengono estratte una ad una, rimuovendo dalla popolazione la singola unità estratta e
attribuendo la stessa probabilità di essere estratte alle unità rimanenti. Il modo più immediato per realizzare
un campionamento casuale semplice è quello dell’urna: alle unità della popolazione, numerate con gli interi
da 1 a N, si fanno corrispondere altrettante palline recanti detti numeri, si inseriscono le palline in un’urna e
si procede all’estrazione, senza reimmissione, di n palline; faranno parte del campione le n unità individuate
dai numeri delle palline estratte. Data una popolazione, si considera una sua caratteristica, ad esempio la
media μ. Estratto dalla popolazione un campione, per fare inferenza sulla caratteristica si dovrà scegliere una
statistica campionaria: la media campionaria X. L’inferenza è basata sul fatto che ogni campione casuale
determina un diverso valore x della media e quindi ognuno di essi può essere visto come una realizzazione
della variabile aleatoria X. La distribuzione campionaria di questa statistica è la distribuzione delle medie
campionarie ottenute su tutti i possibili campioni, della stessa ampiezza, estratti dalla popolazione. Date
invece, le variabili aleatorie, X , X , …, X , rappresentanti un campione casuale della popolazione, si
1 2 n
definisce la media campionaria di dette variabili come: X = 1/nΣX . La media della distribuzione delle
i
medie campionarie, coincide con la media della popolazione, infatti: E(X) = μ; man mano che il numero
degli elementi del campione aumenta, la media delle medie campionarie si avvicina alla vera media della
popolazione. Se invece la popolazione è molto grande in confronto alla dimensione del campione, le
distribuzioni delle singole componenti del campione casuale sono approssimativamente indipendenti tra
2
loro. In questo caso, la varianza della media campionaria è uguale a: Var(X) = σ /n, la quale diminuisce
all’aumentare dell’ampiezza n del campione, ciò significa che più grande è il campione, meno dispersa è la
distribuzione campionaria. Lo scarto quadratico medio, o standard error di X, della media campionaria è
invece: σ = σ/rad(n). Nel caso in cui, l’ampiezza del campione non sia così piccola rispetto alla dimensione
X
della popolazione, sappiamo che la probabilità che un particolare elemento del campione sia la seconda
osservazione dipende dalla prima osservazione (questo perché ogni unità della popolazione non può essere
2
inclusa più di una volta in un campione). In questo caso la varianza è: Var(X) = (σ /n)((N – n)/(N – 1)),
dove (N – n)/(N – 1) è chiamato fattore di correlazione per popolazioni finite. Se si considera il caso in
cui la popolazione sia distribuita normalmente, allora avremo che anche la media campionaria seguirà una
distribuzione normale, e dunque possiamo standardizzarla ed usare la distribuzione Z per calcolare le
probabilità relative alla media campionaria: Z = (X – μ)/(σ/rad(n)). In conclusione, la probabilità che la
media campionaria differisca dalla media della popolazione per almeno una quantità prefissata, diminuisce
al crescere della dimensione del campione.
Il teorema del limite centrale afferma che la somma di un campione casuale, estratto da una popolazione
con una distribuzione qualsiasi, è approssimativamente distribuita come una normale, con media μ e
2
varianza nσ , purché l’ampiezza del campione sia abbastanza grande. Quindi, dato un insieme di n variabili
aleatorie, X , X , …, X , indipendenti e identicamente distribuite e date X e X, ovvero la loro somma e la
1 2 n
loro media, avremo che per il teorema del limite centrale, la distribuzione Z è approssimativamente normale
2
standard, al crescere di n: Z = (X – nμ)/rad(nσ ).
Ora consideriamo X come il numero di successi in un campione di n osservazioni estratte da una
popolazione bernoulliana con parametro p, il quale rappresenta la proporzione delle unità della popolazione
che possiedono la caratteristica oggetto di studio. Si definisce perciò proporzione campionaria il rapporto:
P = X/n. P è la media di n variabili indipendenti e identicamente distribuite. In una distribuzione binomiale,
sia il numero sia la proporzione dei successi seguono una distribuzione molto ben approssimata dalla
distribuzione normale, quando np(1 – p) > 9. Inoltre, la media della distribuzione di P coincide con la media
della popolazione: E(P) = p. La varianza di P è invece la varianza della popolazione bernoulliana divisa per
2
n: σ = (p(1 – p)/n). Nel caso in cui il campione ha un’ampiezza elevata, la variabile aleatoria, Z
P
= (P – p)/σP, è approssimativamente distribuita come una normale standard (l’approssimazione è buona se
np(1 – p) > 9).
CAPITOLO VIII – Problemi di stima su una singola popolazione
Ogni inferenza relativa a una popolazione è basata su statistiche campionarie, le quali sono scelte in base al
parametro considerato, il cui valore è ignoto e per questo oggetto di stima. Per comprendere il concetto di
stima, si deve prima introdurre quello di stimatore, il quale, per un parametro di una popolazione,
corrisponde ad una variabile aleatoria, funzione delle variabili campionarie: i suoi valori forniscono
approssimazioni per il parametro non noto. Ogni singolo valore di questa variabile aleatoria viene detto
stima. Un esempio di stimatore della media, è la media campionaria. Una stimatore puntuale per un
parametro della popolazione è una funzione delle variabili campionarie che determina un unico valore,
chiamato stima puntuale. Riprendendo l’esempio di prima, la media campionaria X è uno stimatore
puntuale della media della popolazione μ, e il valore che X assume in corrispondenza a una particolare
realizzazione campionaria viene detto stima puntuale, x. Per valutare gli stimatori, esistono tre proprietà:
1. non distorsione, uno stimatore puntuale θ viene definito stimatore non distorto (o corretto) per il
parametro della popolazione θ se il suo valore coincide con il parametro stesso: E(θ) = θ. Uno
stimatore non distorto è non distorto in media. Ripetendo la procedura di campionamento molte
volte, si otterrà che, in media, lo stimatore non distorto sarà uguale al parametro della popolazione.
Se uno stimatore è distorto, la distorsione è misurata dalla differenza tra la media dello stimatore e il
parametro da stimare: D(θ) = E(θ) – θ (nel caso di uno stimatore non distorto vale 0);
2. non distorsione asintotica, uno stimatore puntuale θ viene definito stimatore asintoticamente non
distorto per il parametro θ della popolazione, se la differenza tra il valore atteso dello stimatore e il
parametro da stimare diminuisce al crescere dell’ampiezza del campione. Dunque, all’aumentare
dell’ampiezza del campione, la distorsione diventa sempre più piccola. Tutti gli stimatori non distorti
sono asintoticamente non distorti, non è invece detto il contrario;
3. efficienza, se ci sono più stimatori non distorti per uno stesso parametro, si definisce stimatore più
efficiente quello che ha la varianza più piccola. Essendo θ e θ due stimatori non distorti del
1 2
parametro θ, si avrà che: θ è più efficiente se Var(θ ) < Var(θ ). L’efficienza relativa di θ rispetto a
1 1 2 1
θ è il rapporto tra le loro varianze: ER = Var(θ )/Var(θ ).
2 1 2
Il nostro obiettivo ora, è quello di trovare un intervallo di valori per stimare la media della popolazione. La
maggior precisione delle nostre informazioni sul parametro della popolazione è tale nelle stime per
intervallo. In questi casi infatti, campioni più grandi, determinano stime per intervallo più precise, riflettendo
così la minor incertezza sull’effettivo valore del parametro considerato. Supponiamo quindi di estrarre un
campione casuale dalla popolazione e che A e B siano due variabili aleatorie. Se indichiamo con a e b i
valori assunti A e B, l’intervallo a-b contiene o non contiene il parametro stimato. Continuando ad estrarre
ripetutamente dei campioni casuali, troveremo sempre più intervalli e, alla fine, il 95% di questi intervalli (o
un’altra percentuale qualsiasi) conterrà il valore incognito. Quindi, uno stimatore per intervallo per un
parametro di una popolazione è una funzione delle variabili campionarie: determina gli estremi di un
intervallo di valori che verosimilmente contiene il parametro da stimare. La stima corrispondente è detta
stima per intervallo. Sia θ un parametro incognito, si ottiene lo stimatore per intervallo a livello 1 – α per θ
se si possono determinare due variabili aleatorie A e B, A < B, tali che: P(A < θ < B) = 1 – α, con 0 < α < 1.
L’intervallo a-b, valori osservati per A e B, viene definito intervallo di confidenza a livello 100(1 – α)% per
il parametro θ. La quantità 100(1 – α)% è detta livello di confidenza dell’intervallo, in essa sarà contenuto il
vero valore del parametro θ.
Se x è il valore osservato della media campionaria, un intervallo di confidenza della popolazione con
varianza nota, a livello 100(1 – α)%, è dato da: x + ME, dove ME è il margine d’errore, ed è:
ME = z σ/rad(n); z prende il nome di fattore di affidabilità. L’ampiezza, W, è invece il doppio del
α/2 α/2
margine d’errore. Se il numero dei campioni è molto elevato, il 100(1 – α)% di questi intervalli conterrà
l’effettivo valore della media della popolazione. Per ridurre il margine d’errore dell’intervallo di confidenza,
vi sono diversi modi: si può ridurre la deviazione standard della popolazione, σ; si può aumentare
l’ampiezza del campione, in quanto, così facendo, si riduce la deviazione standard (aumentare l’ampiezza
del campione comporta però un aumento d