Che materia stai cercando?

Anteprima

ESTRATTO DOCUMENTO

e tale approssimazione migliora all’aumentare della dimensione campionaria

n. Se dunque usiamo la media campionaria come stimatore della media della

popolazione, il fatto che la sua distribuzione sia centrata sul valore vero del

parametro µ indica che x̄ è uno stimatore non distorto. Inoltre, il rapporto

2

σ misura la precisione dello stimatore: come ci si potrebbe aspettare, tale

n 2

precisione è tanto minore quanto più elevata è la varianza σ e tanto maggiore

quanto più elevata è la dimensione campionaria n.

In taluni casi, la variabile X si distribuisce esattamente come una nor-

male: solo in queste circostanze x̄ si distribuisce esattamente secondo la

2

normale N (µ, σ /n). In tutti gli altri casi, la distribuzione della media

coampionaria è solo approssimata e dunque i risultati che seguono valgo-

no in modo approssimato, sebbene è importante ricordare che la qualità

dell’approssimazione migliora al crescere di n.

2

Dal fatto che x̄ ∼ N (µ, σ /n), si deduce che

x̄ − µ

q ∼ N (0, 1).

2

σ

n

Per ogni valore di probabilità 1 − α, possiamo allora scrivere che

x̄ − µ

q

P (−z ≤ ≤ z ) = 1 − α

α/2 α/2

2

σ

n

dove z è il quantile della normale di ordine 1 − α/2, ovvero il punto che

α/2

si lascia a sinistra un’area sotto la normale pari a 1 − α/2. Ad esempio, se

1 − α = 0.95, allora z = 1.96 (il calcolo del quantile z corrispondente

α/2 α/2

al livello di probabilità 1 − α va compiuto usando le opportune tavole o un

PC).

Un intervallo di confidenza può allora essere costruito sulla base della

seguente catena di uguaglianze: x̄ − µ

q

1 − α = P (−z ≤ ≤ z ) = 1 − α

α/2 α/2

2

σ

n r

r 2 2

σ σ

≤ x̄ − µ ≤ z )

= P (−z α/2

α/2 n n

r r

2 2

σ σ

= P (−x̄ − z ≤ −µ ≤ −x̄ + z )

α/2 α/2

n n

r r

2 2

σ σ

= P (x̄ − z ≤ µ ≤ x̄ + z )

α/2 α/2

n n

2

In altre parole, è approssimativamente uguale a 1 − α la probabilità che i due

estremi dell’intervallo à !

r r

2 2

σ σ

x̄ − z , x̄ + z

α/2 α/2

n n

contengano il valore “vero” della media µ della popolazione.

Quello appena costruito è un intervallo di confidenza per la media µ al

livello 1−α. Il valore 1−α indica il livello di copertura fornito dall’intervallo:

esiste sempre una probabilità pari ad α che i dati campionari provengano da

una popolazione con una media che si trova al di fuori dell’intervallo.

Si osservi che l’intervallo che abbiamo costruito è centrato sulla stima

puntuale della media x̄ e ha un “raggio” pari a

r 2

σ

z

α/2 n

la cui lunghezza dipende sia dal livello di copertura desiderato (da cui dipende

il quantile z ), sia dal grado di precisione dello stimatore misurato dalla

α/2

quantità r 2

σ

n

meglio nota come errore standard della stima.

Come applicazione numerica, consideriamo il seguente esempio.

Esempio Da informazioni derivanti da una precedente analisi, si sa che la

durata delle telefonate che arrivano ad un call center si distribuisce con una

2

varianza pari a σ = 16 minuti quadrati. Si vuole calcolare un intervallo di

confidenza al livello 1 − α = 0.95 per la durata media delle telefonate. A

tale scopo, si estrae un campione di n = 10 telefonate che fornisce le seguenti

durate: 7.36, 11.91, 12.91, 9.77, 5.99, 10.91, 9.57, 11.01, 6.11, 12.12

Il calcolo dell’intervallo desiderato è a questo punto piuttosto semplice: si

calcola dapprima la media campionaria ed il suo errore standard

x̄ = 9.766

r r

2

σ 16

= =1.265

n 10

Se inoltre 1 − α = 0.95, il quantile desiderato è dato da

z = 1.96

0.025 3

per cui il raggio dell’intervallo è dato da

r 16

z = 2.479

0.025 10

e l’intervallo è dunque dato da

(9.766 − 2.479, 9.766 + 2.479) = (7.287, 12.245).

2.2 Varianza incognita

Nella maggior parte delle applicazioni, è difficile avere una stima attendibile

2

della varianza σ della popolazione e si preferisce in genere stimarla sulla

base del campione estratto. Una stima non distorta della varianza della

popolazione è data da à !

n n

X X

1 n 1

2 2 2 2

σ̂ = (x − x̄) = x − x̄

i i

n − 1 n − 1 n

i=1 i=1 n

che non è altro che la varianza campionaria corretta dal fattore . Tale

n−1

correzione dipende dal fatto che, per piccoli campioni, la varianza campionar-

ia è uno stimatore distorto della varianza della popolazione, cioè la sua dis-

tribuzione campionaria non ha come valore atteso il valore vero del parametro

n

2

σ . Per grandi campioni, il fattore di correzione ≈ 1 e dunque l’u-

n−1

so della varianza campionaria fornisce stime attendibili della varianza della

popolazione.

In questo caso, per costruire un intervallo di confidenza della media µ

della popolazione, occorre utilizzare il fatto che la distribuzione della variabile

aleatoria x̄ − µ

q 2

σ̂

n

segue approssimativamente quella di una t di Student con n − 1 gradi di

libertà, dove n è la dimensione del campione estratto e che tale approssi-

mazione migliora all’aumentare di n. La distribuzione t di Student è molto

simile a quella di una normale standardizzata. Essa è infatti centrata sullo

0 e simmetrica rispetto ad esso. Si differenzia dalla distribuzione normale

in quanto ha delle code “più” pesanti, ovvero valori lontani dallo 0 hanno

una probabilità di essere estratti più elevata di quella che avrebbero avuto se

fossero stati estratti da una normale standardizzata. Tali differenze si atten-

uano sempre più all’aumentare della numerosità campionaria, per cui quando

n è molto elevato, si può utilizzare la distribuzione normale standardizzata

in luogo della t. 4

La costruzione dell’intervallo di confidenza segue linee analoghe a quelle

mostrate nella sezione precedente. Si indichi pertanto con t il quantile

n−1,α/2

di ordine 1 − α/2 di una t di Student di n − 1 gradi di libertà, ovvero il

punto che si lascia a sinistra un’area sotto la t pari a 1 − α/2. Ad esempio,

se 1 − α = 0.95 e il campione ha numerosità n = 10, allora t = 2.262

n−1,α/2

(il calcolo del quantile t corrispondente al livello di probabilità 1 − α

n−1,α/2

va compiuto usando le opportune tavole o un PC).

Un intervallo di confidenza può allora essere costruito sulla base della

seguente catena di uguaglianze: x̄ − µ

q

1 − α = P (−t ≤ ≤ t ) = 1 − α

n−1,α/2 n−1,α/2

2

σ̂

n

r r

2 2

σ̂ σ̂

= P (−t ≤ x̄ − µ ≤ t )

n−1,α/2 n−1,α/2

n n

r r

2 2

σ̂ σ̂

= P (−x̄ − t ≤ −µ ≤ −x̄ + t )

n−1,α/2 n−1,α/2

n n

r

r 2 2

σ̂ σ̂

≤ µ ≤ x̄ + t )

= P (x̄ − t n−1,α/2

n−1,α/2 n n

In altre parole, è approssimativamente uguale a 1 − α la probabilità che i due

estremi dell’intervallo

à !

r r

2 2

σ̂ σ̂

x̄ − t , x̄ + t

n−1,α/2 n−1,α/2

n n

contengano il valore “vero” della media µ della popolazione.

Considerando l’esempio precedente sulle durate delle telefonate, un in-

tervallo di confidenza costruito stimando la varianza della popolazione al

livello 1 − α = 0.95 può essere costruito stimando dapprima la varianza della

popolazione à !

n

X

n 10

2

2 (x − x̄) 5.633 = 6.259

σ̂ = =

i

n − 1 9

i=1

calcolando poi l’errore standard della stima

r r

2

σ̂ 6.259

= = 0.791

n 10

e infine il raggio dell’intervallo dato da:

r 2

σ̂

t = 2.262 · 0.791 = 1.789.

9,0.025 n 5

Si osservi come il raggio di questo intervallo di confidenza è minore di quello

trovato nella sezione precedente: la ragione risiede nel fatto che il campione

ha fornito una stima della varianza inferiore alla varianza vera della popo-

lazione (la dimensione campionaria deve essere sufficientemente elevata per

dare stime affidabili della varianza della popolazione). Ne segue un intervallo

di confidenza più stretto di quello trovato in precedenza:

(9.766 − 1.789, 9.766 + 1.789) = (7.977, 11.555).

3 Calcolare la numerosita’ campionaria

L’ampiezza dell’intervallo di confidenza per la media di una popolazione è

data da p 2

σ /n

d = 2z α/2

nel caso di varianza nota. E’ facile osservare che, a parita’ del livello 1−α scel-

to per l’intervallo di confidenza e della varianza nella popolazione, l’ampiezza

dell’intervalo dipende dalla dimensione campionaria n, al crescere della quale

l’ampiezza si riduce.

In molti casi applicativi, la dimensione campionaria n e’ fissata in parten-

za e dipende dal budget a disposizione per l’estrazione del campione. In altri

casi (ad esempio in test clinici o in controllo della qualità) è più importante

fissare l’ampiezza d che l’intervallo non può superare e determinare la di-

mensione campionaria minima n che garantisce tale requisito, cioè tale per

∗ ∗

cui quando n < n si ottiene un intervallo con ampiezza d > d (ovviamente,

∗ ∗

per tutti gli n > n si ottiene un intervallo con ampiezza d < d ).

Per effettuare il calcolo di n e’ sufficiente osservare che se deve essere

r 2

σ ∗

2z ≤ d

α/2 n

allora r ∗

2 d

σ ≤

n 2z α/2

ovvero µ ¶

2

2 d

σ ≤

n 2z α/2

o infine ¶

µ 2

2σz α/2 ≤ n (1)

d 6

In altre parole, per ottenere un intervallo di confidenza di un’ampiezza non

superiore a d , è necessario considerare il minimo intero n che verifica la (1),

ovvero &µ '

¶ 2

2σz α/2

n = ∗

d

dove con dxe indichiamo il piu’ piccolo intero superiore ad x (ad esem-

pio: d4.1e = 5; la funzione dxe si chiama ’cielo’ di x). Come applicazione

numerica, consideriamo il seguente esempio.

Esempio Da informazioni derivanti da una precedente analisi, si sa che la

durata delle telefonate che arrivano ad un call center si distribuisce in modo

2

approssimativamente normale con media µ incognita e varianza σ = 16

minuti quadrati. Si desidera calcolare la dimensione campionaria minima

necessaria per costruire un intervallo della durata media delle chiamate al

livello 95% che abbia un’ampiezza massima di 5 minuti. La dimensione

richiesta e’ data da ' &µ '

&µ ¶ ¶

2 2

2σz 2 · 4 · 1.96

α/2

∗ = = d9.83e = 10

n = ∗

d 5

2

Si osservi che la conoscenza di σ è cruciale per la determinazione della

dimensione campionaria ottimale. Quando la varianza della popolazione è

2

incognita, si usa considerare un valore cautelativo per σ , ponendo σ pari

a 4 o 6 volte il campo di variazione atteso per la variabile di interesse. Ad

esempio, se pensiamo che le telefonate al call center possano durare da un

2 2

minimo di 0 minuti ad un massimo di 30 minuti, utilizzeremo σ = (4 ∗ 30)

2 2

o σ = (6 ∗ 30) . Naturalmente ci si aspetta che la varianza abbia valori più

bassi, ma è meglio utilizzare una dimensione campionaria troppo elevata che

una troppo bassa.

4 Intervalli di confidenza per proporzioni

Supponiamo di aver a che fare con una variabile statistica dicotomica X che

si distribuisce nella popolazione di riferimento secondo la tabella di frequenze

relative x

0 1 − θ

θ

1 1

7


PAGINE

15

PESO

114.47 KB

AUTORE

Atreyu

PUBBLICATO

+1 anno fa


DESCRIZIONE DISPENSA

Dispensa al corso di Statistica del prof. Francesco Lagona riguardante gli intervalli di confidenza ed in particolare: intervalli di confidenza per la media di una popolazione nei casi di varianza nota e di varianza incognita; calcolo della numerosita’ campionaria, intervalli di confidenza per proporzioni, inferenza sulla differenza tra medie, differenza tra due proporzioni.


DETTAGLI
Esame: Statistica
Corso di laurea: Corso di laurea in scienze politiche per il governo e l'amministrazione
SSD:
A.A.: 2011-2012

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher Atreyu di informazioni apprese con la frequenza delle lezioni di Statistica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Roma Tre - Uniroma3 o del prof Lagona Francesco.

Acquista con carta o conto PayPal

Scarica il file tutte le volte che vuoi

Paga con un conto PayPal per usufruire della garanzia Soddisfatto o rimborsato

Recensioni
Ti è piaciuto questo appunto? Valutalo!

Altri appunti di Statistica

Distribuzione doppia, medie e varianze
Esercitazione
Normale standardizzata
Dispensa
Correlazione e regressione
Dispensa
Probabilità
Dispensa