Che materia stai cercando?

Anteprima

ESTRATTO DOCUMENTO

dove θ indica la proporzione (incognita) degli individui che posseggono la

modalità 1.

Si desidera costruire un intervallo di confidenza per θ al livello 1 − α sulla

base di un campione casuale semplice

(x . . . x )

1 n

di dimensione n. Come vedremo, non è qui necessario distinguere casi diversi,

poichè la precisione dello stimatore che utilizzeremo per θ dipende comunque

dal valore incognito assunto da θ.

La costruzione dell’intervallo si basa sul seguente risultato: la frequenza

relativa campionaria n

X

1

θ̂ = x̄ = x i

n i=1

è una variabile aleatoria che si distribuisce approssimativamente come una

normale θ̂(1 − θ̂)

N (θ, )

n

e tale approssimazione migliora all’aumentare della dimensione campionaria

n. La frequenza relativa campionaria θ̂ non è altro che una media cam-

pionaria, essendo le osservazioni dicotomiche. Continueremo tuttavia a far

riferimento a θ̂ invece che a x̄ per tenere ben distinto il caso di stima di medie

da quello di stima di proporzioni (per la verità non si tratta di casi distinti,

ma queste sono questioni da risolvere in eventuali futuri corsi di statistica

successivi a questo).

Se dunque usiamo θ̂ come stimatore di θ, il fatto che la sua distribuzione

sia centrata sul valore vero del parametro θ indica che θ̂ è uno stimatore

θ̂(1− θ̂)

non distorto. Inoltre, il rapporto è una stima della precisione dello

n

stimatore: come sempre, tale precisione è tanto maggiore quanto più elevata

è la dimensione campionaria n. C’è tuttavia un’importante differenza da

osservare qui rispetto a quanto discusso nel caso della stima di medie. Mentre

infatti la precisione dello stimatore di una media non dipende dal valore

vero assunto dal parametro di interesse, qui la precisione varia al variare del

valore assunto da θ. In particolare, ci si accorge che la funzione θ(1 − θ) è

una funzione concava che vale 0 quando θ = 0, 1 e raggiunge il suo massimo

quando θ = 0.5. Se ne deduce che a parità di dimensione campionaria e di

livello di copertura otteremo intervalli di confidenza generalmente più stretti

quando θ si trova vicino agli estremi 0 e 1, e più larghi quando θ si trova in

un intorno di 0.5. 8

Dal fatto che θ̂ ∼ N (θ, θ̂(1 − θ̂)/n), si deduce che

θ̂ − θ

q ∼ N (0, 1).

θ̂(1−

θ̂)

n

Per ogni valore di probabilità 1 − α, possiamo allora scrivere che

θ̂ − θ

q ≤ z ) = 1 − α

P (−z ≤ α/2

α/2 θ̂(1−

θ̂)

n

dove z è al solito il quantile della normale di ordine 1 − α/2.

α/2

Un intervallo di confidenza può allora essere costruito sulla base della

seguente catena di uguaglianze:

θ̂ − θ

q ≤ z ) = 1 − α

1 − α = P (−z ≤ α/2

α/2 θ̂(1− θ̂)

n

s s

θ̂(1 − θ̂) θ̂(1 − θ̂)

= P (−z ≤ θ̂ − θ ≤ z )

α/2 α/2

n n

s s

θ̂(1 − θ̂) θ̂(1 − θ̂)

= P (− θ̂ − z ≤ −θ ≤ − θ̂ + z )

α/2 α/2

n n

s s

θ̂(1 − θ̂) θ̂(1 − θ̂)

= P (

θ̂ − z ≤ θ ≤ θ̂ + z )

α/2 α/2

n n

In altre parole, è approssimativamente uguale a 1 − α la probabilità che i due

estremi dell’intervallo s s

 

θ̂(1 − θ̂) θ̂(1 − θ̂)

 

θ̂ − z , θ̂ + z

α/2 α/2

n n

contengano il valore “vero” della proporzione θ della popolazione.

5 Ancora sulla determinazione della dimen-

sione campionaria

Il calcolo della dimensione campionaria ottimale può essere compiuto anche

quando l’intervallo di confidenza è calcolato per una proporzione incognita θ.

9

Naturalmente, in questo caso la precisione dello stimatore (e quindi l’ampiez-

za dell’intervallo) dipende dal valore assunto da θ, che è incognito. È dunque

necessario usare come misura cautelativa la quantità

2

θ(1 − θ) = 0.5 = 0.25

e procedere sulle linee della sezione dedicata alla dimensione campionaria nel

calcolo di intervalli di confidenza per medie.

Più precisamente, per ogni dimensione n l’ampiezza dell’intervallo (ad un

prefissato livello 1 − α) raggiungerà al più il valore

r 0.25

d = 2z .

α/2 n

Se dunque desideriamo calcolare la dimensione minima richiesta per avere un

intervallo per θ che non superi l’ampiezza massima d , dobbiamo cercare il

minimo valore di n tale che r 0.25 ∗

2z ≤ d

α/2 n

ovvero tale che 0.25

2 ∗ 2

4z ≤ (d )

α/2 n

o ancora tale che ³ ´

z

0.25 2

α/2

2

n ≥ 4z =

α/2 ∗ 2 ∗

(d ) d

La dimensione ottimale n è dunque data da

µ ¶ 2

z

α/2

n = d e

(d

Secondo tale formula, se ad esempio programmiamo un’indagine d’opin-

ione per stimare la proporzione degli elettori di un collegio elettorale che

voteranno per un certo partito politico e desideriamo un intervallo di confi-

denza che al livello 1 − α = 0.95 non superi l’ampiezza di 2 punti percentuali

(d = 0.02), avremo bisogno di un minimo di

µ ¶ 2

1.96

∗ e = 9604

n = d 0.02

elettori da intervistare. 10

6 Inferenza sulla differenza tra medie

Supponiamo di aver a che fare con due campioni di osservazioni, diciamo

(x ...x ) e (y ...y ), estratti indipendentemente da due popolazioni dove la

1 n

1 n 2

1

stessa variabile quantitativa si distribuisce rispettivamente con medie µ e

1

2 2

µ e con varianze σ e σ . Indichiamo inoltre, rispettivamente, con x̄ e ȳ

2 1 2

le due medie aritmetiche campionarie. Si desidera costruire un intervallo di

confidenza al livello 1 − α per la differenza tra le medie µ − µ .

1 2

Si pensi all’interpretazione di un intervallo di confidenza di questo tipo: se

esso contiene lo 0, diremo che le due medie non sono significativamente

diverse tra loro al livello 1 − α, poichè non possiamo escludere che il valore

vero del parametro d’interesse sia pari a µ − µ = 0.

1 2

Per la costruzione dell’intervallo in questione (e sotto l’ipotesi che i due

campioni siano stati estratti indipendentemente l’uno dall’altro) possiamo

distinguere i seguenti casi: 2 2 2

varianze uguali e note: (σ in questo caso, la variabile aleato-

= σ = σ )

1 2

ria (x̄ − ȳ) − (µ − µ )

1 2

q 2 2

σ σ

+

n n

1 2

si distribuisce come una normale standardizzata e l’intervallo di confi-

denza desiderato e’ dato da: r 1 1

x̄ − ȳ ± z σ +

α/2 n n

1 2

2 2 in questo caso la variabile aleatoria

varianze diverse e note: (σ 6 = σ )

1 2

x̄ − ȳ − (µ − µ )

1 2

q 2 2

σ σ

+

1 2

n n

1 2

si distribuisce come una normale standardizzata e l’intervallo di confi-

denza desiderato e’ dato da: s 2 2

σ σ

1 2

x̄ − ȳ ± z +

α/2 n n

1 2

2

2

2 = σ )

= σ

varianze uguali ma incognite: (σ in questo caso, una stima

2

1

2

della varianza comune σ e’ data dalla cosiddetta varianza campionaria

pooled P P

n n

2 2

(x − x̄) + (y − ȳ)

1 2

i i

2 i=1 i=1

σ̂ = n + n − 2

1 2

11

e si ha che la variabile aleatoria

x̄ − ȳ − (µ − µ )

1 2

r ³ ´

1 1

2

σ̂ +

n n

1 2

si distribuisce come una t di Student con n + n − 2 gradi di liberta’

1 2

e l’intervallo di confidenza desiderato e’ dato da:

r 1

1

x̄ − ȳ ± t σ̂ +

n +n −2,α/2

1 2 n n

1 2

Si osservi che non e’ stato considerato il caso di varianze diverse e incog-

nite: la soluzione di questo problema esula dal programma del corso. Per

comprendere l’uso delle formule introdotte, consideriamo il seguente esempio

numerico.

Esempio Supponiamo che siano stati estratti due campioni di studen-

ti universitari, iscritti al secondo anno in due università italiane, e di ogni

studente è stata registrata la media dei voti conseguiti agli esami. Il primo

campione è costituito da n = 50 studenti e ha fornito una media campi-

1

onaria pari a x̄ = 23.5, mentre il secondo è costituito da n = 100 studenti

2

ed ha fornito una media campionaria pari a ȳ = 25.2. Si desidera costruire

un intervallo di confidenza al livello 1 − α = 0.95 per la differenza µ − µ

1 2

tra i voti medi riportati dagli studenti nelle due università. Le tre proce-

dure più semplici che possiamo seguire fanno riferimento alle formule viste

in precedenza.

Varianze note e uguali L’ipotesi più semplice (ma anche la più rischiosa)

consiste nell’assumere che il voto medio si distribuisca nelle due univer-

sita’ con la stessa varianza che assumiamo nota: tale varianza potrebbe

essere ad esempio quella pubblicata dall’ufficio statistico del MIUR con

riferimento al voto medio degli studenti iscritti al secondo anno in tutti

2

gli atenei italiani. Supponiamo che tale varianza σ sia uguale a 16.

Formalmente, stiamo assumendo che il voto medio degli studenti della

prima università sia una variabile aleatoria che si distribuisce seguendo

2

la normale N (µ , σ ), mentre il voto relativo agli iscritti nella seconda

1

università segua la normale Y ∼ N (µ , σ ). L’intervallo di confidenza

2 2

cercato e’ dato allora da r

r 1 1 1 1

+ = 23.5−25.2±1.96·4· + = −1.7±1.36

x̄− ȳ±z σ

α/2 n n 50 100

1 2

ovvero (−3.06, −0.34). Sulla base di questo risultato possiamo affer-

mare (con un livello di fiducia del 95%) che gli studenti della prima

12

università hanno conseguito in media un voto medio al secondo anno

inferiore a quello conseguito dagli iscritti alla seconda università. Si os-

servi che, sulla base di tale intervallo che non comprende lo zero, si può

affermare che i voti medi nelle due università sono significativamente

differenti, al livello 1 − α.

Varianze note e diverse Se invece gli uffici statistici delle due università

hanno pubblicato recentemente (rispetto alla nostra analisi) delle tabelle

da cui si evince che le due popolazioni hanno varianze diverse, possi-

amo decidere di considerare queste come note. Supponendo di avere

2 2

σ = 16 e σ = 4, l’intervallo di confidenza desiderato sara’ dato da

1 2

s r

2 2

σ σ 16 4

1 2

x̄ − ȳ ± z + = 23.5 − 25.2 ± 1.96 · + = −1.7 ± 1.18

α/2 n n n n

1 2 1 2

ovvero (−2.88, −0.52).

varianze uguali ma incognite Se non reputiamo attendibili le statistiche

del MIUR nè quelle dei due atenei, non ci rimane altra scelta che as-

sumere incognite le due varianze. Se ci sono informazioni sufficienti

per assumere che tuttavia i voti hanno la stessa dispersione nelle due

università, possiamo usare la formula contenente la varianza pooled per

l’intervallo desiderato, se conosciamo le deviazioni standard dei due

campioni. Supponendo che le seguenti siano le devazioni standard dei

due campioni: v

u n

X p

u 1

1

t 2

(x − x̄) = 50/50 = 1

i

n 1 i=1

v

u n

X p

u 2

1

t 2

(y − ȳ) 400/100 = 2

i

n 2 i=1

allora la varianza pooled e’ data da

50 + 400

2

σ̂ = = 3.04

50 + 100 − 2

e possiamo calcolare gli estremi dell’intervallo desiderato come segue:

r

r 1 1

1 1

+ = −1.7 ± 1.96 · 1.74 · + = −1.7±0.59

x̄−ȳ±t σ̂

n +n −2,α/2

1 2 n n 50 100

1 2

n + − > t ≈

dato che, essendo n 2 100, si ha z

1 2 n +n −2,α/2 α/2

1 2

13


PAGINE

15

PESO

114.47 KB

AUTORE

Atreyu

PUBBLICATO

+1 anno fa


DESCRIZIONE DISPENSA

Dispensa al corso di Econometria del Prof. Francesco Lagona. Al suo interno sono trattati i seguenti argomenti: intervalli di confidenza per la media di una popolazione, varianza nota e varianza incognita, calcolo della numerosità campionaria, intervalli di confidenza per proporzioni, inferenza sulla differenza tra medie, differenza tra due proporzioni.


DETTAGLI
Esame: Econometria
Corso di laurea: Corso di laurea magistrale in politiche pubbliche
SSD:
A.A.: 2011-2012

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher Atreyu di informazioni apprese con la frequenza delle lezioni di Econometria e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Roma Tre - Uniroma3 o del prof Lagona Francesco.

Acquista con carta o conto PayPal

Scarica il file tutte le volte che vuoi

Paga con un conto PayPal per usufruire della garanzia Soddisfatto o rimborsato

Recensioni
Ti è piaciuto questo appunto? Valutalo!

Altri appunti di Econometria

Esercitazioni con R
Dispensa
Richiami sulla distribuzione normale
Dispensa
R - Esercitazioni II parte
Dispensa
R - Esercitazioni IV parte
Dispensa