Inferenza Statistica

Questa è la dispensa COMPLETA per prepararsi al meglio per il temuto secondo parziale di statistica in Bocconi.È molto ricca e con tanti esempi tutti perfettamente spiegati. …

Esame Analisi statistica ed economia

Facoltà Economia

Dal corso del Prof. Tonini Giovanni

Università Università Commerciale Luigi Bocconi di Milano

Publisher NiccoloMP

A.A. 2015-2016

35 pagine

1 download

Appunto

Vota 3,5 / 5 (2)

Scarica

Estratto del documento

W

UVW

N.B L’intervallo è centrato sulla realizzazione della media campionaria perché non conosco µ.

Elementi dell’intervallo di confidenza: _

Estremo inferiore dell’intervallo LCL (lower confidence level) = − ∙

• ] Z

^ _

Estremo superiore dell’intervallo UCL (upper confidence level) = + ∙

• ] Z

Margine d’errore (ME) = ∙

• ] Z

^ 2

Ampiezza dell’intervallo (W) = 2ME

• _

Errore standard =

• Z W

Fattore di affidabilità = è il quantile della normale standard che lascia a destra una probabilità di ovvero

• ] "

W

=1−

]

a ] "

Esempio "

Ipotesi: ~(µ; = 100)

Obiettivo: trovare l’intervallo di accettazione al 95% per µ

n = 25 ricorda: senza la realizzazione della madia campionaria io non posso calcolare I.C

= 34,5 à

_ Ub

= =2

Z "c

. µ = ± ∙

W

dc%

W guardo sulle tavole e trovo che

= 0,025 = 0.975 = 1.96

] ]

a ]

" ^ ^

^ . µ = 34,5 ± 1,96 ∙ 2

dc%

(30,58 ; 38,42)

Vuol dire che io mi aspetto con una confidenza del 95% di trovare µ in un campione con queste caratteristiche di

questa popolazione.

È possibile stringere l’intervallo di accettazione lavorando sul margine di errore (ME) in diversi modi:

1) allora

↑ ↓

2) allora

↓ 1 − ↓

3) allora

↓ ↓

I primi due valori posso farli variare io mentre la varianza è una caratteristica della popolazione quindi è data.

CASO 2] La varianza della popolazione è ignota

Questo è il caso più frequente.

La popolazione è sempre distribuita come una normale. Nel caso in cui io conosca la varianza della popolazione allora

posso calcolare la normale standard, adesso per farlo devo sostituire a la sua stima ovvero la varianza del

campione: .

−µ −µ

→

/ /

Tuttavia questa nuova scrittura non è più distribuita come una normale standard ma come una T di Student, ovvero:

mVn ovvero una T di Student con n-1 gradi di libertà

ZVU

o/ Z

T di Student è una famiglia di distribuzione il cui valore varia a seconda dei gradi di libertà (le tavole cambiano a

seconda dei gradi di libertà).

L’intervallo di confidenza in questo caso sarà:

. µ = ± ∙

ZVU;W

UVW

mVn

Perché cambia la distribuzione? Perché stimo con s e quindi non si distribuisce una normale perché non è

o/ Z

un numero ma è una variabile.

mVn

Quindi si distribuisce come una T di Student con n-1 gradi di libertà.

o/ Z

Forma della T di Student

Anche questa distribuzione è campanulare simmetrica centrata in 0 (valore atteso = 0) ma, a differenza della normale

standard, introduce maggiore variabilità le code della distribuzione avranno un peso maggiore.

à 3

Distribuzione normale standard e T di Student

Gradi di libertà (un accenno)

Ricorda: per calcolare s devo prima calcolare (ricorda la formula della varianza)

Per capire i gradi di libertà è utile un esempio:

Ho un campione di n=5, supponendo di conoscere il valore di a me basta sapere solo 4 dei 5 valori e posso arrivare a

conoscere il 5°.

In questo esempio ho quindi n-1 = 4 gradi di libertà ovvero 4 valori liberi di variare indipendentemente.

N.B se i gradi di libertà aumentano (ovvero aumenta l’ampiezza del campione) indicativamente per n>30 la T di

Student si può approssimare con una normale standard.

Esempio

Siamo un’azienda di credito al consumo e vogliamo analizzare l’efficienza del nostro call center valutando il tempo

medio di risposta alle richieste del cliente.

X = tempo di risposta call center (in minuti

n=10

L’azienda chiede di calcolare . µ

db% "

Step 1: calcola le statistiche campionarie (ricordati le formule)

= 1069.7778 → = 32,7075

= 110 Adesso posso calcolare l’intervallo di confidenza? Si ma solo perché so che la popolazione si

distribuisce come una normale.

. µ = ± ∙

ZVU;W

UVW

ovvero il quantile della T di Student con 9 gradi di libertà (n-1 = 10-1 = 9) che lascia a destra

d;b,bc

una probabilità di 0,05 W

N.B con le tavole della T di Student mi basta trovare perché sto cercando la probabilità a destra.

Vado sulle tavole e = 1,883

d;b,bc

Quindi il mio intervallo di confidenza sarà: 32,7075

. µ = 110 ± 1,883 ∙

db% 10

(82,0412; 119,9588)

Conclusioni: con un grado di fiducia del 90% µ si trova in questo intervallo, ovvero se estraggo 100 campioni di

ampiezza 10 dalla stessa popolazione osserverò che il 90% di questi contengono µ.

N.B non serve a nulla aumentare la confidenza fino al 100% perché l’unico risultato che troverei sarebbe che il

parametro della popolazione che sto cercando si trova in un intervallo di ±∞.

Fino ad adesso gli intervalli di confidenza sono stati calcolati chiedendo come prerequisito che la popolazione si

distribuisse normalmente. Se però non conosco la distribuzione di X o questa non è nomale? 4

In casi come questi devo affidarmi al teorema centrale del limite.

Intervalli di confidenza per grandi campioni

Se aumento l’ampiezza del campione perde di importanza il fatto di conoscere la distribuzione della popolazione o che

questa sia normale.

1) Intervalli di confidenza per µ quando la distribuzione della popolazione è ignota o qualsiasi

Questo è il caso più frequente: non conosco né la distribuzione della popolazione.

Mi baso quindi sul teorema centrale del limite: al crescere di n (ovvero n>30)

−µ ≈ 0; 1

Allora l’intervallo di confidenza avrà questa forma:

. µ = ± ∙

W

UVW

N.B non ci sarà ma ci sarà invece perché la popolazione si distribuisce approssimatamente come una

] ]

ZVU; ^ ^

normale.

2) Intervalli di confidenza per la proporzione campionaria

Per campioni sufficientemente grandi (n>30) so che:

− ≈ (0,1)

(1 − )

Il problema adesso è che p (ovvero la proporzione campionaria) è ignota.

In questo caso faccio prima una verifica:

se questa disequazione è verificata allora posso dire che:

∙ 1 − > 9 − ≈ (0,1)

(1 − )

u(UVu) u(UVu)

Questo significa che stimo con ovvero lo standard error della proporzione campionaria.

Z Z

Allora l’intervallo di confidenza avrà questa forma: (1 − )

. = ± ∙

W

UVW

Esempio

Siamo una compagnia telefonica che vuole verificare se un nuovo piano tariffario potrà avere o meno successo tra i

clienti.

Per fare questa indagine seleziona un campione di n=100 clienti e chiede se il nuovo piano potrebbe o meno

interessare (la variabile X è una bernoulliana perché i possibili risultati sono si o no).

ovvero su 100 clienti 25 sono interessati.

= 100 = 0,25

Decidiamo di costruire l’intervallo di accettazione al 99% per la proporzione campionaria.

= = = 0.995 → = 2,575 ()

W W

b.bbc a ]

" "

^ 0,25 ∙ 0,75

. µ = 0,25 ± 2,575 ∙

dd% 100

(0,1385; 0,3615)

La percentuale di coloro che sottoscriveranno il nuovo piano tariffario è compresa tra il 13,85% e il 36,15% dei clienti.

N.B un risultato come questo non è molto soddisfacente, sarebbe più consono alla ricerca un intervallo altrettanto

confidente ma meno variabile, per fare questo devo aumentare il campione.

Determinazione dell’ampiezza campionaria

Per decidere quale è l’ampiezza del campione necessaria per una certa ricerca devo definire qual è l’errore massimo

che mi aspetto per poter prendere una decisione.

Negli intervalli di confidenza è il ME (margine d’errore) è quello che fa variare l’intervallo, posso quindi decidere in

anticipo dire qual è l’ampiezza campionaria che mi garantisce un determinato margine d’errore. 5

Caso 1] Se mi interessa trovare µ:

In questo caso (se è nota) allora posso esplicitare questa equazione in funzione di n:

= ∙

] Z

^ " "

∙

W

= "

Caso 2] se mi interessa trovare p (la proporzione campionaria):

u(UVu)

In questo caso , posso esplicitare questa equazione in funzione di n:

= ∙

] Z

^ "

∙ (1 − )

W

= "

La differenza da prima è che è un valore che ipoteticamente può variare da mentre nella seconda

+∞ − ∞

è una funzione che quindi può avere un valore massimo.

1 −

Se sto cercando una proporzione campionaria posso fare una WCA (worst case analysis) ovvero scegliere nel caso

peggiore possibile. "

Per fare questo devo trovare il punto massimo della funzione . Per trovare il punto di massimo

1 − → −

U

devo fare la derivata e porla uguale a 0: ovvero

1 − 2 = 0 = = 0,5

Sostituisco allora il trovato nell’equazione precedente:

" "

∙ 0,5(0,5) ∙ 0,25

W W

" "

= =

" "

In questo modo posso calcolare n nel peggior caso possibile.

Esempio

Azienda car sharing che valuta se espandere l’area del servizio e per decidere vuole analizzare la distanza media

percorsa ogni giorno dai pendolari. La stima deve essere confidente e con un margine di errore ridotto.

Mi viene chiesto un con ampiezza massima di 4km, ovvero W≤4

. µ

Anteprima

Vedrai una selezione di 8 pagine su 35