Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
W
UVW
"
N.B L’intervallo è centrato sulla realizzazione della media campionaria perché non conosco µ.
Elementi dell’intervallo di confidenza: _
Estremo inferiore dell’intervallo LCL (lower confidence level) = − ∙
à
• ] Z
^ _
Estremo superiore dell’intervallo UCL (upper confidence level) = + ∙
à
• ] Z
^
_
Margine d’errore (ME) = ∙
• ] Z
^ 2
Ampiezza dell’intervallo (W) = 2ME
• _
Errore standard =
• Z W
Fattore di affidabilità = è il quantile della normale standard che lascia a destra una probabilità di ovvero
à
• ] "
^
W
=1−
]
a ] "
^
^
Esempio "
Ipotesi: ~(µ; = 100)
Obiettivo: trovare l’intervallo di accettazione al 95% per µ
n = 25 ricorda: senza la realizzazione della madia campionaria io non posso calcolare I.C
= 34,5 à
_ Ub
= =2
Z "c
. µ = ± ∙
W
dc%
"
W guardo sulle tavole e trovo che
= 0,025 = 0.975 = 1.96
] ]
a ]
" ^ ^
^ . µ = 34,5 ± 1,96 ∙ 2
dc%
(30,58 ; 38,42)
Vuol dire che io mi aspetto con una confidenza del 95% di trovare µ in un campione con queste caratteristiche di
questa popolazione.
È possibile stringere l’intervallo di accettazione lavorando sul margine di errore (ME) in diversi modi:
1) allora
↑ ↓
2) allora
↓ 1 − ↓
"
3) allora
↓ ↓
I primi due valori posso farli variare io mentre la varianza è una caratteristica della popolazione quindi è data.
CASO 2] La varianza della popolazione è ignota
Questo è il caso più frequente.
La popolazione è sempre distribuita come una normale. Nel caso in cui io conosca la varianza della popolazione allora
"
posso calcolare la normale standard, adesso per farlo devo sostituire a la sua stima ovvero la varianza del
"
campione: .
−µ −µ
→
/ /
Tuttavia questa nuova scrittura non è più distribuita come una normale standard ma come una T di Student, ovvero:
mVn ovvero una T di Student con n-1 gradi di libertà
~
ZVU
o/ Z
T di Student è una famiglia di distribuzione il cui valore varia a seconda dei gradi di libertà (le tavole cambiano a
seconda dei gradi di libertà).
L’intervallo di confidenza in questo caso sarà:
. µ = ± ∙
ZVU;W
UVW
"
mVn
Perché cambia la distribuzione? Perché stimo con s e quindi non si distribuisce una normale perché non è
/
o/ Z
un numero ma è una variabile.
mVn
Quindi si distribuisce come una T di Student con n-1 gradi di libertà.
o/ Z
Forma della T di Student
Anche questa distribuzione è campanulare simmetrica centrata in 0 (valore atteso = 0) ma, a differenza della normale
standard, introduce maggiore variabilità le code della distribuzione avranno un peso maggiore.
à 3
Distribuzione normale standard e T di Student
Gradi di libertà (un accenno)
Ricorda: per calcolare s devo prima calcolare (ricorda la formula della varianza)
Per capire i gradi di libertà è utile un esempio:
Ho un campione di n=5, supponendo di conoscere il valore di a me basta sapere solo 4 dei 5 valori e posso arrivare a
conoscere il 5°.
In questo esempio ho quindi n-1 = 4 gradi di libertà ovvero 4 valori liberi di variare indipendentemente.
N.B se i gradi di libertà aumentano (ovvero aumenta l’ampiezza del campione) indicativamente per n>30 la T di
Student si può approssimare con una normale standard.
Esempio
Siamo un’azienda di credito al consumo e vogliamo analizzare l’efficienza del nostro call center valutando il tempo
medio di risposta alle richieste del cliente.
X = tempo di risposta call center (in minuti
n=10
L’azienda chiede di calcolare . µ
db% "
Step 1: calcola le statistiche campionarie (ricordati le formule)
"
= 1069.7778 → = 32,7075
= 110 Adesso posso calcolare l’intervallo di confidenza? Si ma solo perché so che la popolazione si
distribuisce come una normale.
. µ = ± ∙
ZVU;W
UVW
"
ovvero il quantile della T di Student con 9 gradi di libertà (n-1 = 10-1 = 9) che lascia a destra
d;b,bc
una probabilità di 0,05 W
N.B con le tavole della T di Student mi basta trovare perché sto cercando la probabilità a destra.
"
Vado sulle tavole e = 1,883
d;b,bc
Quindi il mio intervallo di confidenza sarà: 32,7075
. µ = 110 ± 1,883 ∙
db% 10
(82,0412; 119,9588)
Conclusioni: con un grado di fiducia del 90% µ si trova in questo intervallo, ovvero se estraggo 100 campioni di
ampiezza 10 dalla stessa popolazione osserverò che il 90% di questi contengono µ.
N.B non serve a nulla aumentare la confidenza fino al 100% perché l’unico risultato che troverei sarebbe che il
parametro della popolazione che sto cercando si trova in un intervallo di ±∞.
Fino ad adesso gli intervalli di confidenza sono stati calcolati chiedendo come prerequisito che la popolazione si
distribuisse normalmente. Se però non conosco la distribuzione di X o questa non è nomale? 4
In casi come questi devo affidarmi al teorema centrale del limite.
Intervalli di confidenza per grandi campioni
Se aumento l’ampiezza del campione perde di importanza il fatto di conoscere la distribuzione della popolazione o che
questa sia normale.
1) Intervalli di confidenza per µ quando la distribuzione della popolazione è ignota o qualsiasi
"
Questo è il caso più frequente: non conosco né la distribuzione della popolazione.
Mi baso quindi sul teorema centrale del limite: al crescere di n (ovvero n>30)
−µ ≈ 0; 1
/
Allora l’intervallo di confidenza avrà questa forma:
. µ = ± ∙
W
UVW
"
N.B non ci sarà ma ci sarà invece perché la popolazione si distribuisce approssimatamente come una
] ]
ZVU; ^ ^
normale.
2) Intervalli di confidenza per la proporzione campionaria
Per campioni sufficientemente grandi (n>30) so che:
− ≈ (0,1)
(1 − )
Il problema adesso è che p (ovvero la proporzione campionaria) è ignota.
In questo caso faccio prima una verifica:
se questa disequazione è verificata allora posso dire che:
∙ 1 − > 9 − ≈ (0,1)
(1 − )
u(UVu) u(UVu)
Questo significa che stimo con ovvero lo standard error della proporzione campionaria.
Z Z
Allora l’intervallo di confidenza avrà questa forma: (1 − )
. = ± ∙
W
UVW
"
Esempio
Siamo una compagnia telefonica che vuole verificare se un nuovo piano tariffario potrà avere o meno successo tra i
clienti.
Per fare questa indagine seleziona un campione di n=100 clienti e chiede se il nuovo piano potrebbe o meno
interessare (la variabile X è una bernoulliana perché i possibili risultati sono si o no).
ovvero su 100 clienti 25 sono interessati.
= 100 = 0,25
Decidiamo di costruire l’intervallo di accettazione al 99% per la proporzione campionaria.
= = = 0.995 → = 2,575 ()
W W
b.bbc a ]
" "
^ 0,25 ∙ 0,75
. µ = 0,25 ± 2,575 ∙
dd% 100
(0,1385; 0,3615)
La percentuale di coloro che sottoscriveranno il nuovo piano tariffario è compresa tra il 13,85% e il 36,15% dei clienti.
N.B un risultato come questo non è molto soddisfacente, sarebbe più consono alla ricerca un intervallo altrettanto
confidente ma meno variabile, per fare questo devo aumentare il campione.
Determinazione dell’ampiezza campionaria
Per decidere quale è l’ampiezza del campione necessaria per una certa ricerca devo definire qual è l’errore massimo
che mi aspetto per poter prendere una decisione.
Negli intervalli di confidenza è il ME (margine d’errore) è quello che fa variare l’intervallo, posso quindi decidere in
anticipo dire qual è l’ampiezza campionaria che mi garantisce un determinato margine d’errore. 5
Caso 1] Se mi interessa trovare µ:
_
In questo caso (se è nota) allora posso esplicitare questa equazione in funzione di n:
= ∙
] Z
^ " "
∙
W
"
= "
Caso 2] se mi interessa trovare p (la proporzione campionaria):
u(UVu)
In questo caso , posso esplicitare questa equazione in funzione di n:
= ∙
] Z
^ "
∙ (1 − )
W
"
= "
"
La differenza da prima è che è un valore che ipoteticamente può variare da mentre nella seconda
+∞ − ∞
è una funzione che quindi può avere un valore massimo.
1 −
Se sto cercando una proporzione campionaria posso fare una WCA (worst case analysis) ovvero scegliere nel caso
peggiore possibile. "
Per fare questo devo trovare il punto massimo della funzione . Per trovare il punto di massimo
1 − → −
U
devo fare la derivata e porla uguale a 0: ovvero
1 − 2 = 0 = = 0,5
"
Sostituisco allora il trovato nell’equazione precedente:
" "
∙ 0,5(0,5) ∙ 0,25
W W
" "
= =
" "
In questo modo posso calcolare n nel peggior caso possibile.
Esempio
Azienda car sharing che valuta se espandere l’area del servizio e per decidere vuole analizzare la distanza media
percorsa ogni giorno dai pendolari. La stima deve essere confidente e con un margine di errore ridotto.
Mi viene chiesto un con ampiezza massima di 4km, ovvero W≤4
. µ