Inferenza statistica – parte 2
In questa seconda parte vedremo le applicazioni dell'inferenza statistica. Le applicazioni possibili sono tre:
- Intervalli di confidenza
- Verifica di ipotesi
- Regressione lineare
Intervalli di confidenza
Ricordiamo che abbiamo due metodi di stima di un parametro:
- Stima puntuale: ovvero vogliamo fare inferenza assegnando al parametro un solo valore;
- Stima per intervallo: processo in cui assegno un range di valori in cui mi aspetto, con una certa fiducia, di trovare il valore di µ.
Esempio
Una compagnia di car sharing sta valutando se e come espandere il proprio servizio in relazione alle necessità dei pendolari. Per questo motivo vuole calcolare la distanza media che i pendolari percorrono da casa al lavoro.
Stima puntuale: calcolo la media campionaria e ottengo una stima puntuale di µ (es. calcolo la media campionaria e mi viene 34.5 km, questa è una stima puntuale di µ).
Stima per intervallo: dico, ad esempio, che mi aspetto con un alto grado di fiducia che µ si trovi nell'intervallo [32.5; 36.5].
Statisticamente è più significativa la seconda stima, ovvero quella per intervallo, perché:
- Nella stima puntuale non ho informazioni sulla precisione della stima. Se estraggo diversi campioni ci sarà una variabilità tra la media campionaria calcolata in ciascuno di questi.
- La stima puntuale si differenzia in termini di numerosità dell'intervallo, ovvero maggiore è l'ampiezza del campione maggiore è la precisione della stima.
Continua esempio
Il mio obiettivo è di fare inferenza sulla distanza media casa-ufficio dei pendolari: voglio fare inferenza su µ.
Prima di calcolare faccio due ipotesi:
- La mia variabile X (distanza) si distribuisce come una normale.
- La varianza della popolazione è nota e vale σ2 = 100.
Conosco la distribuzione e la varianza della popolazione, ma non conosco µ. Per fare inferenza mi baso su un campione estratto di ampiezza n = 25. Poiché la popolazione si distribuisce normalmente, so quindi che la media campionaria si distribuirà come una normale: σ2/n = 4/25.
Anche in questo caso posso dire che la media campionaria si distribuisce come una normale standard:
−1,96 < Z < 1,96 = 0,95
Ipotizzo di costruire un intervallo in cui ho il 95% di probabilità di trovare la mia media campionaria (Perché 1,96? Perché sulle tavole quello è il valore di z che corrisponde al 95%. Perché 95%? La probabilità viene decisa arbitrariamente).
−µ −1,96 < < 1,96 = 0,95/
Sostituisco a la deviazione standard della mia popolazione:
µ − 1,96 ⋅ 2 < < µ + 1,96 ⋅ 2 = 0,95
µ − 3,92 < < µ + 3,92 = 0,95
Se conoscessi il valore di µ quello appena calcolato sarebbe il valore dell'intervallo di accettazione al 95% per la media campionaria. Tuttavia, µ non lo conosco, quindi:
− 3,92 < µ < + 3,92 = 0,95
Ricordiamo che è una variabile aleatoria e µ è un numero che io non conosco. Adesso quindi io ho un intervallo aleatorio, gli estremi infatti variano a seconda del campione estratto e quindi alla diversa realizzazione di .
Da questa ultima equazione posso dedurre che: “la probabilità che l’intervallo contenga il parametro µ è del 95%”. Questo è un stimatore per intervallo, un intervallo variabile in funzione dei dati campionari. La stima per intervallo la ottengo una volta che estraggo il campione e quindi posso calcolare la media del campione e quindi il mio intervallo diventa: − 3,92 < µ < + 3,92.
Questo ultimo intervallo che è stato calcolato si tratta dell'intervallo di confidenza per µ al 95%. Gli estremi non sono più variabili aleatorie ma numeri certi.
Concetto chiave
Adesso non posso più dire di avere il 95% di probabilità di osservare µ nell'intervallo, ma dico che sono confidente al 95% di trovare µ nell'intervallo numerico calcolato.
Formalizziamo
Sia un parametro della popolazione, sulla base del campione aleatorio si determinano due statistiche campionarie chiamate A e B, determinate in modo che possa scrivere:
< < =1−α
Dati ora i due valori osservati delle statistiche nominate A e B, che chiamiamo a e b, posso definire un intervallo di confidenza a livello 1-α:
(a, b) = UVW
Indica il grado di fiducia nel trovare all’interno di un campione.
1 − α
Come interpreto il grado di fiducia?
Se estraggo cinque campioni mi aspetto cinque diversi intervalli di confidenza (ovvero cinque diverse realizzazioni di A e B). Ipotizzo che dei cinque intervalli di confidenza costruiti dopo l'estrazione dei cinque campioni uno di questi non contenga il parametro (ipotizzo di conoscere µ e poter verificare quindi se esso è contenuto o meno nell’intervallo), ovvero il 20% dei campioni non contiene il parametro mentre l’80% di essi lo contiene. Se aumento il numero di campioni estratti, la percentuale di campioni che contiene il parametro aumenterà fino a tendere al livello 1 − α.
Confidenza: se io estratto tanti campioni della stessa ampiezza e provenienti dalla stessa popolazione, una volta costruiti gli intervalli di confidenza (tutti dello stesso livello allora mi aspetto che:
- (1 − α) campioni conterranno
- α campioni non conterranno
Intervallo di confidenza per la media della popolazione
CASO 1] La varianza della popolazione è nota
Conosco σ2, ovvero la varianza della popolazione. Sia un campione aleatorio estratto da una popolazione normale con nota.
Data la realizzazione campionaria, l’intervallo di confidenza al 1 − α % per µ è:
(X̄ ± zα/2 ⋅ σ/√n)
N.B. L’intervallo è centrato sulla realizzazione della media campionaria perché non conosco µ.
Elementi dell’intervallo di confidenza:
- Estremo inferiore dell’intervallo LCL (lower confidence level) = X̄ − zα/2 ⋅ σ/√n
- Estremo superiore dell’intervallo UCL (upper confidence level) = X̄ + zα/2 ⋅ σ/√n
- Margine d’errore (ME) = zα/2 ⋅ σ/√n
- Ampiezza dell’intervallo (W) = 2ME
- Errore standard = σ/√n
- Fattore di affidabilità = zα/2 è il quantile della normale standard che lascia a destra una probabilità di α/2, ovvero α.
Esempio
Ipotesi: ~(µ; σ2 = 100)
Obiettivo: trovare l’intervallo di accettazione al 95% per µ
n = 25 ricorda: senza la realizzazione della media campionaria io non posso calcolare I.C
X̄ = 34,5
Ub= =2Zα/2 . µ = X̄ ± zα/2 ⋅ σ/√n
Guardare sulle tavole e trovare zα/2 = 1.96
µ = 34,5 ± 1,96 ⋅ 2/√n
(30,58 ; 38,42)
Vuol dire che io mi aspetto con una confidenza del 95% di trovare µ in un campione con queste caratteristiche di questa popolazione. È possibile stringere l'intervallo di accettazione lavorando sul margine di errore (ME) in diversi modi:
- σ ↑ ME ↓
- 1 − α ↓ ME ↓
- n ↓ ME ↓
I primi due valori posso farli variare io mentre la varianza è una caratteristica della popolazione quindi è data.
CASO 2] La varianza della popolazione è ignota
Questo è il caso più frequente. La popolazione è sempre distribuita come una normale. Nel caso in cui io conosca la varianza della popolazione, allora posso calcolare la normale standard. Adesso per farlo devo sostituire a σ la sua stima, ovvero la varianza del campione:
Tuttavia questa nuova scrittura non è più distribuita come una normale standard ma come una T di Student, ovvero:
Tn-1 ovvero una T di Student con n-1 gradi di libertà ~ZVUo/ σ/ √n
T di Student è una famiglia di distribuzione il cui valore varia a seconda dei gradi di libertà (le tavole cambiano a seconda dei gradi di libertà).
L’intervallo di confidenza in questo caso sarà:
(µ = X̄ ± tα/2, n-1 ⋅ s/√n)
Perché cambia la distribuzione? Perché stimo con s e quindi non si distribuisce una normale perché non è un numero ma è una variabile.
Quindi si distribuisce come una T di Student con n-1 gradi di libertà.
Forma della T di Student
Anche questa distribuzione è campanulare simmetrica centrata in 0 (valore atteso = 0), ma, a differenza della normale standard, introduce maggiore variabilità le code della distribuzione avranno un peso maggiore.
Distribuzione normale standard e T di Student
Gradi di libertà (un accenno)
Ricorda: per calcolare s devo prima calcolare (ricorda la formula della varianza).
Per capire i gradi di libertà è utile un esempio: Ho un campione di n = 5, supponendo di conoscere il valore di X̄ mi basta sapere solo quattro dei cinque valori e posso arrivare a conoscere il quinto. In questo esempio ho quindi n-1 = 4 gradi di libertà ovvero quattro valori liberi di variare indipendentemente. N.B. se i gradi di libertà aumentano (ovvero aumenta l’ampiezza del campione) indicativamente per n > 30 la T di Student si può approssimare con una normale standard.
Esempio
Siamo un’azienda di credito al consumo e vogliamo analizzare l’efficienza del nostro call center valutando il tempo medio di risposta alle richieste del cliente. X = tempo di risposta call center (in minuti, n = 10).
L’azienda chiede di calcolare un intervallo di confidenza per µ al 90%.
Step 1: calcola le statistiche campionarie (ricordati le formule):
s2 = 1069.7778 → s = 32.7075
X̄ = 110
Adesso posso calcolare l’intervallo di confidenza? Sì, ma solo perché so che la popolazione si distribuisce come una normale.
(µ = X̄ ± tα/2, n-1 ⋅ s/√n)
ovvero il quantile della T di Student con 9 gradi di libertà (n-1 = 10-1 = 9) che lascia a destra una probabilità di 0,05.
Con le tavole della T di Student mi basta trovare tα/2 perché sto cercando la probabilità a destra.
Vado sulle tavole e trovo tα/2 = 1,883.
Quindi il mio intervallo di confidenza sarà: (32,7075; µ = 110 ± 1,883 ⋅ 32,7075/√10)
(82,0412; 119,9588)
Conclusioni: con un grado di fiducia del 90% µ si trova in questo intervallo, ovvero se estraggo 100 campioni di ampiezza 10 dalla stessa popolazione osserverò che il 90% di questi contengono µ.
N.B. non serve a nulla aumentare la confidenza fino al 100% perché l’unico risultato che troverei sarebbe che il parametro della popolazione che sto cercando si trova in un intervallo di ±∞.
Fino ad adesso gli intervalli di confidenza sono stati calcolati chiedendo come prerequisito che la popolazione si distribuisse normalmente. Se però non conosco la distribuzione di X o questa non è normale?
Intervalli di confidenza per grandi campioni
Se aumento l’ampiezza del campione perde di importanza il fatto di conoscere la distribuzione della popolazione o che questa sia normale.
Intervalli di confidenza per µ quando la distribuzione della popolazione è ignota o qualsiasi
Questo è il caso più frequente: non conosco né la distribuzione della popolazione. Mi baso quindi sul teorema centrale del limite: al crescere di n (ovvero n > 30),
−µ ≈ (0, 1)/
Allora l’intervallo di confidenza avrà questa forma:
(µ = X̄ ± zα/2 ⋅ σ/√n)
N.B. non ci sarà zα/2 ma ci sarà invece tα/2, n-1 perché la popolazione si distribuisce approssimatamente come una normale.
Intervalli di confidenza per la proporzione campionaria
Per campioni sufficientemente grandi (n > 30) so che:
− p ≈ (0, 1)(1 − p)
Il problema adesso è che p (ovvero la proporzione campionaria) è ignota. In questo caso faccio prima una verifica:
se questa disequazione è verificata allora posso dire che:
np ⋅ (1 − p) > 9
− p ≈ (0, 1)(1 − p)
Questo significa che stimo con σp ovvero lo standard error della proporzione campionaria.
Allora l’intervallo di confidenza avrà questa forma:
(1 − α). = p ± zα/2 ⋅ σp/√n
Esempio
Siamo una compagnia telefonica che vuole verificare se un nuovo piano tariffario potrà avere o meno successo tra i clienti. Per fare questa indagine seleziona un campione di n = 100 clienti e chiede se il nuovo piano potrebbe o meno interessare (la variabile X è una bernoulliana perché i possibili risultati sono sì o no).
p = 0,25 ovvero su 100 clienti 25 sono interessati.
Decidiamo di costruire l’intervallo di accettazione al 99% per la proporzione campionaria.
α = 0,01, 1 − α/2 = 0.995 → zα/2 = 2,575
((1 − p)p/n)
(µ = 0,25 ± 2,575 ⋅ √(0,25 ⋅ 0,75/100))
(0,1385; 0,3615)
La percentuale di coloro che sottoscriveranno il nuovo piano tariffario è compresa tra il 13,85% e il 36,15% dei clienti.
N.B. un risultato come questo non è molto soddisfacente, sarebbe più consono alla ricerca un intervallo altrettanto confidente ma meno variabile, per fare questo devo aumentare il campione.
Determinazione dell’ampiezza campionaria
Per decidere quale è l’ampiezza del campione necessaria per una certa ricerca devo definire qual è l’errore massimo che mi aspetto per poter prendere una decisione. Negli intervalli di confidenza è il ME (margine d’errore) che fa variare l’intervallo, posso quindi decidere in anticipo quale è l’ampiezza campionaria che mi garantisce un determinato margine d’errore.
Caso 1] Se mi interessa trovare µ:
_In questo caso (se σ è nota) allora posso esplicitare questa equazione in funzione di n:
n = (zα/2 ⋅ σ / ME)2
Caso 2] Se mi interessa trovare p (la proporzione campionaria):
In questo caso, posso esplicitare questa equazione in funzione di n:
n = (zα/2 ⋅ √(p(1−p)) / ME)2
La differenza da prima è che µ è un valore che ipoteticamente può variare da −∞ a +∞, mentre nella seconda è una funzione che quindi può avere un valore massimo 1−p.
Se sto cercando una proporzione campionaria posso fare una WCA (worst case analysis) ovvero scegliere nel caso peggiore possibile. Per fare questo devo trovare il punto massimo della funzione 1−p, sostituendo il massimo trovato nell’equazione precedente.
(zα/2 ⋅ 0,5 / ME)2
Esempio
Azienda car sharing che valuta se espandere l’area del servizio e per decidere vuole analizzare la distanza media percorsa ogni giorno dai pendolari. La stima deve essere confidente e con un margine di errore ridotto.
Mi viene chiesto un intervallo con ampiezza massima di 4 km, ovvero W ≤ 4.
(µ al 95%)
Prima di estrarre il campione devo calcolare qual è l’ampiezza campionaria minima che garantisce questo margine di errore. Poiché W = 2ME il margine di errore richiesto è ME = 2.
(dalle tavole) = zα/2 = 1,96
n = (1,96 ⋅ 100 / 2)2 = 96,04
Il numero che ho trovato significa che mi serve un campione di almeno 96,04 individui per garantire esattamente un margine d’errore uguale a 2.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.