Il modello probabilistico
Il modello probabilistico è un'ipotesi su come si sono svolti i fatti e quindi dobbiamo andare alla ricerca delle conferme, cioè fare inferenza statistica, capire dai dati del campione raccolto se le ipotesi fatte sulla popolazione di riferimento sono valide oppure no.
Se vogliamo sapere in un certo momento quanti sono i favorevoli al partito del Grifondoro, estraiamo una persona a caso e questa risponderà sì o no, quindi si tratta di un modello probabilistico bernoulliano. Poi conteremo i successi con la binomiale. Se siamo interessati al tempo medio di attesa di un utente per un certo servizio o al livello medio di istruzione siamo in una variabile quantitativa e useremo una Gaussiana. Ora il problema consisterà nello stimare la percentuale, che invece fino a ieri ci veniva data.
Fino a ieri sapevamo infatti il valore di valore atteso e probabilità, quindi introduciamo il modello probabilistico per descrivere il comportamento teorico del fenomeno, ma poi per stimare i parametri p, valore atteso e varianza estraiamo un campione casuale dalla popolazione con estrazioni con reimmissione e lo useremo per stimare i parametri che non conosciamo. Poi dovremo valutare l'incertezza che abbiamo sulla stima.
Per capire i favorevoli al Grifondoro prendiamo un campione di n soggetti. Contiamo quanti soggetti sono favorevoli e dividiamo per n per ottenere la percentuale (proporzione). Quindi la variabile su cui lavoreremo sarà la variabile causale media campionaria con al numeratore quanti sono i successi e al denominatore il numero totale di individui.
Noi sappiamo che se il modello è bernoulliano, la somma al numeratore è una binomiale di parametri (n,p), ma se np > 5 e n(1-p)>5 posso approssimare in una Gaussiana. Sappiamo che la Gaussiana ha media μ e varianza 2σ. Inoltre, se abbiamo una distribuzione non Gaussiana, ma con n > 30 io posso approssimarla con una Gaussiana, tramite il teorema centrale del limite.
Stimatore della media
Il nostro campione ha n variabili casuali identiche e in distribuzione e possiamo usare la media campionaria come modello per prevedere il valore della media aritmetica dei dati nel campione. Ci dice che valore avrà la media dei seducessi e con quale probabilità. Si chiama E(Xi) la variabile casuale che predice quali saranno le stime del parametro. Il fatto che posso usare la media campionaria per stimare il valore atteso di Xi è la legge dei grandi numeri, che garantisce che qualunque campione io prenda nei miei dati, faccio la media aritmetica e se immagino di poter far diventare grande quanto voglio questo campione, facendo crescere n all'infinito, la media aritmetica dei miei dati piano piano convergerà verso un valore che è esattamente il valore μ che voglio stimare.
Se prendo una moneta e la lancio tenendo conto ad ogni lancio della proporzione di teste che ho ottenuto, la lancio la prima volta ed esce testa, così ho 1/1, la seconda mi esce croce e quindi ho 1/2... Continua a lanciare. Vedendo il grafico sul lancio di una moneta 1000 volte sul campione piccolo ho risultati diversi, man mano che cresce il numero di lanci la probabilità si attesta intorno a 0,5. Se un'altra persona lancia la moneta, anche in questo caso avremo all'inizio valori diversi ma dopo andranno a scendere verso 0,5. Tuttavia, anche dopo molti lanci il suo valore resta leggermente più alto di 0,5 e lo stesso fanno i lanci che può fare un'altra persona. Tutti coloro che fanno l'esercizio stanno convergendo alla stessa soluzione, cioè la moneta è equilibrata e la probabilità di 50% testa e 50% croci, ma ognuno ha la sua velocità. La legge dei grandi numeri garantisce che tutti i grafici prima o poi si schiacciano sullo 0,5 ma non c'è una regola che mi garantisca che dopo un numero preciso di lanci tutti siano arrivati allo stesso risultato. Ognuno avrà la sua velocità.
Prendiamo un campione n, ottengo una certa stima della proporzione e quindi diventa fondamentale capire quanto è precisa questa stima del parametro che vogliamo ottenere. La legge dei grandi numeri ci garantisce che idealmente potendo far diventare il nostro campione sempre più grande, sicuramente la media che calcoliamo va vicinissima al valore vero del parametro che vogliamo stimare. Il problema è che non c'è una regola per decidere in modo univoco quanto deve essere questo valore per garantire una piccolissima distanza dal valore. Quindi fissiamo il nostro campione e poi dovremo valutare quanto lontani siamo dal valore che volevamo stimare, cioè l'incertezza che c'è intorno alla stima.
Intervallo di confidenza
Abbiamo valore atteso, varianza e media campionaria. Questo è il modello di tutte le possibili stime di μ, prima di estrarre un campione. La variabilità intorno al campione μ man mano che il campione cresce diventa sempre più piccola. La media campionaria si chiama stima. Ci chiediamo quindi quanto è precisa la nostra stima calcolata sui dati. Se noi conosciamo il valore di μ, sappiamo esattamente com'è fatta la distribuzione campionaria della media. È una Gaussiana centrata sul valore di μ e varianza/n. Se noi sapessimo il vero valore di μ la teoria sulla media campionaria ci dice che la stima, valore che calcoleremo sui miei dati, cade tra
| P(μ-√(σ2/n) ≤ Xn ≤ μ+√(σ2/n))=0,62 |
| P(μ-C√(σ2/n) ≤ Xn ≤ μ+C√(σ2/n))=0,90 |
Possiamo fare questo conto e trovare il valore di C. Standardizziamo e arriviamo alla Gaussiana standard P(-C ≤ Z ≤ C) = 0,90. Vuol dire che mi resta fuori da questo intervallo 0,10 e lo divido in due parti.
P(X - Zσ/√n ≤ μ ≤ X+ Zσ/√n) = 0,90
Abbiamo quindi scoperto che il C è per forza un quantile. Questo ragionamento vale qualunque sia il valore di μ. Invertiamo i ruoli di media campionaria e μ e otteniamo che l'intervallo di estremi media campionaria meno pezzetto con quartile e media campionaria più pezzetto del quantile contiene μ con il 90% di probabilità.
Partiamo dalle variabili per giungere ai parametri. Conoscendo come funziona la media campionaria nell'ambito del modello Gaussiano e il teorema centrale del limite, partendo da una classe che sappiamo sulla media campionaria arriviamo a dire qualcosa sul parametro μ che non sappiamo. L'intervallo casuale che abbiamo ottenuto ha un livello di probabilità fissato del 90% che racchiude il vero valore μ del parametro che non conosciamo. Non sapremo mai esattamente quanto vale.
Questa è la formula generale
| P(X - Zσ/√n ≤ μ ≤ X+ Zσ/√n) = 1-α |
Se volessi il 100% di sicurezza C dovrebbe valere +infinito perché dovrei considerare tutta l'area sotto la Gaussiana. Quindi non è possibile stabilire un intervallo utile per avere il 100% di probabilità, perché mi servirebbe tutta R. Tuttavia, possiamo stabilire un intervallo di probabilità alto.
La teoria sulla variabile casuale media campionaria ci garantisce la media aritmetica che otterremo dai dati è buona stima del vero valore di μ e se ci spostiamo dalla media calcolata dei dati, considerando l'incertezza della stima, lì dentro cade il valore del parametro che cerchiamo con una certa precisione. Noi non riusciremo mai a dire con certezza il valore di μ.
Esempio
La quantità di arsenico nell'acqua potabile ha distribuzione N(μ, 3,5). La varianza quindi è nota. In un campione di 30 prelievi dell'acquedotto di Milano abbiamo ottenuto un contenuto medio di arsenico pari a Xn = 9,5. Questa è la stima sulla base del nostro campione del valore μ. L'intervallo di confidenza del 95% per μ è dato da
Xn = 9,5 =0,05 1-α/2= 0,975 n=30
Sostituendo questi valori, ottengo (9.08,10,47). L'intervallo di confidenza sarà con il 95% di probabilità (9.08,10.42).
Se il limite imposto per legge fosse 10 microgrammi per litro. Il risultato che abbiamo ottenuto ci fa star tranquilli o ci spaventa un po'? Mi agito perché l'intervallo supera il 10, per stare tranquilli l'intervallo di confidenza doveva stare sotto il 10.
E se aumentiamo il livello di confidenza da 95% a 99%? Quando io voglio essere più sicuro, aumenta il quantile=0,01 > Zα 0,995. Aumentando la richiesta di sicurezza aumenta l'intervallo di confidenza. E se aumento la grandezza del campione? Poniamo di aver preso altri 20 campioni e di avere ora n=50. Dal punto di vista della formula vediamo subito che cambia n al denominatore, quindi il termine di errore si riduce e infatti l'intervallo di confidenza passa da 9,08 a 9,23 e da 10,42 a 10,7.
Avremo infatti intervallo n=50 (9.23, 10.27). Il modello che prevede tutti i possibili intervalli di confidenza di livello 1-αμ è
s2 = 1/(n-1)∑(xi-X)2
Noi abbiamo lavorato per un intervallo simmetrico rispetto alla media, ma ci sono problemi che chiedono di stimare massimo e minimo, ma noi non li faremo. Il problema che ci è rimasto è . Sono poche le situazioni in cui possiamo dire di conoscere il valore di sigma quadro e di solito dobbiamo stimarlo. Se io non conosco non solo il valore di μ, ma neanche la varianza, devo stimare anche sigma quadro e la variabile causale stimatore della varianza è somma degli scarti al quadrato della singola osservazione meno media campionaria delle osservazioni, ma devo dividere per n meno uno per ottenere che il valore atteso di quella variabile sia uguale a sigma quadro, si chiama proprietà di correttezza degli stimatori.
Noi faremo soprattutto inferenza sulla media. Quindi raccolti i dati con la media aritmetica abbiamo la stima di μ e con la varianza campionaria la stima di sigma quadro. L'intervallo di confidenza per μ si modifica, questa volta avendo stimato sigma quadro. Non abbiamo più il quartile della Gaussiana, ma abbiamo la t di Student a n meno uno gradi di libertà. All’aumentare dei gradi di libertà della t di student, la curva t di student tende a sovrapporsi alla Gaussiana standard. Fino a 30° di libertà usiamo i valori della tabella a fine libro, oltre usiamo l’ultima riga che dà i quartili di una gaussiana.
Stimare i favorevoli al partito del Grifondoro
Vogliamo stimare quanti sono favorevoli al partito del Grifondoro. Prendiamo il campione casuale di n individui, chiediamo se sono favorevoli o no, quindi abbiamo una bernoulliana. Conto i favorevoli con una binomiale di parametri n e p e poi conto i favorevoli e divido per n. Continuiamo ad avere la media campionaria anche per le proporzioni. Quando parliamo di proporzioni anche se usiamo la media campionaria è consuetudine indicarla con
Questa è la stima della proporzione ed è sempre campionaria. Se n è grande e p, che questa volta non conosciamo, non è né troppo piccolo né troppo grande, possiamo approssimare la distribuzione della media campionaria con una normale di media p e varianza p(1-p)/n. Questo ci permette di scrivere l'intervallo di confidenza asintotico per la proporzione che è della forma concettuale di quello che abbiamo visto per la media. Per la media avevamo la media più o meno un errore e anche qui abbiamo media più o meno un errore. Prima facevamo quartile per radice di varianza e anche qui abbiamo quantile per radice della varianza. Il quantile in questo caso è sempre Gaussiano. La formula è concettualmente identica, ma cambiano i simboli > questo è il margine di errore da sommare o sottrarre a
Esercizi
Esercizio 3
Indagine condotta con tecnica mista CATI-CAMI-CAWI su un campione di 1500 soggetti maggiorenni residenti in Italia tra i 9 ed il 13 maggio 2018. Il campione è stratificato per zona e prevede quote per età e sesso. I dati sono stati ponderati al fine di garantire la rappresentatività rispetto ai parametri di zona, sesso, età, livello scolare e partito votato alle ultime elezioni. Il margine di errore statistico dei dati riportati è del 2.5% a un intervallo di confidenza del 95%.
In questo esercizio il campione è stratificato, questo significa che il campione è casuale ma non è semplice. Non è come il modellino dell'urna con reimmissione. Questo è sempre il principio base, ma abbiamo diverse urne per esempio una con zona, una con età e una con sesso. Qui abbiamo un calcolo simile a quello dell’esempio che avevamo fatto su acquisto della tecnologia al nord, al centro e al sud.
Per esempio nel caso dei sondaggi errati per l'elezione di Trump sembra che il problema non fosse di metodo, ma di codificazione.
“Il margine di errore statistico dei dati e del 2,5% a un intervallo di confidenza del 95%.”
Questo mi è servito a capire perché mi servono mille persone, infatti la formula è P(1-p) vale al massimo un quarto per le regole della parabola. Tuttavia, non faremo questi calcoli. Ora risolviamo il problema
Abbiamo 1500 soggetti, α è uguale a 0,05, p cappuccio n è 32,5%. Voglio l'intervallo di confidenza del 95%. Usiamo la formula della proporzione stimata più o meno errore, formata da quantile per radice della varianza.
Effettivamente il testo ci diceva già il valore dell'errore. Il fatto che il valore del 7 Maggio stia comunque nell’intervallo di confidenza significa che semplicemente è cambiato il campione.
Pensiamo ad una situazione in cui il campione causale è di una distribuzione che non conosco, che non posso definire Gaussiana perché discreta però abbiamo un valore atteso μ nella popolazione, c'è una varianza sigma quadro e il campione è grande. Stimiamo mu usando la media campionaria tramite il teorema centrale del limite. La formula che posso usare per l'intervallo di confidenza è quella che ho usato per il modello Gaussiano con varianza non nota. Siccome man mano che aumentano i gradi di libertà di una t di student, la densità di una t di student si sovrappone ad una Gaussiana, io per n che va oltre il trenta posso scrivere invece di quantile student il quantile Gaussiano. Attenzione! Per superare l'esame se si scrive la formula va scritta con la t è solo dopo si usa il valore Gaussiano. La prof ha bisogno di sapere che si distingue tra varianza nota e non nota. Usiamo la t di student quando abbiamo varianza non nota e campione piccolo.
Esercizio 4
Scelgo a caso 65 giorni feriali e rilevo i ritardi a Milano Centrale del treno 1234 ottenendo un ritardo medio di 8,36 minuti e con una deviazione standard di 5,23 minuti. Calcolare l'intervallo medio di confidenza del 98% per il ritardo medio giornaliero del treno 1234 nei giorni feriali.
Devo scegliere tra modello Gaussiano, bernoulliano o qualunque con teorema centrale del limite. I minuti di ritardo non possono essere una bernoulliana perché la bernoulliana direbbe se c'è un ritardo o no. Sicuramente quindi con 65>30 io posso trascurare di specificare il modello di Xi appellandomi al teorema centrale del limite. Posso quindi approssimare con una normale di valore μ e sigma quadro diviso n (perché io valuto il ritardo medio giornaliero). Uso quindi media più o meno l’errore con errore t di student.
La deviazione standard è il valore nel campione, quindi non è quello del modello. Se voglio dare il sigma quadro del modello ci sarebbe una frase che dice che il ritardo giornaliero del treno e una variabile causale Gaussiana con varianza 36. È quindi il valore della popolazione. Qui invece il valore si riferisce ai soli dati, è il solo campione e non la popolazione. Abbiamo 64 gradi di libertà perché bisogna considerare n-1. Per trovare il valore colonna 0,99 scegliendo la riga del 60 o dell’infinito.
Attenzione a scrivere 0,99 e non 0,98 perché l'intervallo di confidenza e 0,98, quindi l'alfa è 0,2 e quindi 1-α/2 è 0,99.
Siete l’AD di Trenord e dovete decidere la soglia di ritardo medio giornaliero oltre la quale distribuire il bonus di rimborso ai pendolari, scelgo 5 o 10 minuti? Guardo l'intervallo di confidenza e il mio ritardo medio di confidenza al 98% è entro 9,91, quindi è più basso di 10 minuti.
Riassunto degli intervalli di confidenza
Le prime due formule valgono per un modello Gaussiano o un non Gaussiano in cui mi appello al teorema centrale del limite. Il terzo invece è bernoulliano. Noi non lo vedremo, ma è possibile conoscere l’intervallo della varianza non conoscendo mu. Esistite quindi anche l'inferenza per la varianza, ma noi non ce ne occuperemo nel dettaglio. Intervalli di confidenza bilateri o “a due code”, cioè simmetrici rispetto alla media. Il livello di confidenza è un'area centrale della distribuzione e poi resta un margine di errore a destra e sinistra delle code.
Esercizio 3
Tutte le sigarette vendute attualmente hanno un contenuto medio di nicotina di 1,5mg per sigaretta. L'azienda di sigarette dichiara di aver messo a punto una nuova tecnica grazie alla quale il contenuto di nicotina è minore di 1,5mg. In un campione di 80 sigarette è stato misurato un valore medio di nicotina di 1,485 mg, con una deviazione standard di 0,025. Determinare l'intervallo di confidenza del 95% per il contenuto medio di nicotina delle sigarette dell’azienda.
Nel testo abbiamo i valori misurati nei dati, ma non abbiamo il contenuto probabilistico. Siccome n=80 possiamo usare il teorema centrale del limite, se fossero meno di 30 non posso fare l'approssimazione e quindi devo scrivere “supponendo che il livello di nicoti…”
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
-
Appunti Statistica economica 2
-
Appunti di Statistica 2
-
Appunti Statistica - parte 2
-
Appunti Statistica - Modulo 2