Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
Dimensione campionaria per stimare le medie
L'ampiezza campionaria allora sarà pari a: 2n = p(1-p) x (z/M), dove z è il valore che corrisponde a un livello di fiducia prefissato (ad esempio, z=1,96 per 0,95), e M è il margine di errore.
Un risultato analogo vale per la stima di una media della popolazione mi. Vogliamo determinare quanto debba essere grande n in modo che la distribuzione campionaria y-barrato abbia un margine di errore pari a M. Avremo quindi: 2n = sigma (z/M); ancora una volta, z dipende dall'intervallo di confidenza con un certo livello di fiducia prestabilito. È necessario conoscere la deviazione standard sigma: quanto maggiore è la deviazione standard, tanto più grande è la dimensione campionaria necessaria per raggiungere un certo margine di errore. Se si ha poca variabilità si ha bisogno di meno dati rispetto a quelli necessari nel caso di alta eterogeneità delle osservazioni. Nella pratica
però il valore della deviazione standard non è nota, e si ha quindi la necessità di sostituirlo con un valore appropriato, magari basando la scelta sui risultati di uno studio precedente. Non conoscendo la deviazione standard, quindi per fare inferenza è necessaria la distribuzione t piuttosto che la normale standardizzata. Ma se non si conosce n, non si è in grado di conoscere neppure i gdl e il t-score a essi associato. Tuttavia sappiamo che nella tavola della distribuzione T, il t-score è prossimo allo z-score per grandi valori, per cui poco importa.
Ulteriori considerazioni sulla determinazione della dimensione campionaria
Abbiamo già visto che la dimensione campionaria dipende dalla precisione e dal livello di fiducia considerati. La precisione si riferisce al margine di errore, mentre la fiducia alla probabilità che l'intervallo di confidenza contenga il vero parametro. Si è anche visto che la dimensione campionaria
dipende dalla variabilità della popolazione. Per la stima di medie, l'ampiezza campionaria richiesta cresce al crescere di sigma. Da un punto di vista pratico, si fanno anche altre considerazioni in merito alla dimensione campionaria. Un aspetto di cui si tiene conto riguarda la complessità dell'analisi pianificata. Quanto essa è più complessa, tanto maggiore dovrà essere il campione. Per studiare una singola variabile attraverso una media, un campione relativamente piccolo sarà sufficiente. Un altro aspetto riguarda il tempo, il denaro e le risorse. I campioni grandi sono molto più costosi e richiedono molto tempo per l'indagine; possono quindi essere richieste molte più risorse di quelle disponibili. In sintesi, nessuna formula è in grado di fornire sempre un'appropriata dimensione campionaria, poiché la sua scelta dipende dal tipo di ricerca che si vuole effettuare. Se una ricerca è condotta
In scarsità di risorse, i dati raccolti non presentano mai una rilevante percentuale del campione, se i soggetti hanno fornito risposte non veritiere. Talvolta, non risulta possibile selezionare un campione di grandezza desiderata. In tal caso, si utilizzano i metodi per la media basati sulla distribuzione t, che possono essere utilizzati per qualsiasi valore di n. Quando n è piccolo però occorre essere prudenti e verificare la presenza di outlier o il sensibile allontanamento dall'assunzione di normalità della popolazione.
CAPITOLO 6 - vari test di significatività, teoria di Neyman-Pearson
L'obiettivo di molti studi è quello di verificare se i dati raccolti concordano con determinate previsioni che solitamente derivano dagli aspetti teorici che hanno guidato la ricerca. Queste previsioni sono dette ipotesi sulla popolazione. Solitamente è la previsione che un parametro (generalmente θ) impiegato per descrivere alcune
Caratteristiche di una variabile, sia vero o no, e quindi che assuma un particolare valore numerico o cada in un certo intervallo di valori. Un test di significatività utilizza i dati campionari per riassumere le evidenze empiriche riferibili a una certa ipotesi. Ciò viene fatto confrontando le stime puntuali dei parametri con i valori previsti dalle ipotesi.
Le cinque parti di un test di significatività:
- Assunzioni: sono condizioni su cui si basa il test per la sua validità. Queste assunzioni riguardano:
- Tipo di dati: come altre metodologie statistiche, il test si applica o ai dati quantitativi o ai dati categoriali.
- Casualizzazione: ancora una volta, il test assume che i dati siano ottenuti casualmente.
- Distribuzione della popolazione:
- Ipotesi:
- Test:
- P-Value:
- Conclusioni:
Per verificare se la nostra ipotesi è corretta o meno effettuiamo appunto il test, altrimenti detto verifica di ipotesi. Tutti i test sono solitamente composti da 5 parti: assunzioni, ipotesi, test, P-Value e conclusioni.
Per alcuni test, si assume che la variabile abbia una particolare distribuzione.
Dimensione campionaria: la validità di molti test cresce all'aumentare della dimensione campionaria.
- Ipotesi: ciascun test di significatività è costituito da due ipotesi riguardo al valore di un parametro.
- Ipotesi nulla (H0): è un'affermazione su un particolare valore assunto sul parametro, ed è quella che vogliamo verificare.
- Ipotesi alternativa (H1): attesta che il parametro prende valori in un qualsiasi altro intervallo di valori, e si verifica quindi se l'ipotesi nulla non è vera.
- Un test di significatività valuta l'evidenza campionaria dell'ipotesi nulla H0. Il test investiga se i dati contraddicono H0 in maniera da suggerire che H0 sia vera. L'approccio considerato è quello indiretto, detto della "dimostrazione per contraddizione". In pratica, si presuppone che l'ipotesi nulla sia vera e
- Test: il parametro al quale fanno riferimento le ipotesi ha una stima puntuale. La statistica test permette di valutare quanto questa stima ricada vicino al valore del parametro ipotizzato con H. Spesso, questa distanza è espressa in termini di quanti errori standard separano la stima dal valore ipotizzato sotto H.
- P-Value: è la probabilità che la statistica test sia pari al valore osservato o a uno più grande nella direzione prevista da H. E' determinato presumendo che H sia vera. Un piccolo valore del P-Value (ad esempio 0,01) significa che i dati osservati dovrebbero essere considerati come insoliti se H fosse vera. Quanto più piccolo è il P-Value, tanto più forte è l'evidenza statistica contro H.
- Conclusioni: il P-Value sintetizza le verifiche empiriche contro H. Le
campioni, verranno allora chiamati ϑ-cappello, che rappresenta la nostra statistica test.
Si parla di ipotesi puntuale, se ϑ assume un unico valore; si parla di ipotesi unidirezionale se ϑ assume valori o soltanto positivi, o soltanto negativi; si parla invece di ipotesi bidirezionale se ϑ può assumere valori sia positivi che negativi.
Nella pratica, si divide lo spazio campionario in due zone di accettazione: una regione di accettazione, e una regione di rifiuto. Dopo aver fatto ciò, prendo il campione e calcolo la statistica test ϑ-cappello e vado a vedere tutti i possibili valori che questa può assumere; se finisco nella regione di accettazione, accetto l'ipotesi nulla; se finisco nella zona di rifiuto, accetto l'ipotesi alternativa. Ovviamente basandoci su un campione, questo può essere soggetto a errore. Per capire tutte le tipologie di errore, creiamo la tabella delle decisioni.
Bisogna trovare una soluzione.
“strategia di test” ovvero prendere un test ottimale, cioè quello che riduce la probabilità di errore al minimo. Tuttavia, questo è impossibile. Per identificare l’errore alfa, graficamente andrò a guardare sotto la curva dell’ipotesi nulla e a destra del limite della zona di accettazione. Di conseguenza, beta di troverà sotto la curva dell’ipotesi alternativa alla sinistra dellimite di accettazione. È impossibile rendere minimo sia l’errore di alfa che di beta perché spostando il limite di accettazione diminuisco uno dei due errori, e viceversa. C’è quindi un trade-off tra i due errori. Allora la teoria di Neyman-Pearson ci suggerisce di
- Fissare la probabilità dell’errore alfa (=livello di significatività), generalmente 0,10, 0,05 o 0,01, e rifiutiamo H se il P-Value è inferiore o uguale ad alfa;
- Cercare la statistica che minimizza beta oppure massimizza γ.
Test di significatività per una media
Nel caso di variabili quantitative, i test di significatività solitamente fanno riferimento alla media della popolazione μ. Le cinque parti del test sono:
1) Assunzioni: il test assume che i dati siano ottenuti casualmente come nel caso del campione casuale e si ipotizza che la variabile quantitativa abbia una distribuzione normale nella popolazione.
2) Ipotesi: l'ipotesi nulla su una media della popolazione ha questa forma: H₀: μ= μ₀, dove μ₀ è un valore particolare per la media della popolazione, e i gdl=n-1. Il valore ipotizzato per μ in H₀ è un valore singolo. L'ipotesi alternativa è più comunemente: H₁: μ ≠ μ₀.
Questa ipotesi è bidirezionale.
3) Test: la media campionaria ȳ stima la media della popolazione μ. Quando la distribuzione della popolazione è normale, la distribuzione campionaria diy-barrato è