Anteprima
Vedrai una selezione di 13 pagine su 56
Statistica - Appunti lezioni Pag. 1 Statistica - Appunti lezioni Pag. 2
Anteprima di 13 pagg. su 56.
Scarica il documento per vederlo tutto.
Statistica - Appunti lezioni Pag. 6
Anteprima di 13 pagg. su 56.
Scarica il documento per vederlo tutto.
Statistica - Appunti lezioni Pag. 11
Anteprima di 13 pagg. su 56.
Scarica il documento per vederlo tutto.
Statistica - Appunti lezioni Pag. 16
Anteprima di 13 pagg. su 56.
Scarica il documento per vederlo tutto.
Statistica - Appunti lezioni Pag. 21
Anteprima di 13 pagg. su 56.
Scarica il documento per vederlo tutto.
Statistica - Appunti lezioni Pag. 26
Anteprima di 13 pagg. su 56.
Scarica il documento per vederlo tutto.
Statistica - Appunti lezioni Pag. 31
Anteprima di 13 pagg. su 56.
Scarica il documento per vederlo tutto.
Statistica - Appunti lezioni Pag. 36
Anteprima di 13 pagg. su 56.
Scarica il documento per vederlo tutto.
Statistica - Appunti lezioni Pag. 41
Anteprima di 13 pagg. su 56.
Scarica il documento per vederlo tutto.
Statistica - Appunti lezioni Pag. 46
Anteprima di 13 pagg. su 56.
Scarica il documento per vederlo tutto.
Statistica - Appunti lezioni Pag. 51
Anteprima di 13 pagg. su 56.
Scarica il documento per vederlo tutto.
Statistica - Appunti lezioni Pag. 56
1 su 56
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

Dimensione campionaria per stimare le medie

L'ampiezza campionaria allora sarà pari a: 2n = p(1-p) x (z/M), dove z è il valore che corrisponde a un livello di fiducia prefissato (ad esempio, z=1,96 per 0,95), e M è il margine di errore.

Un risultato analogo vale per la stima di una media della popolazione mi. Vogliamo determinare quanto debba essere grande n in modo che la distribuzione campionaria y-barrato abbia un margine di errore pari a M. Avremo quindi: 2n = sigma (z/M); ancora una volta, z dipende dall'intervallo di confidenza con un certo livello di fiducia prestabilito. È necessario conoscere la deviazione standard sigma: quanto maggiore è la deviazione standard, tanto più grande è la dimensione campionaria necessaria per raggiungere un certo margine di errore. Se si ha poca variabilità si ha bisogno di meno dati rispetto a quelli necessari nel caso di alta eterogeneità delle osservazioni. Nella pratica

però il valore della deviazione standard non è nota, e si ha quindi la necessità di sostituirlo con un valore appropriato, magari basando la scelta sui risultati di uno studio precedente. Non conoscendo la deviazione standard, quindi per fare inferenza è necessaria la distribuzione t piuttosto che la normale standardizzata. Ma se non si conosce n, non si è in grado di conoscere neppure i gdl e il t-score a essi associato. Tuttavia sappiamo che nella tavola della distribuzione T, il t-score è prossimo allo z-score per grandi valori, per cui poco importa.

Ulteriori considerazioni sulla determinazione della dimensione campionaria

Abbiamo già visto che la dimensione campionaria dipende dalla precisione e dal livello di fiducia considerati. La precisione si riferisce al margine di errore, mentre la fiducia alla probabilità che l'intervallo di confidenza contenga il vero parametro. Si è anche visto che la dimensione campionaria

dipende dalla variabilità della popolazione. Per la stima di medie, l'ampiezza campionaria richiesta cresce al crescere di sigma. Da un punto di vista pratico, si fanno anche altre considerazioni in merito alla dimensione campionaria. Un aspetto di cui si tiene conto riguarda la complessità dell'analisi pianificata. Quanto essa è più complessa, tanto maggiore dovrà essere il campione. Per studiare una singola variabile attraverso una media, un campione relativamente piccolo sarà sufficiente. Un altro aspetto riguarda il tempo, il denaro e le risorse. I campioni grandi sono molto più costosi e richiedono molto tempo per l'indagine; possono quindi essere richieste molte più risorse di quelle disponibili. In sintesi, nessuna formula è in grado di fornire sempre un'appropriata dimensione campionaria, poiché la sua scelta dipende dal tipo di ricerca che si vuole effettuare. Se una ricerca è condotta

In scarsità di risorse, i dati raccolti non presentano mai una rilevante percentuale del campione, se i soggetti hanno fornito risposte non veritiere. Talvolta, non risulta possibile selezionare un campione di grandezza desiderata. In tal caso, si utilizzano i metodi per la media basati sulla distribuzione t, che possono essere utilizzati per qualsiasi valore di n. Quando n è piccolo però occorre essere prudenti e verificare la presenza di outlier o il sensibile allontanamento dall'assunzione di normalità della popolazione.

CAPITOLO 6 - vari test di significatività, teoria di Neyman-Pearson

L'obiettivo di molti studi è quello di verificare se i dati raccolti concordano con determinate previsioni che solitamente derivano dagli aspetti teorici che hanno guidato la ricerca. Queste previsioni sono dette ipotesi sulla popolazione. Solitamente è la previsione che un parametro (generalmente θ) impiegato per descrivere alcune

Caratteristiche di una variabile, sia vero o no, e quindi che assuma un particolare valore numerico o cada in un certo intervallo di valori. Un test di significatività utilizza i dati campionari per riassumere le evidenze empiriche riferibili a una certa ipotesi. Ciò viene fatto confrontando le stime puntuali dei parametri con i valori previsti dalle ipotesi.

Le cinque parti di un test di significatività:

  1. Assunzioni: sono condizioni su cui si basa il test per la sua validità. Queste assunzioni riguardano:
    1. Tipo di dati: come altre metodologie statistiche, il test si applica o ai dati quantitativi o ai dati categoriali.
    2. Casualizzazione: ancora una volta, il test assume che i dati siano ottenuti casualmente.
    3. Distribuzione della popolazione:
  2. Ipotesi:
  3. Test:
  4. P-Value:
  5. Conclusioni:

Per verificare se la nostra ipotesi è corretta o meno effettuiamo appunto il test, altrimenti detto verifica di ipotesi. Tutti i test sono solitamente composti da 5 parti: assunzioni, ipotesi, test, P-Value e conclusioni.

Per alcuni test, si assume che la variabile abbia una particolare distribuzione.

Dimensione campionaria: la validità di molti test cresce all'aumentare della dimensione campionaria.

  1. Ipotesi: ciascun test di significatività è costituito da due ipotesi riguardo al valore di un parametro.
    1. Ipotesi nulla (H0): è un'affermazione su un particolare valore assunto sul parametro, ed è quella che vogliamo verificare.
    2. Ipotesi alternativa (H1): attesta che il parametro prende valori in un qualsiasi altro intervallo di valori, e si verifica quindi se l'ipotesi nulla non è vera.
  2. Un test di significatività valuta l'evidenza campionaria dell'ipotesi nulla H0. Il test investiga se i dati contraddicono H0 in maniera da suggerire che H0 sia vera. L'approccio considerato è quello indiretto, detto della "dimostrazione per contraddizione". In pratica, si presuppone che l'ipotesi nulla sia vera e
sulla base di questo presupposto, se si riscontra che i dati osservati sono poco verosimili, si propende per l'ipotesi alternativa.
  1. Test: il parametro al quale fanno riferimento le ipotesi ha una stima puntuale. La statistica test permette di valutare quanto questa stima ricada vicino al valore del parametro ipotizzato con H. Spesso, questa distanza è espressa in termini di quanti errori standard separano la stima dal valore ipotizzato sotto H.
  2. P-Value: è la probabilità che la statistica test sia pari al valore osservato o a uno più grande nella direzione prevista da H. E' determinato presumendo che H sia vera. Un piccolo valore del P-Value (ad esempio 0,01) significa che i dati osservati dovrebbero essere considerati come insoliti se H fosse vera. Quanto più piccolo è il P-Value, tanto più forte è l'evidenza statistica contro H.
  3. Conclusioni: il P-Value sintetizza le verifiche empiriche contro H. Le
nostre conclusioni dovrebbero anche prevedere un'interpretazione di cosa ci dice il P-Value riguardo all'quesito di ricerca che ci ha indotti ad applicare il test. Se il P-Value è sufficientemente piccolo, diciamo che rifiutiamo H0 e accettiamo H1. La maggior parte degli studi richiede che si osservino dei P-Value molto piccoli, come P<0,05, per rifiutare H0. In alcune situazioni, si dice che i risultati sono significativi al livello α=0,05. Questo significa che se H0 fosse vera, la possibilità di ottenere risultati così estremi come quelli ottenuti con dati campionari non dovrebbe essere maggiore di 0,05. Teoria della verifica delle ipotesi Come abbiamo già detto, la teoria della verifica delle ipotesi, altrimenti detta teoria di Neyman-Pearson, consiste in un'ipotesi fatta sul parametro θ, cercando di capire se questa ipotesi è vera o falsa, tramite il campione. Tutti i valori assumibili da θ considerando tutti i possibilisoluzione per formattare il testo utilizzando tag HTML. Ecco una possibile soluzione:

campioni, verranno allora chiamati ϑ-cappello, che rappresenta la nostra statistica test.

Si parla di ipotesi puntuale, se ϑ assume un unico valore; si parla di ipotesi unidirezionale se ϑ assume valori o soltanto positivi, o soltanto negativi; si parla invece di ipotesi bidirezionale se ϑ può assumere valori sia positivi che negativi.

Nella pratica, si divide lo spazio campionario in due zone di accettazione: una regione di accettazione, e una regione di rifiuto. Dopo aver fatto ciò, prendo il campione e calcolo la statistica test ϑ-cappello e vado a vedere tutti i possibili valori che questa può assumere; se finisco nella regione di accettazione, accetto l'ipotesi nulla; se finisco nella zona di rifiuto, accetto l'ipotesi alternativa. Ovviamente basandoci su un campione, questo può essere soggetto a errore. Per capire tutte le tipologie di errore, creiamo la tabella delle decisioni.

Bisogna trovare una soluzione.

“strategia di test” ovvero prendere un test ottimale, cioè quello che riduce la probabilità di errore al minimo. Tuttavia, questo è impossibile. Per identificare l’errore alfa, graficamente andrò a guardare sotto la curva dell’ipotesi nulla e a destra del limite della zona di accettazione. Di conseguenza, beta di troverà sotto la curva dell’ipotesi alternativa alla sinistra dellimite di accettazione. È impossibile rendere minimo sia l’errore di alfa che di beta perché spostando il limite di accettazione diminuisco uno dei due errori, e viceversa. C’è quindi un trade-off tra i due errori. Allora la teoria di Neyman-Pearson ci suggerisce di

  1. Fissare la probabilità dell’errore alfa (=livello di significatività), generalmente 0,10, 0,05 o 0,01, e rifiutiamo H se il P-Value è inferiore o uguale ad alfa;
  2. Cercare la statistica che minimizza beta oppure massimizza γ.
dove γ=1-β, ed è detta "potenza del test".
Test di significatività per una media
Nel caso di variabili quantitative, i test di significatività solitamente fanno riferimento alla media della popolazione μ. Le cinque parti del test sono:
1) Assunzioni: il test assume che i dati siano ottenuti casualmente come nel caso del campione casuale e si ipotizza che la variabile quantitativa abbia una distribuzione normale nella popolazione.
2) Ipotesi: l'ipotesi nulla su una media della popolazione ha questa forma: H₀: μ= μ₀, dove μ₀ è un valore particolare per la media della popolazione, e i gdl=n-1. Il valore ipotizzato per μ in H₀ è un valore singolo. L'ipotesi alternativa è più comunemente: H₁: μ ≠ μ₀.
Questa ipotesi è bidirezionale.
3) Test: la media campionaria ȳ stima la media della popolazione μ. Quando la distribuzione della popolazione è normale, la distribuzione campionaria diy-barrato è
Dettagli
Publisher
A.A. 2021-2022
56 pagine
SSD Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher fpasqua44 di informazioni apprese con la frequenza delle lezioni di Statistica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Messina o del prof Otranto Edoardo.