Statistica parte scritta

Appunti presi a lezione e basati sulle slide del corso di statistica con spiegazioni di grafici e delle varie analisi affrontate durante l'anno accademico basati su appunti personali del …

Esame Statistica

Facoltà Ingegneria

Dal corso del Prof. Corain Livio

Università Università degli Studi di Bologna

Publisher suttles

A.A. 2019-2020

23 pagine

Appunto

Vota

Scarica

Estratto del documento

INTERVALLI DI CONFIDENZA PER LA MEDIA

1. Intervallo di confidenza per la media (popolazioni normali e varianza nota) 2. Intervallo di confidenza per la media (popolazioni normali e varianza non nota) 3. Intervallo di confidenza per la media (popolazioni non normali)

INTERVALLO DI CONFIDENZA PER LA MEDIA (VARIANZA NOTA)

Dato un campione casuale estratto da una popolazione normale con media ingoia mu e varianza nota sigma quadro, l'intervallo di confidenza per la media della popolazione al livello di confidenza 1-alfa è: La probabilità che il parametro appartenga all'intervallo è detta livello di confidenza, generalmente indicato con (1-alfa)% dove alfa è la probabilità che il parametro si trovi al di fuori dell'intervallo di confidenza. Il livello di confidenza è fissato dal ricercatore e generalmente è pari al 90%, 95% e 99%. In alcuni casi risulta desiderabile un grado di certezza maggiore, ad esempio del 99%, ed in altri casi.

Possiamo accettare un grado minore di sicurezza, ad esempio del 90%. Ciascun livello di confidenza (1-alfa) corrisponde a un diverso valore critico.

Se potessimo ripetere il campionamento infinite volte, nel 95% dei casi (per il 95% dei campioni) l'intervallo di confidenza includerebbe il valore vero della media incognita. Essendo elevata questa probabilità, si ha fiducia che l'intervallo stimato calcolato per il campione osservato contenga il valore incognito della media della popolazione.

La lunghezza dell'intervallo di confidenza è data dalla differenza tra l'estremo superiore e l'estremo inferiore. Dipende da:

La dimensione del campione;
Il livello di confidenza;
La varianza della popolazione.

Minore è la lunghezza dell'intervallo, maggiore è la capacità informativa dell'intervallo.

La distribuzione campionaria della media campionaria è la media aritmetica dei valori osservati in un campione.

viene utilizzata per stimare la media della popolazione. La distribuzione (campionaria) della media campionaria è la distribuzione di tutte le possibili medie campionarie che osserveremo se procedessimo all'estrazione di tutti i possibili campioni di una stessa ampiezza fissata n. Se un campione è estratto da una popolazione normale con media mu e scarto quadratico medio sigma, la media campionaria ha distribuzione normale indipendente dall'ampiezza campionaria n, con media mu e deviazione standard sigma/RAD n.

La media campionaria è caratterizzata da una minore variabilità rispetto ai dati originali. Le medie campionarie saranno quindi caratterizzate, in generale, da valori meno dispersi rispetto a quelli che si osservano della popolazione. La deviazione standard della media campionaria, detta errore standard della media, quantifica la variazione della media campionaria da campione a campione:

L'errore standard della media è uguale alla

Deviazione standard della popolazione diviso per la radice di n.

Il teorema del limite centrale

Si presentano spesso casi in cui la distribuzione della popolazione non è normale. In questi casi è utile riferisti ad un importante teorema della statistica, il teorema del limite centrale, che consente deviare la distribuzione della media campionaria anche nel caso in cui una popolazione non abbia distribuzione normale.

Quando l'ampiezza del campione casuale è sufficientemente grande, la distribuzione della media campionaria può essere approssimata della distribuzione normale indipendentemente dalla forma della distribuzione dei singoli valori della popolazione.

Si concorda nell'affermare che quando l campione raggiunge un'ampiezza pari almeno a 30, la distribuzione della media campionaria è approssimativamente normale. Il teorema del limite centrale può essere applicato anche con campioni di ampiezza inferiore se la distribuzione della

La popolazione ha alcune caratteristiche che la avvicinano alla normale (ad esempio quando è simmetrica). Il teorema del limite centrale consente di fare inferenza sulla media della popolazione senza dover conoscere la forma specifica della distribuzione della popolazione.

Intervallo di confidenza per la media (sigma non noto)

Generalmente la deviazione standard della popolazione sigma, al pari della media µ, non è nota. Pertanto, per ottenere un intervallo di confidenza per la media della popolazione possiamo basarci sulla deviazione standard campionaria S. Se la variabile casuale X ha una distribuzione normale allora la statistica:

Ha una distribuzione t di student con (n-1) gradi di libertà. Questa distribuzione ha una forma molto simile a quella normale. Tuttavia, il grafico risulta più appiattito e l'area sottesa sulle code è maggiore di quella della normale a causa del fatto che sigma non è noto e viene stimato da S. L'incertezza

su sigma causa la maggior variabilità di t: All'aumentare dei gradi di libertà. La distribuzione t si avvicina progressivamente alla distribuzione normale fino a che le due distribuzioni risultano virtualmente identiche. Il significato dei gradi di libertà è legato al fatto che per calcolare S^2 è necessario calcolare preventivamente la media campionaria. Quindi dato il valore della media campionaria, solo n-1 osservazioni campionarie sono libere di variare: ci sono quindi n-1 gradi di libertà. L'intervallo di confidenza all' (1-alfa) % della media quando sigma non è noto è definito da: Dove t è il valore critico a cui corrisponde un'area cumulata pari a (1- alfa/2) della distribuzione t di student con (n-1) gradi di libertà. Intervallo di confidenza per la proporzione Data una popolazione le cui unità statistiche possiedono una certa caratteristica secondo una data proporzione, indicata alparametro incognito π, è possibile costruire un intervallo di confidenza per π a partire al corrispondente estimatore puntuale dato dalla frequenza campionaria ρ=X/n, dove n è l’ampiezza campionaria e X è il numero di unità del campione che hanno la caratteristica di interesse.

PARTE 7: VERIFICA DI IPOTESI: TEST SU UN CAMPIONE

La verifica di ipotesi

La verifica delle ipotesi è una procedura inferenziale che consiste nel fare un’ipotesi su una quantità incognita della popolazione (parametro) e nel decidere sulla base del campione casuale (per mezzo di una statistica campionaria) se essa è accettabile o meno.

Nella verifica di ipotesi attraverso un campione di osservazioni vogliamo stabilire, con un certo grado di attendibilità, se rifiutare o meno l’ipotesi di interesse. Il problema quindi è di prendere una decisione sulla base dei dati campionari.

Il testo statistico e il sistema di ipotesi

Si definisce il

test di ipotesi il procedimento che consente di rifiutare o non rifiutare l'ipotesi di ricerca. Generalmente le ipotesi di ricerca riguardano la presenza di: - Una differenza del parametro rispetto ad un valore di interesse; - Differenze tra parametri di gruppi diversi; - Relazioni tra variabili. L'ipotesi sottoposta a verifica viene detta ipotesi nulla ed è indicata con H0. A fronte dell'ipotesi nella risulta definita l'ipotesi alternativa indicata con H1. L'ipotesi H0 ipotizza l'assenza di differenze del parametro rispetto al valore, l'assenza di differenze significative. H1 è specificata come ipotesi opposta all'ipotesi nulla e rappresenta generalmente la nuova ipotesi dato fenomeno, la nuova intuizione del ricercatore. Nella verifica di ipotesi però è l'ipotesi nulla che viene sottoposta a verifica e non l'ipotesi alternativa. Le fasi di un test statistico: test Z per la media (σ

1° passo: formulazione ipotesi con esempio

2° passo: scelta di una statistica test

La statistica test è una statistica campionaria la cui distribuzione campionaria deve essere nota e completamente specificata sotto l'ipotesi nulla (valori μ e σ). Conoscendo la distribuzione campionaria se X è normale (con σ noto) o se siamo nelle condizioni di applicabilità del teorema del limite centrale.

3° passo: regione di accettazione e regione di rifiuto

Le due regioni sono definite in corrispondenza dei cosiddetti valori critici che dipendono dal livello di significatività α. La regione di accettazione è quindi un'area a cui corrisponde una probabilità (1-α) riferita a tutti i campioni che hanno una media campionaria compresa tra u due valori critici. La regione di rifiuto è suddivisa in due code a cui corrisponde a una probabilità complessiva pari a α riferita a tutti i campioni che

seguente: se il p-value è inferiore al livello di significatività scelto (solitamente 0.05), allora si rifiuta l'ipotesi nulla. Altrimenti, se il p-value è maggiore o uguale al livello di significatività, non si rifiuta l'ipotesi nulla. Nel caso in cui il p-value sia molto piccolo (ad esempio, inferiore a 0.01), si può affermare che l'evidenza contro l'ipotesi nulla è molto forte. Al contrario, se il p-value è molto grande (ad esempio, maggiore di 0.1), l'evidenza contro l'ipotesi nulla è molto debole. È importante sottolineare che il p-value non fornisce informazioni sulla dimensione dell'effetto o sulla sua importanza pratica. Misura solo la forza dell'evidenza contro l'ipotesi nulla.seguente:

Se il p-value è >= a α, l'ipotesi nulla non è rifiutata;
Se il p-value è < α, l'ipotesi nulla è rifiutata;

dove α è il livello di significatività del test. Errori di I e II tipo Nella verifica di ipotesi, si possono commettere due tipi di errori:

Errore del I tipo (o di prima specie): si rifiuta l'ipotesi nulla quando è vera;
Errore del II tipo (o di seconda specie): si accetta l'ipotesi nulla quando è falsa;

α è la probabilità di commettere l'errore del I tipo, ovvero di rifiutare l'ipotesi nulla quando è vera (livello di significatività del test). 1-α è detto coefficiente di confidenza del test. β è la probabilità di commettere l'errore di tipo II, ovvero di accettare l'ipotesi nulla quando è falsa. 1-β è la potenza del test.

test e corrisponde alla probabilità di rifiutare l’ipotesi nulla quando questa è falsa. In genere si controlla l’errore di primo tipo fissando il livello del rischio α.

Anteprima

Vedrai una selezione di 6 pagine su 23

Anteprima di 6 pagg. su 23.
Scarica il documento per vederlo tutto.

Scarica

Anteprima di 6 pagg. su 23.
Scarica il documento per vederlo tutto.

Scarica

Anteprima di 6 pagg. su 23.
Scarica il documento per vederlo tutto.

Scarica

Anteprima di 6 pagg. su 23.
Scarica il documento per vederlo tutto.

Scarica

Acquista con carta o PayPal

Scarica i documenti tutte le volte che vuoi

Dettagli

SSD

Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher suttles di informazioni apprese con la frequenza delle lezioni di Statistica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Bologna o del prof Corain Livio.

Appunti correlati