Appunti completi Statistica

Appunti di statistica basati su appunti personali del publisher presi alle lezioni della professoressa Caviezel dell’università degli Studi di Bergamo - Unibg, facoltà di …

Esame Statistica

Facoltà Economia

Dal corso del Prof. Caviezel Valeria

Università Università degli Studi di Bergamo

Publisher ci1998

A.A. 2019-2020

58 pagine

1 download

Appunto

Vota 4,0 / 5 (1)

Scarica

Estratto del documento

H

ipotesi nulla, indicata con

• 0 H

ipotesi alternativa, indicata con

• 1

L’ipotesi nulla è preesistente all’osservazione dei dati campionari, ritenuta vera fino a prova contraria. È

l’ipotesi che intendo porre a verifica.

Generalmente l’ipotesi alternativa – anch’essa definita prima dell’estrazione del campione – rappresenta la

proposizione che si pensa trovare conferma nei dati campionari.

Esempio:

Secondo il costruttore di un certo tipo di batterie per autovetture, la durata media è di almeno 3400 ore. Un

cliente, per verificarne la durata, osserva un campione di 30 batterie:

H : le batterie hanno durata media di almeno 3400 ore (dato del costruttore)

H : le batterie hanno durata media inferiore a 3400 ore

SISTEMA DI IPOTESI

Un’ipotesi può essere:

Semplice, quando specifica completamente la distribuzione della popolazione (un solo valore per il

• 

parametro ). È semplice se dichiara che il parametro incognito è esattamente uguale ad un valore.

Composta, quando non specifica completamente la distribuzione della popolazione. Dichiara che il

• parametro è maggiore, minore o diverso da un valore.

  2 =

X ~ N ( , 9

)

Es:  = ipotesi semplice: la distribuzione diventa nota

H : 5

0   ipotesi composta: non conosco la distribuzione perché ho infiniti valori >5

H : 5

Un’ipotesi composta può essere:

Unidirezionale, quando specifica un intervallo di valori,

• Bidirezionale, quando specifica due intervalli di valori.

•  

Es: ipotesi unidirezionale

H : 5

0 ipotesi bidirezionale

 

H : 5



Sia un valore fissato del parametro q.

I sistemi di ipotesi più utilizzati sono i seguenti:

Q 

Sia lo spazio parametrico, ossia l’insieme di tutti i possibili valori che può assumere.

Q Q

Q

Inoltre siano e i sottospazi che formano una partizione dello spazio parametrico

0 1

In generale le due ipotesi vengono indicate con il seguente sistema di ipotesi:

  

 H :

0 0

   

 H :

1 1

Per l’esempio delle batterie si traduce nel seguente sistema:

 

 H : 3400

  

 H : 3400

Il sistema di ipotesi si riferisce all’ignota media.

PARTIZIONI DELLO SPAZIO PARAMETRICO E CAMPIONARIO

Lo spazio parametrico è diviso in due parti sulla base dell’ipotesi nulla e dell’ipotesi alternativa.

Lo spazio campionario è l’insieme di tutti i campioni di numerosità n che posso estrarre da una popolazione.

La zona di rifiuto contiene tutti i campioni che portano a rifiutare l’ipotesi nulla. Se estraggo un campione che

proviene da una regione di rifiuto va verso la regione dell’ipotesi alternativa.

REGIONE DI RIFIUTO E DI ACCETTAZIONE

Un test statistico (o test d’ipotesi) è una regola che permette di discriminare i campioni che portano

all’accettazione dell’ipotesi nulla da quelli che portano al suo rifiuto.

Il test si basa sul valore assunto da una statistica test.

La statistica test è una statistica campionaria (una v.c. funzione del campione casuale X ,…,X ) la cui

1 n

distribuzione deve essere completamente nota sotto l’ipotesi nulla.

L’insieme dei valori della statistica test che portano all’accettazione dell’ipotesi nulla è chiamata regione di

accettazione.

L’insieme dei valori della statistica test che portano al rifiuto dell’ipotesi nulla è chiamata regione di rifiuto.

ERRORE DI I° E II° TIPO

 = probabilità di commettere l’errore del I° tipo (livello di significatività del test)

= p(rifiutare H | H vera). Solitamente pari a 0,1 – 0,05 – 0,01.

0 0

 = probabilità di commettere l’errore del II° tipo

= p(accettare H | H vera)

0 1



1 - = potenza del test = p(rifiutare H | H vera) =

0 1

= probabilità di rifiutare l’ipotesi nulla quando questa è falsa.

   

Tra e sussiste una relazione inversa: minore è il valore di , maggiore è il valore di .

Nella tradizione classica dei test delle ipotesi si ritiene più grave commettere l’errore del I° tipo rispetto a

 

quello del II° tipo (si fissa e si cerca di minimizzare ).

E’ più costoso interrompere un processo produttivo che lavora bene (α), piuttosto che persistere nel produrre

anche se le condizioni sono cambiate (β).

Con un atteggiamento prudenziale, è più grave mettere in vendita un farmaco nuovo equivalente ai precedenti

(α) già in commercio, piuttosto che mantenere in commercio un farmaco vecchio meno efficace (β).

Esempio del giudice in un processo dove:

H : imputato innocente

H : imputato colpevole

 →

= p(rifiutare H | H vera) si dichiara colpevole un innocente

0 0

 →

= p(accettare H | H vera) si dichiara non colpevole una persona che ha

0 1 commesso un reato.

TEST SULLA MEDIA PER POPOLAZIONE NORMALE

Devo utilizzare la statistica test= stimatore del parametro incognito.

 2

Supponiamo che la popolazione sia Normale con media incognita e varianza s nota. Si vuole verificare:

 

 H :

0 0

  



 H :

1 0 

In questo caso la statistica test è la media campionaria che sotto l’ipotesi nulla si distribuisce come una

 2

Normale con media e varianza s /n.

0 

Distribuzione della media campionaria sotto l’ipotesi nulla. Siccome è un valore fissato la distribuzione è

completamente nota.

X Z

0 ~

s 2

n →

Standardizzazione si distribuisce come una normale standardizzata

La seguente figura riporta la distribuzione della media campionaria sotto l’ipotesi nulla (si noti che la media

X

 2

 

è ), ovvero X ~ N

( , )

0 n

 

 H :

0 0

  



 H :

1 0

L’area totale sottesa dalla curva deve essere pari a 1. 

Devo determinare c1 e c2 in modo che l’area compresa sia 1- 

Se l’ipotesi nulla è vera la probabilità di osservare un valore della media campionaria “vicino” a sarà alta

 

(diciamo con probabilità 1- ), mentre sarà bassa (diciamo pari a ) la probabilità di osservare un valore



“distante” da (sulle code). Lo spazio campionario (insieme dei valori assunti) della media campionaria viene

diviso quindi in due zone: zona di accettazione e zona di rifiuto (in questo caso dato dalle due code).

 →

I valori di intorno a depongono a favore dell’accettazione dell’ipotesi nulla viene definita una regola,

X 0

cioè il test d’ipotesi.

I valori critici c e c definiscono la zona di rifiuto (e di conseguenza quella di accettazione). Essi dipendono dal

1 2 

livello di significatività (probabilità dell’errore di I° tipo): maggiore è il suo valore, più ampia sarà la regione

di rifiuto.

Le due code rappresentano la regione di rifiuto; costruita così (con due code equiprobabili) è la “migliore”

 

perché per un prefissato livello di , minimizza (secondo il Lemma di Neyman-Pearson).

Una volta estratto il campione osservato si calcola la media campionaria e si verifica se cade nella zona di

rifiuto (→ si rifiuta l’ipotesi nulla, si accetta l’ipotesi alternativa) o di accettazione (→ si accetta l’ipotesi nulla).

Se la media campionaria cade nella zona di rifiuto significa che i dati campionaria non supportano l’ipotesi

nulla, che quindi viene rifiutata. Non possiamo comunque dire che l’ipotesi nulla è FALSA (tutta la procedura

è soggetta a incertezza).

Devo standardizzare i valori perché se ho una normale standardizzata posso determinare i valori Z, -Z e +Z in

modo tale che l’area compresa tra i due sia 1-

Excel considera sempre la funzione di ripartizione (area a sinistra del punto): area totale – la coda di destra. In

questo caso è 1-/2.

Si vuole verificare se la spesa media mensile per la telefonia mobile è variata rispetto all’anno precedente

quando era stata pari a 50.64 euro. Un ricercatore crede che oggi la spesa sia diversa ma non sa dire se è

diminuita o aumentata.

Si estrae un campione di 12 persone con un contratto di telefonia mobile e si regista la loro spesa mensile

ottenendo una media campionaria pari a 55.014 euro. 2

Supponendo che la spesa mensile sia distribuita secondo una Normale con varianza nota e pari a 18.49 euro ,



costruire un test d’ipotesi per verificare l’ipotesi del ricercatore (usare = 0.05).

  =

X ~ N

( , 18

49 )  =

 H : 50



Il sistema di ipotesi sarà:  

H : 50

 1  2 18

 = = =

X ~ N

( 50

64 , 1

54 )

La statistica test è data dalla media campionaria (sotto H ):

0 n 12

Nelle seguenti figure vengono individuate le zone di rifiuto/accettazione:

 2

Si supponga che la popolazione sia Normale con media incognita e varianza s nota. Si consideri adesso il

caso in cui l’ipotesi nulla è composta, ad esempio:

 



 H :

0 0

  



H :

 1 0

Questo sistema di ipotesi può essere ricondotto a:

 

 H :

0 0

  



H :

 1 0  = 

In effetti rifiutare l’ipotesi H : (a favore dell’ipotesi alternativa) implica anche il rifiuto dell’ipotesi H :



0 0

  

≤ 

In definitiva quando l’ipotesi alternativa è composta è conveniente ragionare come se si avesse un’ipotesi

 =  

alternativa semplice del tipo H : 

Come cambia la regione di rifiuto quando l’ipotesi alternativa è unidirezionale destra?

 

 H :

0 0

  



H :

 1 0

Non vado più a mettere la zona di rifiuto sia a destra che a sinistra ma la sposto tutta a destra. Devo fare

attenzione a valori troppo grandi rispetto alla media. Ho un solo valore critico. Se la media campionaria è

maggiore uguale del valore critico rifiuto l’ipotesi nulla, altrimenti la accetto.

Come cambia la regione di rifiuto quando l’ipotesi alternativa è unidirez

Anteprima

Vedrai una selezione di 10 pagine su 58