Che materia stai cercando?

Calcolo delle probabilità e Statistica Matematica 2 - Appunti

Appunti di Probabilità e Statistica Matematica 2 per l'esame del professor Apolloni all'università degli studi a Milano, per completezza i contenuti sono stati in parte integrati con il libro "A Course in Mathematical Statistics" di George Roussas. I contenuti del corso sono variabili aleatorie, distribuzioni campionarie, diversi test per la verifica di ipotesi, modello di regressione... Vedi di più

Esame di Calcolo delle probabilità e Statistica Matematica 2 docente Prof. B. Apolloni

Anteprima

ESTRATTO DOCUMENTO

Definizione 1.5. (c.d.f. e p.d.f.)

c.d.f è la ’cumulative distribution function’, cioè la funzione di distribuzione cumulativa

p.d.f è la ’probability density function’, cioè la funzione di densità di probabilità

Definizione 1.6. (Convergenza in distribuzione)

{F } {X }

Sia una successione di funzione di distribuzione cumulativa delle variabili aleatorie e

n n

d

−−−−→ −−−−→

sia F la funzione di distribuzione cumulativa di X. Se F F , diciamo che X X,

n n

n→∞ n→∞

cioè che X converge in distribuzione, oppure in legge.

n

Esempio 1.7. (Teorema del limite centrale)

{X }

Sia una successione di variabili aleatorie indipendenti, identicamente distribuite con ] =

E[X

n i

2 ∀i.

µ e var(X ) = σ Allora

i −

X̄ µ

n √ −−−−→ Y

σ/ n n→∞

∼ N

con Y (0, 1).

Definizione 1.8. (Convergenza in media p-esima)

p

L

−−−−→

Diciamo che X X se

n n→∞ p

− ≥

lim [kX Xk ] = 0, p 1

E n

n→∞

Nota.

Se p p allora

1 2 p p

1 2

L L

−−−−→ ⇒ −−−−→

X X X X

n n

n→∞ n→∞

Teorema 1.9.

Sia X una successione di variabili aleatorie, allora:

n q.c P d

−−−−→ ⇒ −−−−→ ⇒ −−−−→

1. X X X X X X

n n n

n→∞ n→∞ n→∞

d P

−−−−→ ⇒ −−−−→

2. Se X = cost. X X X X

n n

n→∞ n→∞

2

L P

−−−−→ ⇒ −−−−→

3. X X X X

n n

n→∞ n→∞

Definizione 1.10. (Centro)

Non c’è un modo univoco per definire il centro di una distribuzione.

Se la distribuzione è simmetrica solitamente si prende il valore atteso (che coincide con la media-

na), ma se la distribuzione non è simmetrica, si possono considerare il valore atteso, la mediana,

oppure la moda (nel caso questa fosse unica). Si può anche utilizzare il metodo dei minimi qua-

drati brevemente descritto, trattato nei prossimi capitoli: 2

P −

Sia x . . . x la realizzazione di X . . . X si vuole trovare il valore a tale che il valore (x a)

1 n 1 n i

sia minimo

Definizione 1.11. (Stimatore)

Sia X . . . X un campione di variabili aleatorie con distribuzione congiunta (funzione di verosi-

1 n

miglianza) dipendente da un parametro. k

∈ ≤

θ , k n

L(x . . . x , θ), R

1 n 4

Uno stimatore di θ è una statistica, ossia una funzione del campione: θ̂ = T (x . . . x ) con

1 n

n p

→ ≥

: , n > p k

T R R

nota

Se L è una funzione di densità . . .

Se L è una funzione congiunta . . .

devo chiedere!

Proposizione 1.12. (di uno stimatore)

Sia X . . . X un campione di funzioni di verosimiglianza e θ̂ = T (X . . . X ) uno stimatore.

1 n 1 n

1. Consistenza

Diciamo che θ̂ è debolmente consistente per θ se

n P

θ̂ θ

n

mentre fortemente consistente se q.c.

−−→

θ̂ θ

n

2. Non-distorsione

Diciamo che θ̂ è non-distorto (oppure corretto) per θ se

n n

∀θ, ∀n ∈

θ̂ ) = θ,

E( N

n

3. Efficienza n

∈ →

Sia θ e siano θ = T (X . . . X ) e θ = T (X . . . X ) con T : Diciamo che

R R R.

1 1 1 n 2 2 1 n 1,2

θ è più efficiente di θ se var(

θ̂ ) < var( θ̂ )

1 2 1 2

4. Asintotica normalità

Sia θ e θ̂ = T (X . . . X ) stimatori di θ, diciamo che θ̂ è asintoticamente normale,

R n 1 1 n n

2

∼ AN

cioè θ̂ (θ, σ ) se

n n −

θ̂ θ d

n −−−−→ N (0, 1)

σ n→∞

n

5. Sufficienza ⇔

Diciamo che θ̂ è sufficiente per θ la distribuzione di X = (X , X , . . . , X ) condizio-

1 2 n

n n n

∀θ ∈ ∀t ∈

nata a T (X) = t è indipendente da θ M con (M ) = 1

R P

θ

6. Ottimale

è ottimale se è corretto e se è più efficiente per ogni altro stimatore corretto.

θ̂ n

Esempio 1.13. (Stimatore sufficiente) ∼

Siano X , X . . . X variabili aleatorie indipendenti, identicamente distribuite B(1, θ) e x . . . x

1 2 n 1 n

una realizzazione.

Dalla realizzazione si possono estrapolare due informazioni distinte

1. Il numero di successi

2. L’ordine dei successi

Tuttavia basta la prima informazione per ottenere uno Stimatore sufficiente.

Sia n

X ∼

T = X = #{di successi avuti} B(n, θ)

i

i=1 5

Allora t n−t

(X = x , . . . , X = x , T (X . . . X ) = t) 1

θ (1 θ)

P

θ 1 1 n n 1 n

|T

(X = x , . . . , X = x = t) = =

=

P

θ 1 1 n n n n

t n−t

(T = t) θ (1 θ)

P

θ t t

e non dipende da θ, quindi T è sufficiente per stimare il parametro θ

Nota. n n

∈ →

Si ha θ [0, 1], T : con dimensione del campione e dimensione del parametro θ

R R, R R

Esempio 1.14.

Dato X = (X . . . X ), le cui componenti sono variabili aleatorie indipendenti, identicamente

1 n

distribuite con funzione di densità di probabilità f continua. Si consideri la statistica T (X) =

θ

≤ ≤ · · · ≤

(X , . . . , X ) con X X X . Essendo le X indipendenti, identicamente

(1) (n) (1) (2) (n) (i) Quindi T contiene tutte le

distribuite basta permutare in modo casuale le X per riottenere X.

(i)

e quindi T è sufficiente.

informazioni di X,

Nota. n n

→ , come in questo caso, la dimensione del problema non viene ridotta.

Se si ha T : R

R

Teorema 1.15. (criterio di fattorizzazione)

Una statistica T = T (X) è sufficiente se e solo se esistono R , R funzioni non negative tali che

1 2

Y ·

f (x , θ) = R (T (x), θ) R (x) (1)

i 1 2

Teorema 1.16. (Fattorizzazione di Fisher-Neyman)

= (X , . . . , X ),le cui componenti sono variabili aleatorie (non per forza indipendenti,

Sia X 1 n k

∈ ⊆ 6

identicamente distribuite ) con funzione di verosimiglianza L(X, θ), θ Θ , k = n

R

n m

→ 6 6

Una statistica T : , n = m = k, cioè T (X) = (T (X), . . . , T (X)) è sufficiente se e

R R 1 m

solo se la funzione di verosimiglianza si può fattorizzare nel seguente modo:

θ) = g(T (x), θ)h(x , . . . , x ) (2)

L(X, 1 n

con h indipendente da θ e g distribuzione di T

Dimostrazione. (solo caso discreto)

⇒)

Sia T sufficiente per θ, e x = (x , . . . , x ) una realizzazione di X. Allora

1 n

= x|T = t) = h(X = x, t)

P(X

indipendente da θ, e quindi θ) = (X = x)

L(X, P

θ ·

= (X = x|T = t) (T = t)

P P

θ θ

·

= h(x, t) g(T , θ)

con h indipendente da θ.

⇐) m

· ∈

= (x , . . . , x ) e L(X, θ) = g(T (x), θ) h(x), t tale che (T = t) > 0

Sia x R P

1 n θ

Si ha che 6

(T = t) = (T (X) = t)

P P

θ θ

X 0 )

= P (X = x

θ

A

X 0

= L(x , θ)

A

X 0

· )

= g(t, θ) h(x

A X 0

θ) h(x

= g(t, )

A

n

0 0

∈ |T

con A = (x (x ) = t))

R 0

= x|T (x ) = t) sia indipendente da θ:

voglio che (X

P θ 0 0 0

(X g(t,

= x, T (x ) = t) θ)h(x ) h(x )

P θ

0

(X = x|T (x ) = t) = = =

P θ 0 0

P P

(T = t) g(t, θ) h(x h(x

) )

P

θ A A

Corollario 1.17. n m

Se T = T (X) è sufficiente per θ e se T = H(U ), con U : statistica, allora anche U è

R R

sufficiente per θ. è invertibile allora U è sufficiente se e solo se lo è anche T .

In particolare se H

Definizione 1.18. (Famiglia esponenziale)

Si tratta di una particolare famiglia di variabili aleatorie, distinguiamo il caso in cui il parametro

θ sia unidimensionale o meno.

Definizione. (Famiglia esponenziale a parametro unidimensionale)

00

00

∈ { ∈ ⊆ }

Una variabili aleatorie X è fam.esp. con param. θ Θ se la funzione di densità di

R

probabilità ha la forma: Q(θ)T (X)

f (X, θ) = C(θ)e h(X)

∀θ ∈ ∀x ∈ ⊆

dove C(θ) > 0 Θ e h(x) > 0 S insieme indipendente da θ. Se (X , . . . , X ) = X

R 1 n

sono variabili aleatorie indipendenti, identicamente distribuite f (X, θ), allora

n

n n

Y Y

P T (X )

n nQ(θ)

f (X , θ) = C (θ)e h(X )

L(X, θ) = i

i=1 i

i i=1

i=1 n nQ(θ)T

P Q

Sia quindi T = T (X ) e g(X, θ) = C (θ)e h(X), oltre a h(X) = h(X ).

i i

i

Si ha che T è sufficiente per θ.

Esempio 1.19.

Le seguente distribuzioni fanno parte della famiglia esponenziale, sono riportati i relativi T (X)

distribuzione T (X) 2

N (µ, θ), µ noto T (X) = (X µ)

P (θ) T (X) = X

Γ(a, θ) T (X) = X

Γ(θ, b) T (X) = log(X)

β(r, θ) T (X) = log(1 X)

β(θ, s) T (X) = log(X)

B(n, θ) T (X) = X

7

Definizione. (Famiglia esponenziale a parametro multidimensionale)

= (X . . . X ) una variabili aleatorie indipendenti, identicamente distribuite con distribu-

Sia X 1 n k

∈ ⊆

zione dipendente da θ Θ .

R

00 00

∈ { ∈ }

Allora X fam.esp. con param. θ Θ se e solo se

k

P (X)

Q (θ)T

f (X, h(X)

θ) = C(θ)e j

j

j=1

∀θ ∈ ∀x ∈ ⊆

dove C(θ) > 0 Θ e h(x) > 0 S indipendente da θ.

R

In modo analogo ad una esponenziale a parametro unidimensionale, la statistica

. . . T (X) è sufficiente per θ poiché vale la fattorizzazione di Fisher-Neyman.

T = (T X) n

1

Nota.

Date almeno diverse statistiche non sappiamo ancora quale scegliere per studiare un parametro

θ se le due hanno proprietà differenti. Cerchiamo normalmente di utilizzare quella con meno

informazioni inutili.

Definizione 1.20. (Statistica ancillare) Si dice ancillare

Una statistica V = V (x) si dice ancillare se la distribuzione non dipende da θ.

∀θ ∈

di primo ordine se (x)] = c Θ, cioè se il valore atteso è indipendente da θ.

E[V

Nota.

Se non si considerano le statistiche ancillari non si perdono informazioni sul parametro, è inol-

tre generalmente più semplice controllare che una statistica sia ancillare del primo ordine che

ancillare.

Esempio 1.21. n

Q −θ),

Sia X = (X , . . . , X ) un campione con una funzione di verosimiglianza L(X, θ) = f (X

1 n i

i=1

con f , funzione di densità di probabilità nota.

{L(X, ∈ ⊆ −

Chiamiamo θ); θ Θ Location family e si dimostra che X X sono statistiche

R} i j

ancillari.

Data ad esempio la distribuzione ∼ −

X U (θ 1/2, θ + 1/2)

i

si può trovare la seguente statistica sufficiente: T = (Y = max(X ), Z = min(X )), che è

i i

”minima” e ”contiene” Y Z che è ancillare, non è quindi possibile trovare una statistica

”completa”.

Definizione 1.22. (Statistica completa) k

∈ ⊆

Sia X = (X . . . X ) un campione con funzione di verosimiglianza L(X, θ), θ Θ e u una

R

1 n ∀θ ∈

generica funzione continua. Una statistica T = T (X) è detta completa se [u(T (X))] = 0 Θ

E

θ

implica sempre e solo u = 0 come soluzione.

Nota. 1. Una statistica se è completa, non è ancillare. P

2. Se il campione proviene da una classe esponenziale, allora la statistica T = T (X è anche

i)

una statistica completa.

Esempio 1.23. +

∼ ∈

Sia X U (0, θ), θ Si ha allora che la funzione di densità di probabilità è non-nulla

R 1 . Sia ora T (X) = X, ci si chiede se questa statistica è completa.

sull’intervallo [0, θ] e vale θ

+

∀θ ∈ si ha

R Z

[u(T (X))] = [u(X)] = u(x)f (x) d x = 0

E E

θ θ X

(0,θ) +

R ∀θ ∈

e poichè f > 0 segue che per avere f (x) d x = 0 serve u(x) = 0

R

X X

(0,θ) 8

Definizione 1.24. (UMVU, Uniformly Minimum Variance Umbiased)

Si tratta di una statistica non distorta (oppure corretta) e di varianza minima, vengono chiamati

anche stimatori ottimali.

Teorema 1.25. (Teorema di Rao-Blackwell) n

∈ ⊆

θ), θ Θ e sia

Siano X . . . X variabili aleatorie con funzione di verosimiglianza L(X, R

1 n

una statistica sufficiente per θ.

T = T (X) n → ∞,

Sia inoltre U = U (X . . . X ) : un’altra statistica, non distorta con var(X) < per θ

R R

1 n

e non sia in funzione di θ.

|T ◦ ⊆ → |T

Posto allora Φ(θ) = [U = t] e detto Φ(T ) = Φ T : w Ω [U = T (X (w) . . . X (w))]

E E

θ θ 1 n

si ha

1. Φ(T ) è una variabile aleatoria non dipendente da θ

2. Φ(T ) è non distorta per θ

3. var (Φ(T )) var (U )

θ θ

Dimostrazione.

1) Si ha che Z

|T

Φ(T ) = [U ] = U (X)L(X|T )dx

E

θ n

R

e questo l’integrale è indipendente da θ poiché T è sufficiente e quindi Φ(T ) è indipendente da θ

ed è in funzione di T .

2) Per la proprietà della torre si ha:

|T

)] = ] = ] = θ

E[Φ(T E E[U E[U

poiché ] è non distorto per θ.

E[U |X ≤

3) In modo analogo per la torre si può dimostrare che var(E[X ]) var[X ]

2 1 2

Teorema 1.26. (Proprietà della Torre)

|X

Se X , X sono variabili aleatorie , allora ] = ]

E E[X E[X

1 2 1 2 2

Dimostrazione. Z

Z ZZ

|X |x |x

] = x f (x )dx f (x )dx = x f (x )f (x ) dx dx

E E[X

1 2 2 2 1 2 x 1 1 2 2 1 x 1 2 1

1 1

2

R R R | {z }

f (x ,x )

x ,x 1 2

1 2

in questo caso si possono scambiare gli integrali (causa la sufficiente regolarità)

Z

ZZ Z Z

x f (x , x )dx dx = x f (x , x )dx dx = x f (x )dx = ]

E[X

2 x ,x 1 2 1 2 2 x ,x 1 2 1 2 2 x 2 2 2

1 2 1 2 2

2

R R R R

Nota.

Per il Teorema di Rao-Blackwell le statistiche UMVU sono da ricercarsi nelle statistiche sufficienti.

Teorema 1.27. (Teorema di Lehmann–Scheffé) ∈ ⊆

Siano X , . . . , X variabili aleatorie con funzione di verosimiglianza L(X; θ), θ Θ R.

1 n

Sia T una statistica sufficiente e completa per θ, e U = U (T ) una statistica non distorta per θ,

2 ∞ ∀θ ∈

con [U ] < Θ

E

θ

Allora U è l’unica statistica non distorta per θ con varianza minima, cioè se V (T ) è un’altra

∈ ∈ ∀θ ∈

statistica non distorta per θ, allora U (T ) = V (T ) tranne che per t N con (t N ) = 0 Θ.

P θ

9

Dimostrazione.

Siano U, V non distorte per θ e funzioni solo di T .

∀ ∈ −

Allora θ Θ si ha [U (T )] = [V (T )] e segue che [U (t) V (T )] = 0. Per la completezza

E E E

θ θ θ

− ∀t ∈ ∈ ∀θ

di T si ha che U (T ) V (T ) = 0, ma allora U (t) = V (t) / N con (t N ) = 0

P

θ

Nota.

Siano X , . . . , X indipendenti, identicamente distribuite con funzione di densità di probabilità

1 n

Q(θ)T (X)

f (X, θ) = C(θ)e h(X), con C(θ) > 0, h(X) > 0 su un insieme S, indipendente da θ.

Allora si ha che

1. T (X), una variabile aleatoria , è completa se Θ contiene almeno un intervallo I non degenere

P

2. T (X) = T (X ) è sufficiente e completa, se Θ contiene un intervallo I non degenere e se

i 1

le X sono variabili aleatorie discrete o C (R)

j

Teorema 1.28. (Teorema di completezza e indipendenza di variabili aleatorie )

Siano X , . . . , X variabili aleatorie indipendenti, identicamente distribuite , con funzione di

1 n ∈ ⊆ ⊆

densità di probabilità f (X, θ), θ Θ I R.

X

Sia inoltre Y = Y (X , . . . , X ) una statistica sufficiente e completa per θ, e sia Z = (Z , . . . , Z )

1 n 1 n

un’altra statistica, non funzione solo di Y .

Se la distribuzione di Z non dipende da θ, allora Z e Y sono indipendenti.

Dimostrazione. (caso continuo, quello discreto è analogo) ∀y ∈

Supponiamo che la funzione di densità di Y sia f (y, θ) > 0, e sia f (y, z, θ) la

R

Y (Y,Z)

funzione di densità congiunta di Y e Z, e sia f (z) la funzione di densità di Z. Si ha che

Z

Z Z

f (z) = f (z) f (y, θ) d y = f (z)f (y, θ) d y

Z Z Y Z Y

R R

Si ha inoltre

f (y, z, θ)

Z Z (Y,Z)

f (z) = f (y, z, θ) d y = f (y, θ) d y

Z Y

(Y,Z) f (y, θ)

Y

R R | {z }

=f (z,y)

Z|Y

e f (z, y)) non dipende da θ, poiché Y è sufficiente.

Z|Y

Si ha che Z

− ∀θ ∈

f (z) f (z, y) f (y, θ)) d y = 0 Θ

Z Y

Z|Y

R

cioè −

(z) f (z, y)] = 0

E[f

Z Z|Y

e per la completezza di Y si ha f (z) f (z, y) = 0, cioè f (z) = f (z, y) = 0 quindi

Z Z

Z|Y Z|Y

f (z, y) = f (z, y)F (Y ) = f (z)f (y) le distribuzioni sono indipendenti tranne che al più

Z,Y y Z Y

Z|Y

su insiemi di misura nulla.

Definizione 1.29. (Funzione generatrice di momenti di una variabile aleatoria )

T X

M (t) = e

E

10

Nota.  0

M (t)| = E[X]

t=0

 00

M (t)| = var (X)

t=0

...

La funzione generatrice di momenti è analoga alla funzione caratteristica e possiede proprietà

analoghe.

Corollario 1.30.

Dati X , . . . , X variabili aleatorie indipendenti, identicamente distribuite con funzione di densità

1 n 2

di probabilità N (µ, θ ), siano 1

1 X X

2 2

(n) −

x e S (X X̄)

=

X̄ = i i

n

n n

2 (n) 2

Se la distribuzione S non dipende da µ, allora X̄ e S sono indipendenti.

n n

Dimostrazione.

h i

2 t

2

tS P −

(X X̄)

M (t) = e = exp

n

E E

2 i

S n

n !

2

P

Z Z t (X µ)

1

2 i

X

··· − −

= exp X X̄ exp d x

i n n 2

n 2σ

2πω

n

R

n

Notare che per t < l’integrale esiste.

2

− ∀i |J|

Ponendo w = (X µ) = 1, . . . , n si ha = 1 e quindi

i i X X

2 2

(X µ) = w

i i 2

P

Z Z 2

t w

1

X i

(n)

··· −

− √

M (t) = exp exp d w

w w̄

2 i

S n 2

n 2σ

n 2πω

n

R

e non dipende da µ. In particolare notiamo che nonostante lo scambio di variabili l’insieme sul

quale si calcola l’integrale non è cambiato.

Definizione 1.31. (Stimatori di massima verosimiglianza - ML)

M L = g(X)

Una statistica Θ̂ = g(X . . . X ) con X . . . X indipendenti, identicamente distribuite

1 n 1 n

n

si dice stimatore di massima verosimiglianza del parametro θ, se

Θ̂ = arg max L(X, θ)

θ

dove L(X, θ) è la funzione di verosimiglianza.

Nota.

Dato X , . . . , X con L(X, θ), sia Θ̂ = arg max L(X, θ).

1 n θ

si ha

Se T è uno stimatore sufficiente per θ,

L(X, θ) = g(T (X, θ))h(X)

con h(X) indipendente da θ (e quindi non serve massimizzarlo!)

Allora θ̂ = arg max g(T, θ)

θ

e θ è funzione di T. 11

Teorema 1.32. (Disuguaglianza di Cramér-Rao) θX

= (X , . . . , X ) una variabile aleatoria con distribuzione e con funzione di verosimi-

Sia X P

1 n ∈ ⊆

glianza L(X, θ) con θ Θ Sia T (X) uno stimatore di τ (θ), funzione del parametro, allora,

R.

se 1. Θ è un intervallo o unione di intervalli contenuto/i in R

∀X ∈

2. L(X, θ) > 0 S insieme indipendente da θ

3. Z Z

d d

L(X, θ) d x = θ) d x

L(X,

d θ d θ

Z Z

d d

T (X)L(X, θ) d x = T (X) L(X, θ) d x

d θ d θ

1

4. τ (θ) C (Θ) ∀θ ∈

= τ (θ) Θ (è corretto o non-distorto)

5. [T (X)]

E

θ 2 ∞ ∀θ ∈ ∞)

6. (X)] < Θ (equivalentemente var(T (X)) <

E[T n

2

0 o

2 d lg(L(X,θ))

τ (θ)

∀θ ∈ ≥

Allora Θ si ha var(T (X)) , con I(θ) = E

θ

I(θ) d θ

Se lg(L) è differenziabile almeno due volte vale inoltre la seguente uguaglianza:

2

d lg(L)

I(θ) = (3)

E 2

d θ

Nota.

1. Il Teorema ci dà un limite inferiore per la varianza.

2. I(θ) è anche chiamata ”informazione di Fisher”.

0 2

τ (θ)

3. Se var (T (X)) = , allora diciamo che T (X) è efficiente e se T (X) è efficiente, allora è

θ I(θ)

UMVU (però essere UMVU non implica essere efficienti).

Dimostrazione.

R

Si ha che L(X, θ) d x = 1, poiché L è una funzione di densità di probabilità , e quindi si ha

S d L

Z Z Z

d d d θ

0= L(X, θ) d x = L(X, θ) d x = L d x =

d θ d θ L

S S S

Z d

d (L(X, θ)) lg(L(X, θ)) d x = lg(L(X, θ))

E

θ

d θ d θ

S

Inoltre [T (X)] = τ (θ) (è quindi non distorto), e quindi

E

θ Z

τ (θ) = T (X)L(X, θ) d x

S

Z Z d

d d

0 θ) d x = T (X) θ) d x =

τ (θ) = τ (θ) = T (X)L(X, L(X,

d θ d θ d θ

S

S

Z d

T (X) log(L(X, θ)) L(X, θ) d x

d θ

S 12

0 − ·

A questo punto si calcola τ (θ) 0 τ (θ), si ha quindi:

Z d d

0 − −

τ (θ) = [T (X) τ (θ)] θ)) L(X, θ) d x = [T (X) τ (θ)] θ))

lg(L(X, lg(L(X,

E

θ

d θ d θ

S

Poiché

d lg(L(X, θ))

[T (X) τ (θ)] = =0 (4)

E E d θ

Si ha che all’ora

0 0 0

d d

2 − ≥ −

lg(L(X, lg(L(X,

τ (θ) = cov T (X) τ (θ), θ)) var (T (X) τ (θ)) var θ)) =

d θ d θ

i

h i h 2

2 d

− θ)) = var (T (X))I(θ)

(T (X) τ (θ)) lg(L(X,

E E τ

θ θ d θ

e si ha quindi la disuguaglianza.

Nota. (Informazione di Fisher)

La quantità " #

2

θ))

d lg (L(X,

I(θ) = E

θ d θ

con cui L varia al variare di θ nel punto X si ha che I(θ) =”media quadratica

dà la velocità relativa

di tale velocità”.

Se il valore I(θ) è ”grande”, allora le funzioni di densità sono ben distinguibili, anche se θ e θ

1 2

sono ben distinguibili (appunti: disegno); se invece I(θ) è piccolo, allora a pari valori di θ e θ

1 2

le due funzioni di densità sono più simili. 13

2 Distribuzioni Campionarie

Definizione 2.1. (Chi-quadro)

Sia X N (0, 1), allora 2 21

Y = X χ

La cui funzione di densità di probabilità è 1 x r

− −1

e x

f (x) = 2 2

2

χ r

r Γ 2

∼ ∼

Sia X χ , . . . , X χ indipendenti, allora

1 r r n

1 n X 2

Y = X χ

i P r i

Nota.

Non esiste una notazione univoca per la scrittura della Gamma e quindi della Chi-quadro, noi

r

2 2

∼ ∼

scriviamo χ Γ( , 2), poniamo quindi λ = 2, secondo altre notazioni si usa scrivere χ

r r

2

12 1

r , ), cioè si usa scrivere al posto di λ

Γ( 2 λ

Definizione 2.2. (t di Student)

2

∼ ∼ , indipendenti.

Sia X N (0, 1) e Y χ

r

Si ha che X ∼

T = t r

p Y /r

La cui funzione di densità di probabilità è

12

Γ (r + 1) 1

f (x) =

t 1

r (r+1)

πrΓ(r/2) 2

[1 + x /r] 2

Definizione 2.3. (F di Fisher)

2

2 ∼

∼ , allora

e Y χ

Sia X χ r

r 2

1 X/r 1 ∼

F = F

r ,r

1 2

Y /r 2

La cui funzione di densità di probabilità è

1 r /2 r /2−1

(r + r ) (r /r )

Γ x

1 1

1 2 1 2

2

f (x) =

F 1

r ,r Γ(r /2)Γ(r /2) (r +r )

1 2 [1 + (r /r )t] 1 2

1 2 2

1 2

Nota. 2

∼ ∼

Se X N (0, 1) e Y χ , allora

r 2

X /1

2 ∼

T = F 1,r

Y /r

14

3 Normale multivariata

Definizione 3.1. (Variabile normale multivariata) ∼

Sia X = (X , . . . , X ), con X variabili aleatorie . Diciamo che X N (µ, Cov) se

1 n i p

1

1 −1

− − −

exp

= (x µ) Cov (x µ)

F (x) T

X p 2

p

(2π) (det(Cov))

p p

∈ →

con x e quindi f : e

R R R, ( 6

cov(X , X ) se i = j

i j

µ = , . . . , X )], Cov =

E[(X

1 n var(X ) se i = j

i

Teorema 3.2.

∼ ×

Sia X N (µ, Cov) e C una matrice deterministica r p. Allora

p ∼

CX N (Cµ, C Cov C )

r T

Corollario 3.3. ∼

Se C = (0, 0, . . . , 0, 1, 0, . . . , 0), allora X N (µ , Cov(X ))

i i i

15

4 Verifica di ipotesi

Definizione 4.1. (Ipotesi Statistica)

Si tratta di una affermazione riguardante la distribuzione di probabilità di una o più variabili

aleatorie . Se l’ipotesi specifica in modo univoco la distribuzione, allora si parla di ipotesi con-

giunta, altrimenti di ipotesi composta. ∈

= θ , l’ipotesi è semplice, se invece si ha: H : θ A

Se si ha quindi ad esempio la ipotesi: H : θ 0

|A|

con > 1, allora l’ipotesi è composta.

Una ipotesi del tipo H : θ > θ oppure θ < θ si chiama ipotesi unilaterale, mente una ipotesi

0 0

6

del tipo: H : θ θ oppure H : θ = θ si chiama ipotesi bilaterale.

≶ 0 0

Definizione 4.2. (Criterio di verifica)

Si tratta di una regola che, dato un campionamento x = (x . . . x ) porta a decidere se rifiutare

1 n

o meno una ipotesi nulla di fronte ad una ipotesi alternativa; il criterio del test è il seguente:

n

∈ ⊆

C , allora rigetto H

1. se x R 0

n

∈ ⊆

2. se x / C , allora non rigetto (accetto) H

R 0

C è solitamente chiamata regione critica.

Nota. ∈ H,

Nel caso di un test su un parametro θ l’ipotesi nulla e l’ipotesi alternativa dividono lo spazio

H H H

dei parametri in (relativo all’ipotesi nulla) e (relativo all’ipotesi alternativa), cioè:

0 1

∈ H

H : θ

0 0

∈ H

H : θ

1 1

Definizione 4.3. (Errore)

È possibile commettere due tipi di errore durante il criterio di verifica essendo in un ambiente

aleatorio, cioè n ◦

∈ ⊆

C ma H è vera (errore del 1 tipo)

1. x R 0

n ◦

∈ ⊆

2. x / C ma H è falsa (errore del 2 tipo)

R 0

Nota.

Solitamente si sceglie di supporre che H sia vera, si vuole quindi ridurre al minimo la probabilità

0

◦ ◦

di commettere errori del 1 tipo in confronto a quelli del 2 tipo.

Esempio 4.4. (Azienda farmaceutica)

Una azienda farmaceutica decide si sperimentare un nuovo principio per un farmaco, che sembra

avere effetti migliori, ad esempio una velocità maggiore per l’aumento della pressione in confronto

al vecchio farmaco. 2

Si ha la var.al. X =”velocità media”∼ N (θ, σ ) con σ nota.

Si hanno le seguenti ipotesi: H : θ = θ

0 0

H : θ > θ

1 0

Vogliamo quindi sapere se il nuovo farmaco funziona come (ipotesi nulla) oppure meglio (ipotesi

alternativa) del vecchio farmaco. Partiamo dal presupposto che H sia vera, cioè che i due

0

farmaci funzioni ugualmente bene, vogliamo quindi evitare il più possibile errori del primo tipo,

cioè rigettare H mentre questa è vera; mettersi a produrre un nuovo farmaco pensando che sia

0 16

migliore, mentre in realtà non lo è. (Ovviamente ci preme anche di evitare di commettere l’errore

di rigettare H nel caso fosse vera, ma tra le due ipotesi la prima è più importante). Per verificare

1

quindi se il farmaco nuovo funziona meglio di quello vecchio possiamo definire la seguente regione

critica: prendiamo c = θ e definiamo

0

1 X

n

∈ | X > c

C = x R i

n

Usiamo quindi il valore medio come stimatore, e controlliamo quanto vale la probabilità di com-

mettere errori del primo tipo: 1

◦ n

|H ∈

1 tipo”) = H vera”) = (X C) = ( X̄ > θ ) =

P(”errore P(”rigetto P P

0 0 θ θ 0

0 0 2

poiché 2

σ

n ∼

X̄ N θ ,

0 n

2

essendo X , . . . , X N (θ , σ ) ma visto che si vuole diminuire la probabilità di commettere

1 n 0

questi errori dobbiamo scegliere un ◦ n

c θ tale che 1 tipo”) = (

X̄ > c) = α 1

P(”errore P

0 θ 0

Possiamo risolvere il problema nel seguente modo:

− c θ

X̄ θ 0

0

n √ √

> = c

α = ( X̄ > c) =

P P 1

θ θ

0 0 σ/ n σ/ n

Definiamo c come valore critico, e inoltre

1 −

X̄ θ 0

√ ∼ N (0, 1)

σ/ n −

Sia quindi Φ la distribuzione cumulativa della normale standard. Si ha α = 1 Φ (c )

1

N (0,1) N (0,1)

e di conseguenzaΦ (c ) = 1 α il cui valore può venir letto sulle tavole. Infine si ha

1

N (0,1) σ

c = θ + c

0 1 n

Definizione 4.5. (Funzione di potenza)

H →

Si tratta di una funzione κ : [0, 1] cosı̀ definita:

θX

∈ H → ∈ |θ)

θ κ(θ) = (C) = (X C) = H

P P P(”Rigetto

θ 0

∈ H

In particolare si ha che se θ , allora

0 ◦

κ(θ) = del 1 tipo”)

P(”Errore

∈ H |H

mentre se θ , allora κ(θ) = H vera”) cioè

P(”Rigetto

1 0 1 ◦

− |H

1 κ(θ) = H vera”) = del 2 tipo”)

P(”Accetto P(”Errore

0 1

Esempio 4.6. (Azienda farmaceutica)

Date le ipotesi H : θ = θ e H : θ > θ

0 0 1 0

Si ha allora 17 σ

−θ+c

θ √

0 1 −θ

θ

σ X̄−θ

n n

κ(θ) = X̄ > θ + c = > = N (0, 1) > + c =

0

√ √ √ √

P P P

θ 0 1 θ θ 1

n σ/ n σ/ n σ/ n

−θ

θ

1 φ + c

0 √ 1

N (0,1) σ/ n

∈ ∞) H

per θ (θ , =

0 1

Definizione 4.7. (Livello di significatività)

n

∈ H ⊆

Viene solitamente usato quando θ può assumere più valori, nei casi quindi in cui si ha

R

una ipotesi composta. Si pone (C) = sup κ(θ)

α = sup P

θ

θ∈H

0

Definizione 4.8. (Test di livello α) c

∈ H ∈ H H

Un test per verificare H : θ contro H : θ = basato su un campione X . . . X .

0 0 1 1 1 n

0

n → {0,

Si tratta di una funzione Φ : 1} tale che

R ( n

∈ ⊆

1 seX C R

=

Φ(X) ∈

0 seX / C

con sup (X C) = α

P

θ

θ∈H 0

Definizione 4.9. (Test uniformemente più potente - UMP)

∈ H

Un test di livello α per θ fra tutti i test di livello α è detto UMP (Uniformly More Powerful)

1

se 1. sup(κ (θ )) = α

Φ 0

0

∀ ≥ ∈ H

2. Φ test che soddisfa 1. si ha κ (θ ) κ (θ )∀θ

0

Φ 1 Φ 1 1 1

H

Se è costituita da un solo elemento il test si dice più potente - MP (More Powerful)

1

La regione critica C si dice essere la migliore regione critica se associata a un test κ UMP.

Φ

18

4.1 Test per ipotesi semplici

Teorema 4.10. (Lemma di Neyman-Pearson)

∈ H ∈ H {θ }

∼ θ), θ e siano le ipotesi H : θ = e

Siano X . . . X variabili aleatorie L(X, 0 0 0

1 n

∈ H {θ }

H : θ = a livello α.

1 1 1

+ n

∃ ∈ ∃ ⊆

Se k e C t.c.

R R

1. (X C) = α

P θ

0 L(θ ,X)

∈ ≤

∀X 0

C, k

2. L(θ ,X)

1

L(θ ,X)

c

∀X ∈ 0

3. C , >k

L(θ ,X)

1

allora C è la miglior regione critica a livello α.

Dimostrazione. (caso continuo, il caso discreto è analogo)

Sia A un’altra regione critica t.c. (X A) = α, voglio dimostrare che κ(θ ) è massimo, cioè

P

θ 1

∈ ≥ ∈

C) (X A)

(X P

P θ

θ 1

1 R R

Per abbreviare le notazioni poniamo (X I) = L(θ, X) d x = L(θ)

P

θ I I

∈ ∈

Si ha che (X C) = A) = α

(X

P P

θ θ

0 0 c

∩ ∪ ∩

C = (C A) (C A )

c

∩ ∪ ∩

A = (A C) (A C )

Possiamo quindi scrivere

R R R

L(θ ) = L(θ ) + L(θ )

1 1 2

c

C C∩A C∩A

R R R L(θ )

- L(θ ) = L(θ ) + 2

1 1 c

A A∩C A∩C

R R R R

− −

θ = L(θ ) L(θ ) = L(θ )

1 1 1 1

c c

C A C∩A A∩C L(θ )

1

R R

E vogliamo dimostrare che L(θ ) L(θ ) > 0

1 1

C A

1 1

c

∈ ⇒ ≥ ∈ ⇒ ≤

C L(θ ) L(θ ), mentre invece se X C L(θ ) L(θ )

Si ha che se X 1 0 1 0

K K

1 R

R

R R

⇒ −

L(θ ) L(θ ) L(θ )

1 0 0

c c

c

c K

A∩C

C∩A C∩A A∩C

Z Z Z Z

1 − − −

= L(θ ) + L(θ ) L(θ ) L(θ ) = α α = 0

0 0 0 0

K c c

C∩A C∩A A∩C C∩A

| {z } | {z }

R R

= L(θ )=P = L(θ )=P

(X∈C) (X∈A)

0 0

θ θ

0 0

C A

∈ − ∈ ≥

da cui segue che (X C) (X A) 0

P P

θ θ

1 1

Esempio 4.11.

∼ ∈

Sia X N (θ, 1), vogliamo verificare le ipotesi H : θ = θ contro H : θ = θ con θ > θ

0 0 1 1 1 0

utilizzando un campione indipendenti, identicamente distribuite X = (X . . . X ). Essendo

R 1 n

entrambe le ipotesi semplici possiamo usare il Lemma di Neyman-Pearson.

Poniamo 1 12 1

n/2 2 2

P P

− − − −

( ) (x θ ) (x θ )

exp exp

L(θ , X) j 0 j 0

0 2π 2

R(X, =

θ , θ ) = =

0 1 1 12 12

P P

n/2 2 2

− − − −

L(θ , X) ( ) exp (x θ ) exp (x θ )

1 j 1 j 1

2π n

{x ∈ |R(X, ≤

Consideriamo la seguente regione critica: C = θ , θ ) k} imponendo k in modo

R 0 1

che P (X C) = α.

θ

Per il lemma di Neyman-Pearson questa è la miglior regione critica. In particolare si ha che se

≤ ≤

R K, allora lg(R) lg(k) e quindi

P

2 2

− − − ≤

(x θ ) (x θ ) 2 lg(k)

i 1 1 0 2 lg(k)

n 2 2

− ≤

2 (θ θ ) X̄ + (θ + θ )

0 1 0 1 n

{z }

| <0 2 2

2 lg(k)−(θ +θ )

n ≥

X̄ = a

0 1

−θ

2n(θ )

0 1 19

n 1 P ≤ ∈

{x ∈ | x a} con (X C) = α

Ma allora C = P

R j θ

n 0

cioè √

a θ 0

≤ ≤ ≤ −

(X a) = (N (θ , 1/ n) a) = N (0, 1) = 1 Φ (c)

P P P

θ θ 0 θ N (0,1)

0 0 0 1/ n

| {z }

=c

Nota.

1. Se si ha θ > θ e non θ < θ, allora si giunge alla conclusione che

0 0

1

n (n) √

∈ | ≤

C = x X̄ θ + c

R 0 α n

2. La regione critica C non dipende da θ

1

Nota. P T (X ) è una statistica sufficiente per θ

Se X proviene dalla famiglia esponenziale, allora T = i

e la condizione ·

L(X, θ ) < k L(X, θ ) (5)

0 1

è equivalente alla condizione (nel caso si abbia C(θ ) < C(θ )) T > c, oppure alla condizione (nel

0 1

+

caso si abbia C(θ ) > C(θ )) T < c con c .

R

0 1 20

4.2 Test per ipotesi composte

Nota. (Ipotesi semplici)

Nel caso di ipotesi semplici la regione critica C non dipende da θ , e questo permette di trovare

1

un test UMP nel caso di ipotesi semplici contro composte.

Siano ad esempio X , . . . , X N (θ, 1) e siano le ipotesi H : θ = θ (semplice) contro H : θ > θ

1 n 0 0 1 0

(composta).

Possiamo allora scegliere θ > θ e verificare H : θ = θ (semplice) contro H : θ = θ (semplice).

1 0 0 0 1 1

Si ha che allora per il teorema di Neyman-Pearson la regione

1

n (n) √

∈ | ≤

X̄ θ + c

C = x R 0 α n ∀θ

è la migliore regione critica indipendente da θ , essa non cambia quindi > θ , quindi C è la

1 1 0

miglior regione critica per H ; il test è quindi UMP.

1

Per ipotesi composte e bilaterali non è però possibile arrivare alla stessa conclusione; dato

∼ 6

X . . . X N (θ, 1) e siano le ipotesi H : θ = θ contro H : θ = θ , allora, come prima, è

1 n 0 0 1 0

∈ H θ , θ ) e si ottiene la disequazione

possibile scegliere θ , quando però si valuta R(X, 0 1

1 1 lg(k)

1

¯ 2 2

(n)

− − −

(θ θ (θ θ )

)

X

1 2 1 0

2 n

| {z }

6 =0

Possono avvenire 2 casi distinti, si ha che quindi la regione critica C non è più indipendente da

θ è quindi non è UMP.

1 (n) −

È possibile porre dei criteri di scelta, si può ad esempio rigettare H se: X̄ θ < a oppure se

0 0

(n) −

X̄ θ > b. La regione critica è quindi

0 n o

n (n) (n)

∈ | − −

C = x X̄ θ < a oppure X̄ θ > b

R 0 0

con (X C) = α.

P

θ 0 1

(n) ∼ ) e quindi

Si ha che X̄ N (θ,

H n

0

(n) (n)

− −

X̄ θ < a oppure X̄ θ > b

α = P 0 0

quantità equivalente a (n) (n)

− −

X̄ θ a X̄ θ b

0 0

√ √ √ √

< = a oppure > = b

P 1 1

1/ n 1/ n 1/ n 1/ n ∈ C), scegliamo

Per massimizzare la regione critica C e quindi la funzione potenza κ(θ) = (X

P

θ α

−a −

a , b simmetrici rispetto all’origine, cioè = b = c tale che Φ (c) = 1 e quindi

1 1 1 1 N (0,1) 2

−1 α

c = Φ (1 ).

α

1− N (0,1) 2

2

E quindi la regione critica diventa

1 1 1

(n)

√ √ √

∈ | − ∨ ∈ | | |

C = X X̄ < θ c X̄ > θ + c = X X̄ > θ + c

α α α

R R

n 0 1− 0 1− n 0 1−

n n n

2 2 2

Definizione 4.12. (MLR -Monotone Likelihood Ratio)

{L(·, ∈ ⊆

Data θ), θ Θ famiglia di funzioni di verosimiglianza, allora diciamo che essa gode

R}

della proprietà MLR, in V se 21

n

• ∈

L’insieme degli X tale che L(X, θ) > 0 è indipendente da θ.

R

n 0 0

• ∃ → 6 ∀θ 6

Se V : misurabile, tale che L(X, θ) = L(X, θ ) = θ .

R R 0 )

L(X,θ

0

• ∀θ ∈

> θ Θ si ha funzione crescente di V (X).

L(X,θ)

Proposizione 4.13.

La famiglia esponenziale Q(θ)T (X)

f (X, θ) = C(θ)e h(X)

∈ ⊆

con C(θ) > 0 per ogni θ Θ e h(X) > 0 su un insieme S indipendente da θ. Se si suppone

R {L(·, ∈

che Q(θ) sia crescente, si ha che la famiglia delle funzioni di verosimiglianza θ), θ Θ} del

P

= T (X ) statistica sufficiente e completa.

campione ha la proprietà MLR in V con V (X) j

Nota. −V

Se Q è invece decrescente, allora essa gode della proprietà MLR in (X)

Dimostrazione.

Si ha, per l’indipendenza n Q(θ)V (X)

L(X, θ) = [C(θ)] e h(X ) . . . h(X )

1 n

0

Supponiamo θ < θ , si ha 0 n

0 0 0

n Q(θ )V (X)

L(X, θ ) [C(θ )] e C(θ ) 0

V (X)[Q(θ )−Q(θ)]

λ = = = e

n Q(θ)V (X)

L(X, θ) C(θ)

[C(θ)] e

0 − ≥ ⇒

Se Q è decrescente si ha Q(θ ) Q(θ) 0 λ è monotona crescente in V (X); se invece Q è

−V

monotona decrescente si ha che λ è decrescente in V (X) e quindi crescente in (X).

Teorema 4.14.

Siano X , . . . , X variabili aleatorie (non per forza indipendenti, identicamente distribuite ) con

1 n ∈ ⊆ {L(X, ∈

θ), θ Θ supponendo che θ), θ Θ} gode della

funzione di verosimiglianza L(X, R,

proprietà MLR in V . ≤

Si suppone di voler verificare H : θ θ contro H : θ > θ a livello α.

0 0 1 0

{L(·,

Allora se θ)} gode di MLR in V (X), allora il test UMP è

(

1 se V (X) > c

Φ(X) = 0 altrimenti

con c tale che sup (V (X) > c|H ) = α

P

θ 0

θ<θ

0

Esempio 4.15. 2

Siano X , . . . , X N (θ, σ ) e si suppone di voler verificare H : θ = θ contro H : θ > θ .

1 n 0 0 1 0

Applicando il Lemma di Neyman-Pearson si ottiene )

( r 2

σ n o

n n

(n) (n)

∈ | ∈ |

C = X X̄ > θ + c = X X̄ > c

R R

0 1−α 1

n −

Φ (c ) = 1 α

1−α

N (0,1) ◦

Ci chiediamo quale sia la probabilità di commettere errori del 2 tipo:

◦ ∈

− C) = . . .

del 2 tipo) = 1 (X

P(errori P

θ 1

22

4.2.1 Rapporto di verosimiglianza

Il metodo del rapporto di verosimiglianza, altrimenti chiamato LR (Likelihood Ratio) test, viene

suggerito dagli stimatori di massima verosimiglianza. Se le ipotesi fossero semplici, questo criterio

coinciderebbe con il Lemma di Neyman-Pearson.

Definizione 4.16. (Stimatore di massima verosimiglianza)

M L

Una statistica Θ si dice stimatore di massima verosimiglianza (altrimenti chiamato stimatore

n

M L) del parametro θ nello spazio dei parametri, tale che

M L

Θ = arg max [L(θ, X)]

n θ

Ipotesi composta contro ipotesi composta

∈ H ∈ H

Date le ipotesi H : θ contro H : θ possiamo pensare di usare un criterio simile a

0 0 1 1

quello proposto da Neyman-Pearson, cioè si rigetta H se

0

max L(θ, X)

θ∈H 0 ≤

λ = k

max L(θ, X)

θ∈H 1 H

La difficoltà di questo metodo sta nel determinare il max in usiamo quindi normalmente il

1

seguente criterio.

Definizione 4.17. (Criterio del rapporto di massima verosimiglianza)

Sia max L(θ, X)

θ∈H 0 ≤

λ = 1

max L(θ, X)

θ∈H

Si ha che se H è falsa, allora λ 1, se invece H è falsa si ha λ 1.

1 0

Il test, analogamente a prima consiste nel rigettare H se λ < λ , con λ tale che

0 0 0

(λ < λ ) = α

sup P

θ 0

θ∈H

0

Nota.

Il metodo standard per ricercare il max è quello di considerare le derivate ed eguagliarle a 0 per

trovare gli stimatori.

Teorema 4.18.

Sotto l’ipotesi H vale il seguente limite:

0 d 2

−−−−→

2 lg(λ(X , . . . , X )) χ

1 n k

n→∞

con k = dim(H) dim(H ) intesa come differenza di dimensioni di spazi vettoriali.

0

Nota. 20 non è definita e il teorema non è applicabile.

Se k = 0 allora χ

Esempio 4.19. Verifica di ipotesi sulla media di una normale ∼

Dati X , . . . , X variabili aleatorie indipendenti, identicamente distribuite N (θ , θ ) con θ , θ

1 n 1 2 1 2

+

H ×

incogniti e sia = R R 6

Abbiamo H : θ = 0, θ > 0 contro H : θ = 0, θ > 0 e

0 1 2 1 1 2

max L(θ, X) max L(H )

θ∈H 0

0

λ = = def

max L(θ, X) max L(H)

θ∈H 23

Si ha n/2 n/2

1 1

2 2

1 1

P P

−θ

− −

(X ) (X )

i 1 i

L(H) = e e

e L(H ) =

2θ 2θ

2 2

0

2πθ 2πθ

2 2

Per ottenere il max è possibile massimizzare entrambi i valori eguagliando a zero le derivate, i

risultati che si ottengono sono i seguenti: (

( 1 P X θ̂ = 0

θ̄ = j 1

1 n H

H e :

: 0

1 1

2 2

P P

θ̄ = (X X̄ ) θ̂ = (X )

2 j n 2 j

n n

Allora si ha n/2 n/2

−1

−1

ne

ne e max L(H ) =

max L(H) = 0 2

P

P 2

− 2π X

2π (X X̄)

i i

quindi n/2

2

P

(X X̄)

i

λ = P X

i

Rigettiamo quindi H se λ < λ con sup < λ ) = α.

P(λ

0 0 0

2/n

2/n

Definiamo λ̄ = λ < λ = λ̄ , si ha allora sup λ̄ < λ̄ ) = α

P(

0 0

0

Nota. (1) 2

P − var

(X X̄) (X)

H

i 1

=

2

P X var (X)

H

i 0

Nota. (2)

Si ha X X

2 2 2

(X ) = (X X) + nX̄

j j

cioè 2

P −

(X X̄) 1

i

λ̄ = = < λ

1

P 2

2 2

− nX̄

(X X̄) + nX̄ 1+

i P 2

(X X̄)

i

−1 −

se definiamo quindi λ = λ 1 si ha

2 1 2

nX̄

{x ∈ |λ } ∈ > λ

C = < λ = x

R R

1 2

P 2

(X X̄)

i

2

θ X̄

21

∼ ∼

Si ha inoltre X̄ N 0, , cioè χ

2

n θ/n

2

P −

(X X̄) 2

j ∼ χ e poiché queste due quantità sono indipendenti, si ha

E si ha anche che n−1

θ 2 21 2

χ nX̄ ∼

= F 1,n−1

2 P 2

− −

χ (X X̄) (n 1)

j

n−1

È possibile definire quindi l’intervallo nel seguente modo:

2

(n 1)nX̄

∈ −

C = x > λ = λ (n 1)

R 3 2

P 2

(X X̄)

i X̄ ∼

si richiede quindi > λ ) = α, oppure in modo analogo si usa T = t

P(F

1,n−1 3 n−1

r P (Xi− )

(n−1)n

24

4.3 Legame intervalli di fiducia e verifica ipotesi

Legame tra gli intervalli di fiducia e la verifica di ipotesi

2

∼ 6

Sia X , . . . , X N (µ, σ ) con σ noto; date le ipotesi H : µ = µ e H : µ = µ ipotizziamo H

1 n 0 0 1 0 0

vera. Si ha 2

σ

X̄ N µ ,

H 0

0 n

e c

⇔ −

(C) = α (C ) = 1 α

P P

µ µ

0 0

E quindi si ha !

r r

2 2

σ σ

(n)

− − ≤ ≤

1 α = µ c X̄ µ + c

P 0 0

n n

Se vogliamo invece trovare un intervallo di fiducia I = [L , L ] a livello α per µ , possiamo

1 2 0

2

σ

(n) ∈ −

∼ ) come stimatore, quindi I) = 1 α

usare X̄ N (µ, P(µ

n

Possiamo calcolare (n) (n) (n)

− − −

X̄ L X̄ µ X̄ L

2 1

√ √ √

≤ ≤ ≤ ≤

= N (0, 1) c)

P P(−c

σ/ n σ/ n σ/ n

| | |

{z } {z } {z }

=−c =+c

∼N (0,1)

Sappiamo che per avere il test di livello α si ha

σ σ

√ √

− ≤ ≤ −

X̄ c µ X̄ + c =1 α

P n n n

e abbiamo quindi definito l’intervallo I.

A questo punto possiamo definire un test nel seguente modo: −

Rigetto H contro H se I è un intervallo di fiducia per µ a livello 1 α basato su µ̂ stimato-

0 1 ∈

re. Allora si ha che il test che usa rigetto H se µ / I è un test di livello α (ma non per forza MP).

0 0

25

4.4 Confronto parametri di distribuzioni normali

Confronto della varianza

Si vedrà in seguito, che a seconda che la varianza sia uguale o meno, per confrontare la media di

due normali conviene utilizzare due tipi di test differenti. Prima di paragonare quindi le media

è necessario condurre un test per decidere se le varianze sono uguali o meno per poi determinare

il test da usare. 2 2

∼ ∼

Supponiamo quindi di avere X , . . . , X N (µ , σ ) e Y , . . . , Y N (µ , σ ).

1 n 1 1 n 2

1 1

1 2 6

Le ipotesi che vogliamo verificare sono le seguenti: H : σ = σ contro H : σ = σ

0 1 2 1 1 2

A seconda del fatto che si rigetti o accetti H si è portati a scegliere un test più adatto per

0

confrontare µ a µ .

1 2

Per il test si usa la varianza campionaria come stimatore:

P P

− −

(X X̄) S (Y Ȳ )

S i Y Y i

XX 2 2

∼ ∼

= χ e = χ

−1 −1

n n

2 2 2 2

σ σ σ σ

1 2

1 1 2 2

e queste due quantità sono indipendenti.

Sotto le ipotesi di H si ha

0 S

XX

2 −1)

σ (n 1

F ∼

1

= F −1,n −1

n

S 1 2

Y Y

2 −1)

σ (n 2

2 2

σ 2

2 2 = 1, per σ > 0) Si

Cosı̀ facendo non si considera l’ipotesi σ = σ , ma quella equivalente in 2

1 2 2

σ 1

F F

rigetta H se < c o se > c , e come sempre cerchiamo di trovare l’intervallo [c , c ] il più

0 1 2 1 2

piccolo possibile che soddisfi le condizioni, ma non essendo la F di Fisher una distribuzione non

simmetrica non è banale la scelta dei parametri (anche se esistono delle tavole che permettono di

semplificare il lavoro). σ σ

Possiamo quindi operare nel seguente modo: testiamo H : = 1 contro H : > 1 (oppure

1 1

0 1

σ σ

2 2

σ < 1, prima di fare questo test possiamo fare qualche test per vedere cosa aspettarci) e quindi

1

σ 2 F

rigettiamo H se > c con > c|H ) = α.

P(F

0 0

Nota.

Gli stessi risultati ottenuti per il paragone della varianza si possono ottenere in modo formale

utilizzando il metodo di massima verosimiglianza. S S

2 2

→ →

Inoltre il test è applicabile anche se X, Y N , infatti si ha che χ e χ

XX Y Y

−1 −1

n n

2 2

σ σ

1 2

1 2

→ ∞

per n per il teorema di asintoticità (già con n > 50 si ottengono numericamente risultati

1,2

molto buoni), come anche il test per paragonare due distribuzioni con uguale varianza, infatti

→ → ∞

t N (0, 1) per n, m (nuovamente per valori superiori a 50 si hanno buoni risultati.)

n+m−2

Confronto della media a pari varianza

Supponiamo di voler confrontare la media della altezza degli italiani contro quella dei francesi.

Abbiamo quindi due campioni che supponiamo essere come quelli di una normale: X , . . . , X

1 m

2 2

N (µ , σ ) e Y , . . . , Y N (µ , σ ).

1 1 n 2 6

Le ipotesi che vogliamo verificare sono le seguenti: H : µ = µ contro H : µ = µ , si ha quindi

0 1 2 1 1 2

2 +

∈ H H ∪ H ×

= (µ , µ , σ) = =

θ R R

1 2 0 1

H H

e , sono insiemi che contengono più di un elemento, quindi le ipotesi sono composte.

1 2

È possibile applicare il metodo della massima verosimiglianza:

26

n+m

 i

h m n

1 1

2 2

P P

− −

H −

2 ( (X µ ) + (Y µ ) )

: L (X, Y , θ) = exp

H i 1 j 1

0

 2 2 i=1 j=1

2πσ 2σ

0 n+m i

h m n

1 1

2 2

P P

H − −

2

: L (X, ( (X µ ) + (Y µ ) )

Y , θ) = exp

 H i 1 j 2

2 2 i=1 j=1

2πσ 2σ

Per ottenere gli argomenti per massimizzare le funzioni di verosimiglianza si tenta di annullare

le derivate: m

 1 P X = X̄

µ̄ = i

1 i

m

 ni

1 P

H : µ̄ = Y = Ȳ

2 i

n n

1

2 2

P P

− −

(X X̄) + (Y Ȳ )

σ̄ =

 i i

i

n+m

e ( m n

1 P P

µ̂ = µ̂ = ( X + Y )

1 2 i i

i i

m+n

H :

0 n

1

2 2

P P

− −

(X µ ) + (Y µ )

σ̂ = i 1 i 2

i

n+m

E quindi si ha n+m

max L σ̄

2

H

θ∈H 0 0 ···

λ = = =

sup L σ̂

H

θ∈H

Definiamo quindi la regione critica n+m

∈ |λ(X, ≤

C = (X, Y ) Y ) λ

R 0

Y ) C|H ) = α. Dobbiamo quindi scegliere λ .

con sup P((X, 0 0

θ∈H 0

Si ha che 2

2 n+m

≤ ⇔ λ

λ λ λ̄ = λ = λ̄

n+m

0 0

0

Quindi 2 2

P P

− −

(X X̄) + (Y Ȳ )

i i

n+m ≤

∈ |R λ̄

C = (X, Y ) =

R 0

P P

2 2

− −

(X µ̂ ) + (Y µ̂ )

i 1 j 2

2 2

∼ ∼

Se si suppone H vera, allora X̄ N (µ , σ /m), Ȳ N (µ , σ /n) e quindi

0 1 2 2

1 1 (

X̄ Ȳ )

2 2

− ∼ → ∼

X̄ Ȳ N 0, σ / + χ 1

2

n m 1

1

2 +

σ n m

Si può dimostrare che 2 2

P P

− −

S (X X̄) S (Y Ȳ )

XX i Y Y i

2 2

∼ ∼

= χ e = χ

m−1 n−1

2 2 2 2

σ σ σ σ

e notiamo che queste due quantità sono indipendenti.

Si ha quindi 2

S + S (

X̄ + Ȳ )

XX Y Y m n

2 21

∼ ∼

χ indipendente da χ

n+m−2

2 2

σ σ

Da cui segue 2

(

X̄ Ȳ )

m n

1 1

2

σ ( + )

F ∼

n m

= F

H 1,n+m−2

S +S 0

XX Y Y

2

σ (n+m+2)

Visto che m

2

X X X

2 2 2

− − − − − −

(X µ̂ ) = (X X̄) (

X̄ µ̂ ) = (X X̄) + m(

X̄ µ̂ )

i 1 i 1 i 1

i

27

e in modo analogo n

2

X X X

2 2 2

− − −

− − −

(Y Ȳ ) (

Ȳ µ̂ ) =

(Y µ̂ ) = (Y Ȳ ) + n( Ȳ µ̂ )

i 2

i 2 i 2

i

allora 2 2

P P

− − 1

(X X̄) + (Y Ȳ )

i j ≤

=

R = λ̄ 0

nm nm

P P

2 2 2

− − − (

X̄− Ȳ )

(X X̄) + (Y Ȳ ) + ( X̄ Ȳ ) n+m

i j 1+

n+m P P

− −

(X X̄)+ (Y Ȳ )

i j

è equivalente a chiedere nm 2

(

X̄ Ȳ ) 1

n+m ≥ − 1 = λ̄ 1

P P

2 2

− −

(X X̄) + (Y Ȳ ) λ̄

i j 0

cioè nm 2

( X̄ Ȳ )

n+m ≥ −

λ̄ (n + m 2) = λ̄

1 2

S +S

XX Y Y

n+m−2

E quindi infine la regione critica è {(X, ≥ }

C = Y )|F (X, Y ) λ̄ 2

con Y ) C|H ) = α

P((X, 0

Si può altrimenti notare che √

(

X̄ Ȳ ) ∼

T = = F t n+m−2

q

q S +S 1

1 +

XX Y Y

n+m−2 n m

e quindi p

{(X, kT ≥ }

C = Y ) tali che (X, Y )k λ̄ 2

Nota.

In questo esempio, per confrontare le medie, ci ritroviamo a considerare il rapporto tra le varianze.

Oltre ad aver ottenuto questo rapporto facendo i conti, il test non è insensato. La varianza dice

infatti quanto sono sparsi i campioni dalla media. σ̄ dice quanto sono sparsi tutti i campioni

messi insieme, mentre σ̂ dice quanto sono sparsi quelli di una sola distribuzione. Più sono quindi

vicini i dati delle due distribuzioni, più si assomiglieranno le varianze.

Confronto della media con varianze distinte

Nell’esempio di prima abbiamo supposto che le varianze fossero uguali, ma non è sempre possibile

farlo, occorre un criterio per confrontare distribuzioni con varianze distinte.

2 2

∼ ∼

Supponiamo quindi di avere X , . . . , X N (µ , σ ) e Y , . . . , Y N (µ , σ ).

1 n 1 1 n 2

1 1

1 2 6

Le ipotesi che vogliamo verificare sono le seguenti: H : µ = µ contro H : µ = µ

0 1 2 1 1 2

Usando il rapporto di verosimiglianza, in modo analogo a prima, si ottiene

X̄ Ȳ ∼

T = t

H r

0

p

SS /n + SS /n

X 1 Y 2

con 28

1 P −

(X X̄)

1. SS = i

X −1

n 1

1 P −

2. SS = (Y Ȳ )

Y j

−1

n

2

SS /n + SS /N

X 1 Y 2

3. r =

SS SS

1 1

+

X Y

−1 −1

n n n n

1 1 2 2

Nota. ∈

In generale r non sarà un numero naturale; la t di Student è definita per qualsiasi nu-

R

mero reale, sebbene esistono soltanto le tavole per i numeri naturali. Per fornire quindi una

approssimazione è necessario, se si vuole usare le tavole arrotondare il valore di r. Per r > 20

l’approssimazione si considera generalmente buona.

29

4.5 Analisi ad uno e più fattori

Analisi ad un fattore, confronto tra più distribuzioni

Nel caso si dovessero confrontare più distribuzioni uguali (consideriamone b), è possibile utilizzare

il seguente metodo.

2

Sia X N (µ , σ ), j = 1, . . . , b un campione indipendenti, identicamente distribuite e suppo-

i,j j ∀i, ∃µ 6

niamo di voler testare H : µ = µ j = 1, . . . , b contro H : , µ tali che µ = µ .

0 i j 1 j i j i

2

H H ∪ H H {(µ ∈ H|µ · · · },

Si ha quindi = con = . . . µ , σ ) = µ = = µ e le funzioni di

0 1 0 1 b 1 2 b

massima verosimiglianza sono ab

 i

h a

b

1 1

2

2 P

P −

H 2 (X µ)

σ ) = exp (

: L (X , µ,

H i,j

0 i,j

 2 2 i=1

j=i

2πσ 2σ

0 ab i

h b a

1 1

2

2 P P

H −

2

: L (X , µ, ( (X µ )

σ ) = exp

H

 i,j i,j j

2 2 j=i i=1

2πσ 2σ

dove a è la dimensione del campione di ogni normale.

Cerchiamo di massimizzare le funzioni di verosimiglianza derivando ed uguagliando a zero:

P

( (

a 1

1 P

P X = X̄

µ̂ =

µ̄ = X = X̄ , j = 1, . . . , b ·,·

·,j i,j

j i,j i j

i ab

a

H H

: e :

0

a b

1

2 2

P P − 1

σ̄ = (X X̄ ) 2

P P −

(X X̄

σ̂ =

·,j

i,j

i j i,j

ab ·,·

i n

ab

E quindi si ha ab

2

max L σ̄ 2

H

θ∈H 0 0 ···

λ = = = 2

max L σ̂

H

θ∈H

e rigettiamo H se

0 2

2 ≤ λ = λ̄

λ̄ = λ ab

ab 0

0

cioè P P −

(X X̄ ) Q

·,j

i,j 2

i j

λ̄ = =

P P − Q

(X X̄ )

·,· 1

i,j

i j

Q , Q non sono indipendenti, scriviamo quindi:

1 2 X X X X X

2

− − − −

Q = (X X̄ X̄ + X̄ ) = (X X̄ ) + a (X X̄ )

·,· ·,j ·,j ·,j ·,·

1 i,j i,j i,j

i j i j j

cioè Q = Q + Q . La prima quantità è relativa allo scarto all’interno dei gruppi, mentre Q

1 2 3 1

conta lo scarto fra i gruppi.

Si dimostra, che sotto H si ha che le quantità

0 Q Q

2 3

2 2(b−1)

∼ ∼

χ e χ

b(a−1)

2 2

σ σ

sono indipendenti, e quindi

Q Q

Q 1 1

2 2 3

≤ ⇔ −

λ̄ = λ̄ 1 = λ̄

= = 0 1

Q

Q Q + Q Q λ̄

1 + 3

1 2 3 2 0

Q

2

e quindi − −

Q /(b 1) b(a 1)

3 > λ̄ = λ̄

1 2

− −

Q /(b(a 1)) b 1

2

Possiamo infine definire la regione critica

{X |F(X }

C = ) > λ̄

ab i,j 2

i,j∈R

∈ F ∼

con C|H ) = α e F

P(X

i,j 0 b−1,b(a−1) 30


PAGINE

60

PESO

478.55 KB

AUTORE

Ely90h

PUBBLICATO

+1 anno fa


DESCRIZIONE APPUNTO

Appunti di Probabilità e Statistica Matematica 2 per l'esame del professor Apolloni all'università degli studi a Milano, per completezza i contenuti sono stati in parte integrati con il libro "A Course in Mathematical Statistics" di George Roussas. I contenuti del corso sono variabili aleatorie, distribuzioni campionarie, diversi test per la verifica di ipotesi, modello di regressione lineare, bande di fiducia ed infine test non parametrici.


DETTAGLI
Corso di laurea: Corso di laurea in matematica
SSD:
Università: Milano - Unimi
A.A.: 2012-2013

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher Ely90h di informazioni apprese con la frequenza delle lezioni di Calcolo delle probabilità e Statistica Matematica 2 e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Milano - Unimi o del prof Apolloni Bruno.

Acquista con carta o conto PayPal

Scarica il file tutte le volte che vuoi

Paga con un conto PayPal per usufruire della garanzia Soddisfatto o rimborsato

Recensioni
Ti è piaciuto questo appunto? Valutalo!

Altri appunti di Calcolo delle probabilità e statistica matematica 2

Calcolo delle probabilità e statistica II
Appunto
Dispensa di Matematica - Successioni
Dispensa
Dispensa di Matematica - Analisi matematica 2
Dispensa
Dispensa di Matematica - Analisi matematica 2
Dispensa