Che materia stai cercando?

Anteprima

ESTRATTO DOCUMENTO

3.2. TEORIA DELLA STIMA 53

Il metodo più usuale per identificare stime consistenti consiste nell’utiliz-

zare la legge dei grandi numeri, come si può verificare facilmente nell’esempio

seguente:

Esempio 3.2.5. In un campione infinito di leggi di Poisson di parametro

X +···+X

∞), X = è una

θ , (0 < θ < la successione delle medie empiriche n

1

n n

stima consistente di θ.

Diamo un’altra definizione:

Definizione 3.2.6 (Stima di massima verosimiglianza). Sia assegnato

θ

F, ∈ ⊂

un modello statistico Ω, (P , θ Θ) tale che Θ IR : si dice che U è

una stima di massima verosimiglianza se, per ogni ω Ω, si ha

L U (ω), ω = sup L θ, ω

θ∈Θ

Di conseguenza il “sup” sopra scritto è in realtà un massimo. In verità

non è necessario che l’eguaglianza sopra scritta sia verificata esattamente per

ogni ω Ω , ma è sufficiente che sia soddisfatta al di fuori di un insieme

trascurabile (si usa dire “per quasi ogni ω Ω ”).

Usualmente la stima di massima verosimiglianza, se esiste, viene indicata

θ(ω). Le stime di massima verosimiglianza sono facili da trovare, inoltre

b

questo fornisce un criterio costruttivo per trovare una stima; viceversa è più

difficile spiegare se e in quale senso una tale stima è una buona stima.

In un caso particolare si ha però il risultato seguente, che viene enunciato

limitatamente al caso di variabili aleatorie a valori interi positivi.

θ ∈

Teorema 3.2.7. Sia m , θ Θ una famiglia di leggi di probabilità con-

centrate sugli interi positivi, e supponiamo che Θ sia un intervallo di IR e

θ

che, ponendo p(θ, k) = m ({k}), questa si possa scrivere nella forma

p(θ, k) = c(θ) exp θ T (k) g(k)

dove T : IN IR. Consideriamo un campione infinito X , X , . . . di legge

1 2

θ

m e supponiamo che esista, per ogni n, la stima di massima verosimiglianza

θ relativa al campione di taglia n: allora la successione di stime θ è

n n

b b n≥1

consistente.

I modelli nei quali la funzione di probabilità ha la forma data dal Teo-

rema 3.2.7 sono detti modelli esponenziali e verranno ripresi nel successivo

Capitolo 5. A volte (come si vedrà anche negli esempi successivi) anziché l’e-

spressione exp θ T (k) compare un’espressione della forma exp d(θ) T (k)

54 CAPITOLO 3. STATISTICA SU UNO SPAZIO NUMERABILE

dove l’applicazione θ d(θ) è iniettiva: è sufficiente naturalmente consi-

derare come nuovo parametro θ̃ = d(θ) per riportarsi alla situazione sopra

enunciata.

Non riportiamo la dimostrazione del Teorema 3.2.7 , che è del tutto simile

a quella dell’analogo risultato per modelli con densità che verrà esposta più

avanti (per essere più precisi, entrambe le dimostrazioni sono riduzioni a casi

particolari di un risultato più generale che in questo primo corso non abbiamo

gli strumenti per dimostrare).

Limitiamoci ad osservare che la condizione del Teorema 3.2.7 è sod-

disfatta in molti esempi: nel caso delle leggi di Poisson si ha ad esempio

−θ −1 −θ −1

k

p(θ, k) = e θ (k!) = e exp k log(θ) (k!) (è sufficiente considerare

come parametro log(θ) anzichè θ).

− −

Nel caso delle leggi geometriche si ha p(θ, k) = θ exp (k 1) log(1 θ) .

Esempio 3.2.8. Consideriamo il caso di un campione (X , . . . , X ) di taglia

1 n

n

n e legge Geometrica di parametro θ: sullo spazio Ω = IN la verosimiglianza

è data da −n

k +···+k n

n

1

L θ ; k , . . . , k = 1 θ θ

1 n

Un facile calcolo prova che il massimo di questa funzione (al variare di

n , e questo identifica la stima di massima

θ) si ottiene nel punto k +...+k

n

1

verosimiglianza. Ricordando che X , . . . , X sono le proiezioni coordinate,

1 n

possiamo scrivere n

θ k , . . . , k =

n 1 n

b · · ·

k + + k

1 n

oppure, indifferentemente, n

θ =

n

b · · ·

X + + X

1 n

n

mentre non è corretto scrivere θ = (in quest’ultimo caso, infatti,

n

b k +···+k

n

1

avrei a sinistra una variabile aleatoria, cioè una funzione, ed a destra un

numero).

Considerando un campione infinito, il Teorema 3.2.7 afferma che la suc-

cessione di stime θ è consistente.

n

b n≥1

3.3 Stime e riassunti esaustivi

Definizione 3.3.1 (Rischio). Sia U una stima della funzione g(θ): si chiama

Rischio (quadratico) il numero 2

θ

R θ, U = E U g(θ)

3.3. STIME E RIASSUNTI ESAUSTIVI 55

Notiamo che ha senso parlare di rischio anche se, per qualche θ, U non ha

momento secondo: in tal caso il rischio è eguale a +∞. Tuttavia, nel seguito

di questo paragrafo, supponiamo tacitamente che tutte le stime considerate

θ

abbiano momento secondo qualunque sia la probabilità P .

θ

Osserviamo ancora che, se U è corretta, R θ, U = V ar U .

La definizione di rischio introduce un criterio di ordinamento parziale tra

le stime, più precisamente diremo che

• ≤

U è preferibile a V se, per ogni θ, R(θ, U ) R(θ, V );

• U è strettamente preferibile a V se è preferibile e, per almeno un

θ, R(θ, U ) < R(θ, V );

parametro

• U è ammissibile se non esistono stime strettamente preferibili a U ;

• U è ottimale se è preferibile a ogni altra stima.

Naturalmente due stime non sono necessariamente confrontabili.

La nozione di rischio è strettamente legata alla nozione di riassunto esau-

stivo; prima di definire quest’ultima torniamo all’esempio del controllo di

qualità. Negli esempi che abbiamo visto, non avevano importanza i singoli

risultati delle varie prove, ma solo il numero totale di pezzi difettosi: trat-

tenere questo unico dato costituisce evidentemente un notevole risparmio di

informazione.

La definizione che segue ha proprio lo scopo di formalizzare questa idea

di risparmio di informazione. →

Definizione 3.3.2 (Riassunto esaustivo). Sia T : Ω E una varia-

bile aleatoria: si dice che T è un riassunto esaustivo se si può scrivere la

verosimiglianza nella forma

L θ, ω = h(θ, T (ω)) k(ω)

Quasi sempre T è a valori reali o più generalmente in uno spazio euclideo

k

IR . Accanto alla terminologia di riassunto esaustivo, si usa anche quella di

statistica esaustiva o statistica sufficiente.

Apparentemente la definizione 3.3.2 non ha nulla a che vedere con l’idea

originale di risparmio di informazione; tutto sarà più chiaro dopo il risultato

che segue.

Teorema 3.3.3. Sia T un riassunto esaustivo e U una stima di g(θ) : es-

iste una stima V della forma V (ω) = f T (ω) preferibile a U, inoltre V è

strettamente preferibile a meno che U non sia già nella forma f T . Infine,

se U è corretta, anche V è corretta.

56 CAPITOLO 3. STATISTICA SU UNO SPAZIO NUMERABILE

Prima di affrontare la dimostrazione, commentiamo il risultato: se T è

un riassunto esaustivo, le buone stime (in particolare le stime ammissibili)

sono funzione di T (ω) e quindi T (ω) contiene tutte le informazioni rilevanti.

Vediamo ora la dimostrazione del Teorema 3.3.3 che è piuttosto lunga,

ma in realtà del tutto elementare.

Dimostrazione. Cominciamo ad osservare che l’immagine dell’applicazione

T : Ω E è un insieme numerabile t , t , . . . e conseguentemente esiste

1 2

una partizione numerabile A , A , . . . di Ω, essendo A = T = t . È facile

1 2 i i

rendersi conto che una v.a. V si può scrivere nella forma V = f T se e solo

se è costante su ogni insieme A .

i

Assegnata dunque U , costruiamo V nel modo seguente: V è costante su

ogni insieme A dove prende il valore

i

P U (ω )h θ, T (ω ) k(ω )

Z

1 j j j

∈A

ω

θ j i

U dP = =

θ P

P (A ) h θ, T (ω ) k(ω )

i j j

A ∈A

ω

i j i

P U (ω )k(ω )

j j

∈A

ω

j i

= P k(ω )

j

∈A

ω j i

dove l’ultima eguaglianza è dovuta al fatto che h θ, T (ω) è costante su ogni

1 R θ

U dP non dipende da θ.

insieme A . Pertanto il numero

i θ

P (A ) A

i i θ

Sorge una difficoltà, nella definizione precedente, se P (A ) = 0. Se A è

i i

θ

trascurabile per ogni probabilità P lo possiamo appunto trascurare, se invece

è trascurabile solo per qualche valore del parametro θ, per definizione ponia-

1 R θ

U dP eguale al valore (costante) che si ottiene con i parametri

mo θ

P (A ) A

i i θ

θ per i quali A non è P -trascurabile.

i θ θ

Cominciamo a verificare che, per ogni θ, si ha E [V ] = E [U ] (e di

conseguenza, se U è corretta, lo è pure V ). Infatti R θ

U dP

Z Z

X X A

θ

θ θ θ i

E [U ] = U dP = U dP = P (A )

i θ

P (A )

i

A i

i i

θ

R U dP

A

Ora il numero (che non dipende da θ) è eguale al valore di V

i θ

P (A )

i

sull’insieme A , quindi

i R R

θ θ

U dP V dP

A A

i i

= :

θ θ

P (A ) P (A )

i i θ

ripetendo i passaggi precedenti nel verso opposto si ritrova quindi E [V ], si

ha cioè l’eguaglianza voluta.

3.4. INTERVALLI DI FIDUCIA 57

2 2

θ θ

− ≤ −

Proviamo ora che si ha E V g(θ) E U g(θ) e osserviamo

che ci si può ridurre al caso in cui g(θ) = 0.

R 2 θ

2

θ P

= V dP , è sufficiente provare che, su ogni insieme

V

Poichè E i A i

A , si ha

i Z

Z 2 θ 2 θ

V dP U dP

A A i

i

e, poichè sull’insieme A la variabile aleatoria V assume costantemente il

i

1 R θ

valore U dP , questo equivale a provare che si ha

θ

P (A ) A

i i Z Z

2

θ θ 2 θ

≤ A

U dP P U dP

i

A A

i i

L’ultima disuguaglianza è una conseguenza della disuguaglianza di Schwartz:

infatti Z Z θ

θ ≤

U dP 1.U dP

=

A A

i i sZ

sZ

sZ p θ

θ 2 θ 2 θ

≤ P (A )

1 dP U dP = U dP

i

A A A

i i i

Ricordiamo che la disuguaglianza di Schwartz è in realtà una eguaglianza se

le due funzioni 1 e U sono proporzionali (sull’insieme A ), cioè se U è costante

i

sull’insieme A : di conseguenza si ha, per ogni θ, l’eguaglianza

i 2

2

θ

θ −

− U g(θ) se e solo se U è costante su ogni insieme

V g(θ) = E

E ◦

A , cioè se si può scrivere nella forma f T .

i

Osservazione 3.3.4. La dimostrazione precedente potrebbe essere fatta in

una maniera molto più rapida, a patto di possedere qualche ulteriore nozione

di misura e integrazione: essenzialmente il fatto che lo spazio delle variabili

R 2 θ H

aleatorie U tali che U dP < +∞ è uno spazio di Hilbert (munito del

R θ

hU, i V

prodotto scalare V = U V dP ) e il sottospazio delle v.a. costanti su

ognuno degli insiemi A è un sottospazio chiuso. La costruzione che abbiamo

i 1 R θ

U dP )

fatto (di una variabile V che sull’insieme A coincide con

i θ

P (A ) A

i i V.

equivale alla costruzione della proiezione ortogonale di U sul sottospazio

3.4 Intervalli di fiducia

Supponiamo assegnato un modello statistico, ed un numero α con 0 < α < 1;

usualmente α è un numero vicino a 0, ed i valori tipici sono 0,1 ; 0,05 e 0,01.

58 CAPITOLO 3. STATISTICA SU UNO SPAZIO NUMERABILE

Definizione 3.4.1 (Regione di Fiducia). Sia assegnato, per ogni ω Ω,

un sottoinsieme dei parametri C(ω) Θ: si dice che C(ω) è una regione di

fiducia per il parametro θ al livello (1 α) se, qualunque sia θ, si ha

θ ∈ ≥ −

P ω θ C(ω) 1 α

Se Θ IR e C(ω) è un intervallo, si parla di intervallo di fiducia. Alcuni

testi usano il termine intervallo di confidenza, ma è una cattiva traduzione

dall’inglese: infatti la parola confidence vuole dire appunto fiducia (e non

confidenza).

Naturalmente si ha interesse a individuare una regione di fiducia più

piccola possibile, a patto che sia soddisfatta la condizione sul livello.

Non esistono veri risultati teorici per quanto riguarda le regioni di fiducia,

esiste però un legame tra intervalli di fiducia e test statistici che esaminer-

emo nel paragrafo successivo; ora vediamo come si possono individuare in

concreto.

Un metodo pratico per individuare una regione di fiducia è il seguente:

fissato un parametro θ, si determina un evento A(θ) Ω tale che si abbia

θ ≥ −

P A(θ) 1 α (e che sia più piccolo possibile). Si pone poi C(ω) =

∈ ∈ ⇔ ∈

θ ω A(θ) : osservando che θ C(ω) ω A(θ), ne segue che

ω θ C(ω) = A(θ) e si ha quindi la proprietà voluta.

Se Θ IR, in genere A(θ) è un intervallo contenente una stima del

parametro θ. Tutto questo sarà più chiaro negli esempi che ora esaminiamo.

Esempio 3.4.2 (Intervallo di fiducia per il controllo di qualità).

Consideriamo un campione X , . . . , X di legge di Bernoulli di parametro θ e

1 n

vogliamo individuare un intervallo di fiducia per il parametro θ: partiamo dal

θ(1−θ)

X +···+X

θ

X = è una stima corretta di θ e che V ar X = .

fatto che n

1 n n

θ(1−θ)

θ − ≤

Di conseguenza, P X θ > d ; abbiamo bisogno di una

2

nd 14

maggiorazione indipendente da θ e poichè max θ(1 θ) = , si ottiene

0<θ<1

1

θ − ≤

P X θ > d α ponendo d = , e di conseguenza

√ 4nα

1 1

n o

θ √ √

− ≤ − ≤ ≥ −

P X θ + 1 α

4nα 4nα

1 1

Si ottiene l’intervallo di fiducia X(ω)− , X(ω)+ , o (come si scrive

√ √

4nα 4nα

1

±

più sinteticamente) X(ω) .

√ 4nα

L’intervallo di fiducia che abbiamo determinato sopra in realtà non è

molto buono (cioè non è molto stretto) perchè è basato sulla diseguaglianza

di Chebishev, che in genere fa perdere qualcosa rispetto ai calcoli precisi;

3.5. TEORIA DEI TEST STATISTICI 59

tuttavia quando n è grande i calcoli esatti sulla variabile B(n, θ) non sono

praticabili. In questo caso però si può utilizzare il teorema Limite Centrale

di De Moivre-Laplace.

Esempio 3.4.3 (Intervallo di fiducia approssimato mediante il teo-

rema di De Moivre-Laplace). Siamo nella stessa situazione dell’esercizio

precedente, ma questa volta utilizziamo il fatto che

√ −

· · · − X θ

X + + X nθ o n o

n 1 n θ

θ ≤ ≤ ≈

x = P n x Φ(x)

P p p

− −

θ(1 θ)n θ(1 θ)

√ |X−θ|

θ ≤

Il nostro scopo è trovare un numero d tale che P > d α.

n θ(1−θ)

Introduciamo una notazione: dato 0 < β < 1, chiamiamo q il numero

β

tale che Φ(q ) = β. Naturalmente questo numero non può essere calcolato

β

esattamente, ma si può ricavare usando le tavole della funzione Φ(.).

√ |X−θ|

θ ≈

Dunque P n > q α : con passaggi analoghi a quelli

α

1− 2

θ(1−θ) q α

1−

± .

fatti sopra, si ottiene l’intervallo di fiducia X(ω) 2

2 n

È interessante notare quanto l’intervallo cosı̀ ottenuto si è ristretto rispet-

1

to al precedente: tenendo fisso n, sopra c’era un termine dell’ordine di √ α

(non dimentichiamo che α è un numero piccolo), mentre ora compare il

numero q che è di solito vicino a 3.

α

1− 2

Se noi consideriamo ad esempio α = 0,01, dalle tavole si ricava il valore

approssimato q = 2,58; gli intervalli di fiducia sono col primo metodo

0,995 1,29

5

± ±

X(ω) X(ω)

e nel secondo caso .

√ √

n n

3.5 Teoria dei test statistici

Il primo passo da compiere, di fronte a un test statistico, è formulare un’ipote-

si: questo si ottiene effettuando una partizione dell’insieme Θ dei parametri in

due sottinsiemi non vuoti Θ e Θ corrispondenti rispettivamente ai parametri

0 1

dell’ipotesi e a quelli della sua negazione, detta alternativa.

Torniamo all’esempio del controllo di qualità, e consideriamo l’ipotesi “la

percentuale di pezzi difettosi non supera il 5%”: in questo caso l’insieme dei

parametri è Θ = 0 , 1 , si ha Θ = 0 , 0,05 e Θ = 0,05 , 1 .

0 1

H H

L’ipotesi e l’alternativa sono indicate rispettivamente e e si usa

0 1

dire, ad esempio nel caso precedente:

H ≤

- consideriamo un test dell’ipotesi θ 0, 05 contro l’alternativa

0

H θ > 0, 05.

1 60 CAPITOLO 3. STATISTICA SU UNO SPAZIO NUMERABILE

Osserviamo che in linea di principio indicare l’alternativa è superfluo, in

quanto Θ è individuato dal fatto di essere il complementare di Θ ; tuttavia

1 0

nei fatti spesso è più chiaro indicare sia l’ipotesi che l’alternativa.

Il secondo passo è pianificare un esperimento, cioè stabilire una regola

che, secondo il risultato dell’esperienza ω, permetta di decidere se accettare

∈ F

o rifiutare l’ipotesi. Questo equivale a scegliere un evento D che consiste

nell’insieme dei risultati ω che portano a rifiutare l’ipotesi: tale insieme D

viene chiamato regione di rifiuto o più frequentemente regione critica.

Per capirci meglio, nell’esempio precedente, l’intuizione ci porta a rifiu-

tare l’ipotesi se la percentuale di pezzi difettosi supera un certo numero a (da

determinare secondo regole che vedremo): la regione critica sarà pertanto in

questo caso o

n ∈ X(ω) > a

D = ω Ω

e diremo più sbrigativamente “il test di regione critica D = X > a ”.

Definizione 3.5.1 (Livello e potenza). Si chiama taglia di un test di

regione critica D il numero θ

sup P D

θ∈Θ 0

Si dice che il test è di livello α se la sua taglia è minore o eguale ad α.

Si chiama potenza del test la funzione π : Θ [0, 1] definita da

D 1

θ D .

θ−→P

Diremo che il test di regione critica D è più potente del test di regione

∗ ∗

θ θ

∈ ≥

critica D se, per ogni θ Θ , si ha P (D) P (D ).

1

Scegliere un livello equivale a porre un confine superiore alle probabilità

θ ∈

dell’errore di prima specie (cioè ai numeri P (D) per θ Θ ) ; intuitivamente

0

infatti errore di prima specie significa “rifiutare l’ipotesi quando è vera”).

Invece la potenza è in un certo senso la “capacità di accorgersi che l’ipotesi

è falsa” (ed errore di seconda specie è “accettare l’ipotesi quando è falsa).

Usualmente si procede in questo modo: si fissa un livello α (i valori tipici

sono 0,1 ; 0,05 oppure 0,01) che fissi un limite superiore per l’errore di prima

specie, e tra i test di livello α si cerca di ottenere la massima potenza possibile

(cioè una regione critica più grande possibile). {θ })

Quando Θ è ridotto a un solo punto (cioè Θ = si dice che l’ipotesi

0 0 0

è semplice; perfettamente analoga naturalmente è la definizione di alternativa

semplice. Come vediamo qua sotto, la ricerca della regione critica di un test

a ipotesi semplice può essere ricondotta alla ricerca delle regioni di fiducia, e

viceversa.

3.5. TEORIA DEI TEST STATISTICI 61

Osservazione 3.5.2 (Legame tra test e regioni di fiducia). Supponiamo

di aver trovato, per ogni ω Ω, una regione di fiducia C(ω) al livello (1−α) e

H H 6

consideriamo il test dell’ipotesi θ = θ contro l’alternativa θ = θ .

0 0 1 0

Rifiutiamo l’ipotesi se θ / C(ω), consideriamo cioè come regione critica D =

0

θ

| ∈ ≤

ω θ / C(ω) : dalla definizione di regione critica segue che P D α,

0

0

cioè abbiamo ottenuto un test di livello α.

Quanto è stato fatto si può considerare nel senso inverso: cioè se per ogni

H

θ̄ abbiamo la regione critica D(

θ̄) di livello α del test dell’ipotesi θ = θ̄,

0

∈ ∈

ponendo C(ω) = θ Θ ω / D(θ) , otteniamo una regione di fiducia al

livello (1 α).

Esempio 3.5.3. Dato un campione X , . . . , X con legge di Bernoulli, piani-

1 n

H H 6

fichiamo il test dell’ipotesi semplice θ = θ contro θ = θ al livello

0 0 1 0

α. Osservando che l’intervallo di fiducia si può equivalentemente scrivere

− ≤

− ≤ X(ω) θ d , si ottiene la regione critica

nella forma C(ω) = θ d

della forma D = ω X(ω) θ > d , con un opportuno numero d da

0

calcolare (questa forma della regione critica del resto si accorda con quello

che suggerisce l’intuizione).

Per ottenere la regione critica più grande possibile, scegliamo il minimo d

per il quale valga la maggiorazione

θ − ≤

X θ > d α

P 0 0

Utilizzando la diseguaglianza di Chebishev, si ottiene (omettiamo i facili

conti, sostanzialmente identici a quelli svolti nel paragrafo precedente) per d

q θ (1−θ )

0 0

il valore .

Un valore più piccolo per il numero d si può ottenere utilizzando l’ap-

prossimazione suggerita dal Teorema di De Moivre-Laplace, cioè

√ −

X θ d n

n o

0

θ

θ ≈

− >

P X θ > d = P n

0

0 0 p p

− −

θ (1 θ ) θ (1 θ )

0 0 0 0

d n

≈ −

2 1 Φ p −

θ (1 θ )

0 0

q θ (1−θ )

0 0

Si ottiene in questo modo il valore d = q .

α

1− n

2

Nella stessa situazione del campione con legge di Bernoulli, cerchiamo di

H ≤ H

esaminare il test θ θ contro l’alternativa θ > θ : facciamoci

0 0

prima guidare dall’intuizione e poi arriveremo a dei risultati più precisi.

62 CAPITOLO 3. STATISTICA SU UNO SPAZIO NUMERABILE

Ci aspettiamo una regione critica della forma X d con un oppor-

tuno numero d da calcolare in funzione del livello scelto , ma sorgono delle

difficoltà: cerchiamo il più piccolo numero d tale che valga la diseguaglianza

seguente θ ≥ ≤

X d α

sup P

θ≤θ 0

dove α è il livello scelto (cerchiamo il valore d più piccolo per avere la regione

θ ≥

critica più grande possibile). Ci aspettiamo che la funzione θ−→P X d

sia crescente (e questo semplificherebbe i conti) ma il calcolo diretto non è

immediato: ci vengono però in aiuto dei risultati generali che ora esponiamo.

Lemma 3.5.4 (Lemma di Neyman-Pearson). Supponiamo assegnato un

modello statistico nel quale l’insieme Θ dei parametri è ridotto a due punti

H H

(Θ = θ , θ ) e sia dato il test dell’ipotesi θ = θ contro θ = θ .

0 1 0 0 1 1

Consideriamo l’insieme D cosı̀ definito

∈ ≤

D = ω Ω L(θ , ω) c L(θ , ω)

0 1

dove c è una costante positiva. Allora

1. D è la regione critica di un test più potente di ogni altro test di livello

θ

P D ;

0

θ θ

2. vale la diseguaglianza P D P D .

1 0 →

Dimostrazione. Consideriamo una generica funzione ϕ : Ω [0, 1] e notiamo

che per ogni ω Ω vale la diseguaglianza

− − ≤

I (ω) ϕ(ω) L(θ , ω) c L(θ , ω) 0

D 0 1

∈ − ≥ − ≤

Infatti, se ω D, I (ω) ϕ(ω) 0 e L(θ , ω) c L(θ , ω) 0 e dunque

D 0 1

il prodotto è negativo; analoga è la verifica se ω / D. Sommando su tutti i

punti ω Ω (ricordiamo che siamo sempre su uno spazio Ω numerabile), si

ottiene Z Z

θ θ θ θ

− ≤ −

P D ϕ(ω) dP (ω) c P D ϕ(ω) dP (ω)

0 0 1 1

A questo punto, se D è la regione critica di un altro test, prendendo come

funzione ϕ = I , si ottiene

D

∗ ∗

θ θ θ θ

− ≤ −

P D P D c P D P D

0 0 1 1

∗ ∗

θ θ θ

Se dunque D ha livello P D (cioè se P D P D ), ne segue che

0 0 0

∗ ∗

θ θ

vale anche la diseguaglianza P D P D (cioè D è più potente di D ).

1 1

θ

Considerando poi come funzione ϕ la costante P D , si ottiene

0

θ θ

− ≥

P D P D 0, cioè il punto 2).

1 0

3.5. TEORIA DEI TEST STATISTICI 63

Il lemma di Neyman-Pearson permette di identificare con precisione i

buoni test nel caso in realtà poco significativo di un modello statistico nel

quale i parametri siano solo due: il suo vero interesse consiste nel fatto che si

può estendere a casi più generali, i cosiddetti test unilateri. Quando l’insieme

dei parametri Θ è un intervallo di IR (intervallo in senso lato, cioè anche una

semiretta o tutta la retta) si parla di test unilatero se l’ipotesi è della forma

H ≤ H ≥

θ θ o della forma θ θ . Premettiamo una definizione.

0 0 0 0

Definizione 3.5.5 (Rapporto di verosimiglianza crescente). Suppo-

niamo assegnato un modello statistico nel quale l’insieme dei parametri Θ è

un intervallo di IR e sia T una variabile aleatoria reale definita su Ω: si dice

che il modello è a rapporto di verosimiglianza crescente rispetto a T se, scelti

comunque θ < θ , esiste una funzione reale (strettamente) crescente a valori

1 2

positivi f tale che valga l’eguaglianza

θ ,θ

1 2 L(θ , ω)

2

= f T (ω)

θ ,θ

1 2

L(θ , ω)

1

Naturalmente quella definizione ha senso se le verosimiglianze sono sem-

pre strettamente positive (o al più se si annullano tutte sul medesimo sottin-

sieme di Ω).

Teorema 3.5.6 (Test unilatero). Supponiamo che il modello sia a rappor-

to di verosimiglianza crescente rispetto a T e consideriamo il test unilatero

H ≤ H

θ θ contro l’alternativa θ > θ ; consideriamo poi l’insieme

0 0 1 0

D = ω T (ω) d dove d è un opportuno numero. Il test di regione critica

D è tale che:

θ θ

1. vale l’eguaglianza sup P D = P D ;

0

θ≤θ 0 ∗

θ

2. D è più potente di qualsiasi altro test D con livello P D .

0

Dimostrazione. Chiamiamo c = f (d) (quindi c è un numero positivo):

θ ,θ

1 2

valgono le seguenti implicazioni

≥ ⇐⇒ ≥ ⇐⇒ ≥

T (ω) d f T (ω) c L(θ , ω) c L(θ , ω)

θ ,θ 2 1

1 2 1

≤ L(θ , ω). A questo punto si può applicare il

e da qui si ottiene L(θ , ω) 2

1 c

θ θ

Lemma 3.5.4 e si trova (come conseguenza del punto 2)) P D P D :

2 1 →

poichè questo vale per ogni scelta di θ < θ , ne segue che la funzione θ

1 2

θ

P D è crescente e pertanto si ottiene la prova del punto 1) (tra l’altro

questo semplifica notevolmente il calcolo della taglia del test, che risulta

θ

eguale a P D ).

0

64 CAPITOLO 3. STATISTICA SU UNO SPAZIO NUMERABILE

θ

Supponiamo inoltre che D abbia livello P D , cioè che si abbia

0

∗ ∗

θ θ θ

≤ ≤

sup P D P D : prendendo un parametro θ > θ si ha P D

0 0

θ≤θ 0

θ D ( si applica di nuovo il Lemma 3.5.4, considerando θ al posto di θ ).

P 1

Poichè questo vale per ogni θ > θ , ne segue che D è più potente di D .

0

H ≥

Osservazione 3.5.7. Naturalmente se l’ipotesi è della forma θ θ

0 0

(oppure se il modello è a rapporto di verosimiglianza decrescente rispetto

a T ) si “ribalta” la regione critica, più precisamente si sceglie della forma

D = T d .

Esempio 3.5.8 (Test unilatero per il controllo di qualità). Ripren-

diamo l’esempio che abbiamo interrotto prima dell’enunciato del Lemma di

Neyman-Pearson (test unilatero su un campione di Bernoulli): sullo spazio

n

Ω = 0, 1 , il rapporto delle verosimiglianze è dato da

θ 1 θ

L(θ ; k , . . . , k ) k +···+k n−(k +···+k )

n n

1 1

2 2

2 1 n = −

L(θ ; k , . . . , k ) θ 1 θ

1 1 n 1 1

e si verifica facilmente che è a rapporto di verosimiglianza crescente rispetto

a X. Si ha cosı̀ una prova di quello che l’intuizione aveva suggerito, cioè che

H ≤

per il test unilatero θ θ le buone regioni critiche siano della forma

0 0

X d .

In funzione del livello α scelto, d deve essere il più piccolo numero tale che

θ ≥ ≤

X d α (questo per avere la regione critica più grande possibile):

P 0

ancora una volta viene in aiuto l’approssimazione offerta dal Teorema di De

Moivre-Laplace (purchè la numerosità n sia abbastanza grande). Si ha cosı̀

√ − −

X θ d θ o

n 0 0

θ

θ ≥

≥ ≈

P X d = P n n

0

0 p p

− −

θ (1 θ ) θ (1 θ )

0 0 0 0

√ −

d θ

0

≈ −

1 Φ n = α

p −

θ (1 θ )

0 0

√ d−θ

√ = q (si noti che q è un numero positivo

Si prende allora n 0 1−α 1−α

θ (1−θ )

0 0 12

perchè α è tipicamente “piccolo”, inferiore a ).

q θ (1−θ )

1−α 0 0 .

Si ottiene pertanto il valore d = θ + √

0 n

3.6 Esercizi

Esercizio 3.6.1. Consideriamo un campione X , . . . , X di variabili di Pois-

1 n

son di parametro θ, θ > 0 : che cosa si può dire circa un intervallo di fiducia

H ≤ H

per θ ed un test dell’ipotesi θ θ contro l’alternativa θ > θ ?

0 0 1 0

3.6. ESERCIZI 65

Esercizio 3.6.2. Si vuole verificare con quale frequenza si presenta tra i

neonati una certa malformazione, più precisamente si vuole verificare l’ipotesi

H ≤

θ 0, 02 , essendo θ la probabilità (sconosciuta) con la quale si presenta

0

questa malformazione: per fare questo si controllano delle cartelle cliniche

di neonati fino a quando se ne trova una nella quale compare questa malfor-

mazione. Pianificare un test per decidere al livello 0,1 , sulla base del numero

di cartelle che è stato necessario verificare, se l’ipotesi può essere accettata.

Un procedimento più preciso si otterrebbe continuando a verificare cartelle

fino a quando non se ne trovano 10 contenenti questa malformazione: esam-

inare se i calcoli sono agevoli in questo caso.

Esercizio 3.6.3. Sia X , . . . , X un campione di taglia n e legge geometrica

1 n

di parametro θ 0 < θ < 1 . Determinare un riassunto esaustivo. Esiste una

stima di massima verosimiglianza, una stima consistente?

Esercizio 3.6.4. Consideriamo come insieme dei parametri gli interi stret-

k

tamente positivi k 1 e sia m la distribuzione di probabilità uniforme su

1, . . . , k IN . k

Sia dato un campione di taglia n e legge m : considerare le stesse

domande dell’esercizio precedente.

Esercizio 3.6.5. Si consideri, per θ > 1, la distribuzione di probabilità

θ θ

m sugli interi strettamente positivi IN = 1, 2, . . . tale che m (k) =

−1 −θ

ζ(θ) k , essendo +∞ 1

X

ζ(s) = s

n

n=1

θ

Dato un campione di taglia n e legge m , considerare le stesse domande degli

esercizi precedenti.

Osservazione: la funzione ζ sopra definita è la celebre funzione zeta di

Riemann, molto importante in teoria dei numeri. Questa funzione è sta-

ta studiata approfonditamente, ma di essa non si può dare un’espressione

esplicita in termini di funzioni elementari.

66 CAPITOLO 3. STATISTICA SU UNO SPAZIO NUMERABILE

Capitolo 4

Probabilità e variabili aleatorie

su uno spazio generale

4.1 Costruzione di una Probabilità

Cominciamo con una definizione:

A

Definizione 4.1.1. Sia una famiglia di parti di un insieme E: si chiama

A A:

σ-algebra generata da la più piccola σ-algebra contenente essa coincide

A.

con l’intersezione di tutte le σ-algebre contenenti P(E)

Notiamo che tale insieme non è vuoto, perchè esiste almeno (cioè la

A.

famiglia di tutti i sottinsiemi di E) che contiene È bene inoltre ribadire

che non esiste un metodo costruttivo per caratterizzare la σ-algebra generata

A.

da

Proposizione 4.1.2 (I boreliani). Sulla retta reale IR coincidono le σ-

algebre generate, ad esempio, da queste famiglie di insiemi:

− ∞, ∈

1. le semirette del tipo ] x] , al variare di x IR ;

−∞

2. gli intervalli semiaperti ]a, b] (oppure [a, b[ ) , con < a < b < +∞ ;

3. gli aperti di IR ;

4. i chiusi di IR .

La σ-algebra da essi generata è chiamata σ-algebra di Borel su IR (e

B(IR))

indicata ed i relativi elementi sono detti boreliani.

67

68 CAPITOLO 4. PROBABILITÀ GENERALE

B

Dimostrazione. Chiamiamo ad esempio la σ-algebra generata dalle semi-

1

B − ∞, − ∞,

rette e quella generata dagli intervalli. Poichè ]a, b] = ] b]\] a]

2 B B ⊆ B

è un elemento di , ne segue che .

1 2 1

− ∞, ∪ −

Viceversa, poichè ] x] = ]x n, x] , segue che le semirette sono

n≥1

B B ⊆ B B B

elementi di e di conseguenza : si ha quindi l’eguaglianza = .

2 1 2 1 2

Le altre eguaglianze si dimostrano in maniera del tutto simile e comunque

molto semplice.

Sulla retta, se non sarà diversamente specificato, si considera la σ-algebra

n n

B

di Borel. Analoga è la definizione della σ-algebra IR dei boreliani di IR

che è generata, ad esempio, dalle seguenti famiglie di insiemi:

n

1. gli aperti di IR ; × ×

2. i prodotti cartesiani A . . . A , dove ogni A è un boreliano di IR ;

1 n i

− ∞, × ×] − ∞,

3. i prodotti cartesiani della forma ] x ] . . . x ] .

1 n

Diamo per scontato che il lettore sia a conoscenza della teoria della misura

L

e dell’integrazione secondo Lebesgue, e chiamiamo la famiglia delle parti di

L

IR misurabili secondo Lebesgue: è una σ-algebra e contiene gli intervalli,

B(IR) ⊆ L(IR).

e di conseguenza si ha l’inclusione

In realtà l’inclusione è stretta ma la dimostrazione di questo fatto non

è affatto immediata. Questo può essere visto in diversi modi e forse il più

naturale è passare attraverso la cardinalità: si prova infatti che la famiglia dei

Boreliani ha la stessa cardinalità di IR (risultato tutt’altro che elementare),

mentre si può costruire un insieme C trascurabile secondo Lebesgue che ha

la stessa cardinalità di IR (l’esempio più noto è l’insieme di Cantor). Ogni

sottinsieme di C è trascurabile e pertanto misurabile secondo Lebesgue e di

L

conseguenza la famiglia ha cardinalità strettamente superiore a quella dei

boreliani.

Saranno fondamentali per quanto segue i due seguenti risultati:

Teorema 4.1.3 (Unicità di Probabilità). Siano P e Q due probabilità

F

definite su una σ-algebra di parti di un insieme E e supponiamo che P e

I

Q coincidano su una famiglia di parti tale che:

I F

1) genera ;

I

2) è stabile per l’intersezione (finita).

F.

Allora P e Q coincidono su tutto A

Teorema 4.1.4 (Esistenza di Probabilità). Sia un’algebra di parti

A →

di un insieme E e sia P : [0, 1] una funzione σ-additiva (tale che

F A.

P(E) = 1): P si prolunga (in un sol modo) alla σ-algebra generata da

4.1. COSTRUZIONE DI UNA PROBABILITÀ 69

È bene precisare che cosa significa affermare che una funzione P è σ–

A

additiva su un’algebra di parti: vuol dire che se (A ) è una suc-

n n=1,2,...

+∞

S

A

cessione di elementi di a due a due disgiunti e se anche A è un

n

n=1

+∞ +∞

S P

A

elemento di , allora P A = P(A )

n n

n=1 n=1

La dimostrazione dei due teoremi precedenti è lasciata a un corso più

avanzato, ma è opportuno qualche commento. Il primo risultato non è vero

per misure in generale (se la misura di tutto lo spazio è infinita): provare ad

B(IR)

esempio a costruire un controesempio di due misure su che coincidono

su ogni semiretta ]−∞, x] ma non coincidono. Il secondo risultato, viceversa,

è vero per misure qualsiasi (e osserviamo che, nel caso delle probabilità,

l’unicità del prolungamento è conseguenza del Teorema 4.1.3).

Applichiamo ora i due teoremi appena enunciati alla costruzione delle

probabilità su IR.

Definizione 4.1.5 (Funzione di ripartizione). Sia P una probabilità

B(IR)

definita su IR, : si chiama funzione di ripartizione la funzione F :

→ − ∞,

IR [0, 1] definita da F (x) = P ] x] .

Proposizione 4.1.6. La funzione di ripartizione sopra definita gode delle

seguenti proprietà:

1. è crescente;

2. è continua a destra;

3. F (+∞) = lim F (x) = 1 e F (−∞) = lim F (x) = 0 .

x→+∞ x→−∞

Dimostrazione. È evidente che F è crescente (in genere non strettamente

crescente).

Delle proprietà successive proviamo ad esempio la continuità a destra: da-

to x, poichè F è monotona, è sufficiente considerare una successione (x )

n n≥1

1 ). A questo punto, usando

convergente ad x da destra (ad esempio x = x+

n n

le stesse notazioni del Capitolo 1,

− ∞, ↓ − ∞, − ∞, ↓ − ∞,

] x ] ] x] =⇒ F (x ) = P ] x ] P ] x] = F (x)

n n n

Le altre proprietà si dimostrano in maniera praticamente identica.

Con facili passaggi si prova che F (b) F (a) = P ]a, b] , che F (x) =

− ∞, − {x}

lim F (y) = P ] x[ e che ∆F (x) = F (x) F (x) = P .

→x −

y<x ,y

Ma quello che è veramente importante è il risultato seguente, che è in un

certo senso l’inverso della Proposizione 4.1.6.

70 CAPITOLO 4. PROBABILITÀ GENERALE

B(IR)).

Teorema 4.1.7 (Esistenza di una Probabilità su Assegnata una

funzione F : IR [0, 1] con le proprietà 1), 2) e 3) della Proposizione 4.1.6,

B(IR) ∈

esiste una ed una sola probabilità P su tale che, per ogni x IR, si

− ∞,

abbia F (x) = P ] x] .

Dimostrazione. L’unicità di questa probabilità P è conseguenza del Teorema

B(IR)

4.1.3 (la famiglia delle semirette è stabile per intersezione e genera ):

proviamo ora l’esistenza.

A

Chiamiamo la famiglia dei pluriintervalli: più precisamente un elemen-

A

to A di è della forma

∪ ∪]x − ∞ ≤ ≤

A = ]x , y ] . . . , y ] con x < y < . . . < x < y +∞

1 1 k k 1 1 k k

e, per A di quella forma, definiamo

k

X

P(A) = F (y ) F (x )

i i

i=1 A

È una verifica elementare provare che è un’algebra di parti di IR (che

B(IR)

genera ) e che P è una funzione semplicemente additiva definita su

A: B(IR)

il prolungamento a tutto è una conseguenza del Teorema 4.1.4 a

A.

patto di provare che P è σ-additiva su È più comodo di fatto provare la

proprietà seguente: ∈ A ↓ ∅ ↓

se A , A =⇒ P(A ) 0

n n n

∈ A ∈ A B

Partiamo dal fatto seguente: dato A ed ε > 0 , esiste B con

compatto e B A ( B è la chiusura di B ) tale che P A\B) < ε. L’esistenza

di un tale B è più facile da capire che da scrivere formalmente: comunque per

ognuno dei k intervalli ]x , y ] che compongono A, si considera un intervallo

i i ε

a chiusura compatta ]z , w ] tale che P ]x , y ]\]z , w ] < e poi si prende

i i i i i i k

l’unione di questi intervalli.

Se x , y sono entrambi finiti, si prenderà ]x + δ, y ] con un opportuno δ

i i i i

−∞

sufficientemente piccolo, se il primo estremo è (e l’altro finito), si pren-

derà ] M, y ] con M reale sufficientemente grande e cosı̀ via . . . le proprietà

i

della funzione F permettono questa costruzione.

↓ ∅

Consideriamo allora la successione A , ε > 0 e, per ogni n, un

n

∈ A

elemento B con le proprietà sopra indicate e contenuto in A e tale che

n n

ε

\

P A B < .

n n n

2

T ∅

Si ha B = e, siccome questi insiemi sono compatti, ne esiste

n

n≥1

una sottofamiglia finita con intersezione vuota: scegliamo dunque n̄ tale che

4.1. COSTRUZIONE DI UNA PROBABILITÀ 71

∩ ∩ ∅.

B . . . B = Si ha

1 n̄ c [ [

c

∩ ∩ ∩ ⊆

∩ \

A = A B . . . B = A B A B

n̄ n̄ 1 n̄ n̄ j j

j

j=1,...,n̄ j=1,...,n̄

Ne segue che si ha P(A ) < ε e, poichè questo è vero per ogni ε, si ha

lim P(A ) = 0.

n→∞ n

Vediamo i tipi più usuali di probabilità su IR e le corrispondenti proprietà

delle relative funzioni di ripartizione.

Esempio 4.1.8 (Probabilità discrete). Abbiamo già incontrato le pro-

B(IR):

babilità discrete (dette anche atomiche) su P è concentrata sulla

∈ B(IR)

successione di punti (x , x , . . .) e, per ogni A , vale l’eguaglianza

1 2

P {x }

P(A) = p(x ) essendo p(x ) = P .

i i i

∈A

x i

In particolare la funzione di ripartizione soddisfa l’eguaglianza F (x) =

P p(x ) : disegnando in particolare la funzione di ripartizione delle leggi

i

≤x

x i

Binomiale, o di Poisson, o altre, si nota che ha un tipico andamento a gradini.

Ma non tutte le funzioni di ripartizione delle probabilità discrete sono fatte

cosı̀ come mostra l’esempio che ora segue.

Esercizio 4.1.9. Sia l’insieme dei razionali e consideriamo una nume-

Q

{q

razione di = , q , . . .} ; sia poi P concentrata su tale che p(q ) =

Q Q

1 2 n

−n

{q }

P = 2 ed F la relativa funzione di ripartizione. Provare che F è

n

strettamente crescente.

Esempio 4.1.10 (Misura secondo Lebesgue). La misura secondo Lebes-

gue non è limitata e quindi non può essere costruita come conseguenza

del Teorema 4.1.4. Tuttavia si può costruire la misura di Lebesgue λ sui

sottinsiemi boreliani di [0, 1] considerando la funzione di ripartizione cosı̀

definita:  0 per x < 0

 ≤ ≤

x per 0 x 1

F (x) = 1 per x > 1

In modo analogo la si può costruire su ogni intervallo di IR di lunghezza 1;

+∞

P

∈ B(IR), ∩

si pone poi, per A λ(A) = λ A ]n, n + 1] .

n=−∞

Esempio 4.1.11 (Probabilità diffusa). Abbiamo visto che ogni punto è

trascurabile per la probabilità P associata alla funzione di ripartizione F se

{x}

e solo se F è continua: questo è una conseguenza della formula P =

∆F (x). Le probabilità che godono di questa proprietà sono dette diffuse.

Provare che in tal caso la funzione di ripartizione F è anche uniformemente

continua.

72 CAPITOLO 4. PROBABILITÀ GENERALE

In verità le probabilità diffuse non hanno particolari proprietà: sono

molto più importanti e maneggevoli le probabilità definite da una densità,

che verranno però introdotte nel successivo paragrafo.

4.2 Costruzione dell’integrale

Definizione 4.2.1 (Spazio e applicazione misurabile). Si chiama spazio

E E

misurabile una coppia E, dove E è un insieme e una σ-algebra di parti

E F →

di E. Dati due spazi misurabili E, e F, , una applicazione f : E F

−1

∈ F ∈ E.

è detta misurabile se, per ogni A , f (A) A

Proposizione 4.2.2. Con le notazioni della definizione precedente, se è

F,

una famiglia di parti di F che genera la σ-algebra affinchè una funzione

−1

→ ∈ A ∈ E.

f : E F sia misurabile, è sufficiente che, per ogni A , f (A) B

Dimostrazione. La dimostrazione è molto semplice: se noi chiamiamo la

−1

⊆ ∈ E,

famiglia dei sottisiemi B F tali che f (B) è una facile verifica

B B A,

provare che è una σ-algebra. Poichè contiene contiene anche la

F.

σ-algebra generata cioè

E

Se non è specificato diversamente, dato uno spazio misurabile E, , una

funzione f : E IR è detta misurabile se è misurabile considerando su IR la

B(IR).

σ-algebra

Grazie al risultato 4.2.2, affinchè f sia misurabile è sufficiente ad esempio

−1

∀x ∈ ≤ − ∞, ∀a

che, IR , f x = f ] x] (o, equivalentemente, < b ,

−1

≤ E).

a<f b = f ]a, b] ) sia un elemento di

B(IR) B(IR)

Una funzione misurabile da IR, su IR, è detta boreliana.

E

Definizione 4.2.3 (Funzione semplice). Dato uno spazio misurable E, ,

si chiama semplice una funzione misurabile ϕ : E IR che prende un numero

finito di valori (cioè la cui immagine è un insieme finito).

Chiamati a , . . . , a i punti dell’immagine della funzione semplice ϕ e

1 n

{ϕ },

detti A = = a è evidente che la funzione può essere scritta nella forma

i i n

X

ϕ = a I

i A i

i=1

cioè ϕ è una combinazione lineare di indicatrici di insiemi misurabili, vicev-

ersa ogni combinazione lineare di indicatrici di insiemi misurabili (non neces-

sariamente disgiunti) è evidentemente una funzione semplice. L’espressione

di una funzione semplice in tale forma non è unica, tuttavia date due funzioni

4.2. COSTRUZIONE DELL’INTEGRALE 73

semplici ϕ e ψ è facile vedere che esistono A , . . . , A disgiunti in modo tale

1 n

che si possa scrivere n n

X X

ϕ = a I ; ψ = b I ,

i A i A

i i

i=1 i=1

cioè ϕ e ψ si possono scrivere come combinazione lineare delle funzioni

indicatrici degli stessi insiemi misurabili.

Una conseguenza immediata di questa osservazione è che l’insieme delle

funzioni semplici è uno spazio vettoriale ed un reticolo (l’ultima dizione

significa che, se φ , ψ sono funzioni semplici, anche ϕ ψ = max(ϕ, ψ) e

ϕ ψ = min(ϕ, ψ) sono funzioni semplici).

E

Sopponiamo ora assegnato uno spazio misurabile E, sul quale è defini-

ta una misura di probabilità m.

Definizione 4.2.4 (Integrale delle funzioni semplici). Sia ϕ una fun-

n

P a I : definiamo integrale di ϕ il

zione semplice della forma ϕ = i A

i=1 i

numero n

Z X

ϕ(x) dm(x) = a m(A )

i i

E i=1 R

Se non c’è ambiguità, si può scrivere più semplicemente ϕ dm : è facile

verificare che questo numero non dipende dalla particolare rappresentazione

di ϕ che si è scelta, e che si ha

R R R

• aϕ + ψ dm = a ϕ dm + ψ dm ;

R R

• ≤ ≤

se ϕ ψ , allora ϕ dm ψ dm .

Proposizione 4.2.5 (Proprietà di Beppo Levi per funzioni semplici).

Sia (ϕ ) una successione di funzioni semplici e supponiamo che ϕ ϕ e

n n≥1 n

che ϕ sia ancora una funzione semplice: allora

Z Z

ϕ dm ϕ dm

n

Anche la dimostrazione di questo risultato è lasciata a un corso più avan-

zato, tuttavia è interessante osservare che se ϕ = I dove A è una

n A n

n n≥1

↑ ∪

successione crescente di insiemi, si ha che I I essendo A = A :

A A n≥1 n

n

la proprietà di Beppo Levi equivale alla continuità della probabilità, più

precisamente Z Z

I dm = m A m A = I dm

A n A

n

Allo scopo di estendere la definizione di integrale, sarà fondamentale il

risultato seguente:

74 CAPITOLO 4. PROBABILITÀ GENERALE

Teorema 4.2.6 (Approssimazione con funzioni semplici). Sia f una

funzione misurabile a valori positivi: esiste una successione di funzioni sem-

plici (ϕ ) tale che

n n≥1 ↑

ϕ f

n

Dimostrazione. Una possibile successione approssimante può essere definita

in questo modo: n −1

n2 h

X

ϕ = n I + I

{f ≥n}

n h+1

h

n

2 ≤f <

n n

2 2

h=0

È piuttosto noioso (ma per niente difficile) verificare che, qualunque sia

x, ϕ (x) ϕ (x) e che lim ϕ (x) = f (x).

n n+1 n→∞ n

La funzione f può anche prendere il valore +∞ in qualche punto x; i bore-

liani su IR = [−∞, +∞] e le funzioni misurabili a valori in IR si definiscono

in maniera identica a quanto si è fatto per la retta reale IR.

Osservazione 4.2.7 (Sulla definizione di funzione misurabile). Soli-

tamente in analisi si chiama misurabile una funzione f : IR IR tale che,

−1

∈ B(IR) ∈ L

per ogni A , f (A) (sia cioè misurabile secondo Lebesgue):

si considerano quindi due differenti σ-algebre su IR come spazio di parten-

za e come spazio di arrivo. La ragione di questa apparente incongruenza

va ricercata proprio nel Teorema 4.2.6: vedremo subito che quel risultato

di approssimazione è fondamentale nella definizione di integrale, e per poter

{a ≤

fare quella costruzione è necessario che gli insiemi f < b} siano mis-

urabili (e questo equivale a dire che l’immagine inversa di ogni Boreliano è

misurabile). Viceversa si ha interesse a disporre, sull’insieme su cui è defini-

ta la funzione, della famiglia di insiemi misurabili più grande possibile (la

L,

σ-algebra quando si considera la misura di Lebesgue).

Una conseguenza di questa definizione è, ad esempio, che composizione di

due funzioni misurabili non è necessariamente misurabile, però se f : IR IR

→ ◦

è misurabile e g : IR IR è boreliana, allora g f è misurabile.

Inoltre, data una successione (f ) di funzioni misurabili a valori reali, la

≥1

n

T

≤ ≤

funzione sup f è misurabile: si ha infatti sup f a = f a .

n n n

n n n

In modo analogo sono misurabili inf f , lim sup f , lim inf f e,

n n n n n

n

se esiste, lim f .

n n

Infine, come conseguenza del Teorema 4.2.6, ogni funzione misurabile a

valori reali si può scrivere come limite puntuale di una successione di funzioni

semplici: da qui segue facilmente che, se f e g sono misurabili, anche (f +

∨ ∧

g) , (f g) e (f g) sono misurabili.

4.2. COSTRUZIONE DELL’INTEGRALE 75

Definizione 4.2.8 (Integrale delle funzioni a valori positivi). Sia f

una funzione misurabile a valori positivi e consideriamo una successione di

funzioni semplici (ϕ ) tale che ϕ f : si definisce integrale di f il numero

n n≥1 n

Z Z

f dm = lim ϕ dm

n

n≥1

R

Il limite esiste poichè la successione di numeri ϕ dm è crescente

n n≥1

(il limite eventualmente può essere +∞); apparentemente però la definizione

4.2.8 è ambigua perchè si possono prendere in considerazione diverse succes-

sioni approssimanti. In realtà questa ambiguità non sussiste come dimostra

il risultato seguente:

Teorema 4.2.9 (Proprietà di Beppo Levi). Se (ϕ ) e (ψ ) sono

n n≥1 n n≥1

due successioni di funzioni semplici convergenti alla funzione f si ha

Z Z

lim ϕ dm = lim ψ dm

n n

n→∞ n→∞

Inoltre se (f ) è una successione di funzioni misurabili a valori positivi,

n n≥1

si ha Z Z

↑ ↑

f f =⇒ f dm f dm

n n

Dimostrazione. Fissiamo n e consideriamo la successione di funzioni semplici

(ϕ ψ ) : questa è crescente e converge a ϕ . Per la Proposizione 4.2.5

n m m≥1 n

si ha Z Z Z

∧ ≤

ϕ dm = lim ϕ ψ dm lim ψ dm

n n m m

m→∞ m→∞

R R

e, di conseguenza, lim ϕ dm lim ψ dm. Scambiando le due

n→∞ n m→∞ m

successioni si ottiene la diseguaglianza opposta e quindi l’eguaglianza: questo

dimostra la prima affermazione.

Per quanto riguarda la seconda, consideriamo per ogni n una successione

di funzioni semplici (ϕ ) convergente crescendo ad f , e poniamo ψ =

n,m m≥1 n n

max (ϕ ).

i,j≤n i,j

È immediato constatare che (ψ ) è una successione crescente di fun-

n n≥1

≤ ↑

zioni semplici, che per ogni n si ha ψ f e che ψ f : si ha pertanto

n n n

Z Z Z

f dm = lim ψ dm lim f dm .

n n

n→∞ n→∞

R R

Ma, poichè per ogni n si ha f dm f dm, si ottiene l’eguaglianza

n

cercata. 76 CAPITOLO 4. PROBABILITÀ GENERALE

Si verifica facilmente che, se f, g sono misurabili positive ed a > 0, si ha

R R R R R

≤ ≤

(af + g)dm = a f dm + gdm ; inoltre se f g, allora f dm gdm.

+

Consideriamo ora una generica funzione misurabile f , e poniamo f =

∨ −(f ∧ −

f 0 = max(f, 0) e f = 0) = min(f, 0) : entrambe sono funzioni

− −

+ +

|f | −

misurabili (è una verifica immediata) e si ha = f + f e f = f f .

Definizione 4.2.10 (Funzione integrabile e integrale). Si dice che la

R |f |dm

funzione misurabile f è integrabile se < +∞, e in tal caso si chiama

integrale di f il numero

Z Z Z −

+ −

f dm = f dm f dm .

1 E,

L E, m (o più

Lo spazio delle funzioni integrabili viene indicato

1 1

L ∈ L

semplicemente se non c’è ambiguità): se f, g ed a è un numero

R R R

qualsiasi, si ha (af + g)dm = a f dm + gdm. Mentre l’eguaglianza

R R R R

af dm = a. f dm è immediata, l’eguaglianza (f + g) dm = f dm +

R g dm è conseguenza di questo fatto che lasciamo provare come esercizio:

se f = g h dove g, h sono misurabili, a valori positivi e integrabili, si ha

R R R

f dm = g dm h dm .

Teorema 4.2.11 (Convergenza dominata). Sia (f ) una successione

n n≥1

di funzioni misurabili convergente puntualmente ad f e supponiamo che esista

∈ |f ≤

g integrabile a valori positivi tale che si abbia, per ogni x E , (x)|

n

g(x) : allora si ha Z Z

lim f dm = f dm .

n

n→∞

Anche di questo risultato omettiamo la dimostrazione; ci limitiamo ad

|f ≤

osservare che la condizione (x)| g(x) (valida ovviamente anche per il

n

limite f ) porta come conseguenza che ogni f (e cosı̀ pure il limite f ) è

n

integrabile.

Osservazione 4.2.12. La costruzione esposta in questo paragrafo è vali-

da (praticamente senza modifiche) per l’integrale rispetto ad una generica

misura m non di probabilità (tale che si abbia m(E) = +∞). L’unica modi-

fica sostanziale è nella definizione di funzione semplice : bisogna considerare

ni=1

P

delle funzioni ϕ della forma ϕ = a I con A tali che m(A ) < +∞.

i A i i

i

L’integrale della funzione f rispetto alla misura di Lebesgue (se esiste) è

R

usualmente denotato f (x) dx .

Sostanzialmente senza modifiche rispetto al Capitolo 2 si prova la dise-

2 2 1

∈ L

guaglianza di Schwartz: se f e g sono integrabili, il prodotto f g e si

4.2. COSTRUZIONE DELL’INTEGRALE 77

ha sZ sZ

Z 2 2

f g dm f dm g dm .

Osservazione 4.2.13 (Integrale rispetto ad una misura discreta).

Quando l’insieme E è numerabile (o più in generale la misura è concentrata

su un insieme numerabile), l’integrale come è stato definito in questo capitolo

coincide con la definizione data nel Capitolo 2: basta verificare questo per le

funzioni a valori positivi.

Data una tale funzione f , definiamo

f (x ) se j n

j

ϕ (x ) =

n j 0 se j > n

La successione (ϕ ) è una successione crescente di funzioni semplici con-

n n≥1 R P f (x )m(x ), al limite

vergente ad f : poichè per ogni n si ha ϕ dm = j j

n j≤n

si ha la somma della serie, cioè la definizione data a suo tempo.

Possiamo ora introdurre una nuova categoria di probabilità su IR, molto

importante nelle applicazioni.

Definizione 4.2.14 (Densità di probabilità). Si chiama densità di proba-

bilità su IR una funzione reale f definita su IR, misurabile e a valori positivi,

+∞

R

integrabile (secondo Lebesgue) e tale che f (x) dx = 1.

−∞ B(IR)

Ad una densità f è associata una probabilità P su mediante la

formula Z f (x) dx

P(A) = A

È immediato constatare che la funzione cosı̀ definita è semplicemente

additiva e che P(IR) = 1; per provare che è anche σ-additiva viene più comodo

mostrare la proprietà di continuità sulle successioni crescenti d’insiemi usando

la proprietà di Beppo Levi.

↑ ↑

Se A A, si ha che f.I f.I e quindi

n A A

n

Z Z

P(A ) = f.I dx f.I dx = P(A) .

A A

n n

Vale il seguente risultato

Teorema 4.2.15 (Integrazione rispetto a una misura definita da una

densità). Una funzione misurabile g definita su IR è integrabile rispetto a P

se e solo se il prodotto gf è integrabile rispetto alla misura di Lebesgue, e in

tal caso si ha Z Z

g(x) dP(x) = g(x)f (x) dx .

78 CAPITOLO 4. PROBABILITÀ GENERALE

Dimostrazione. Cominciamo a supporre che g sia l’indicatrice di un insieme

misurabile A: Z Z Z

I dP = P(A) = f dx = f I dx

A A

A

Di conseguenza l’eguaglianza è vera per le funzioni semplici; data una generi-

ca g misurabile e positiva, e considerando una successione crescente approssi-

mante (ϕ ) , applicando in entrambi gli integrali la proprietà di Beppo

n n≥1

Levi, si ha Z Z Z Z

g dP = lim ϕ dP = lim ϕ f dx = g f dx

n n

n→∞ n→∞

Considerata poi una funzione misurabile generica g, si considera la decom-

+ −

posizione g = g g e si conclude facilmente.

Analoga è la definizione di probabilità definita da una densità su

n n

B(IR

IR , ) , ed il relativo teorema di integrazione.

Esaminiamo ora la funzione di ripartizione di una probabilità definita da

x

R

una densità, cioè F (x) = f (t) dt : naturalmente F è continua, ma non

−∞

è vero il viceversa. Ci sono esempi di funzioni di ripartizione continue la

cui probabilità associata non è definita da una densità: l’esempio più noto è

quello della misura di Cantor, che sarà esposta in Appendice.

Vale il seguente risultato, che viene qui solo enunciato:

Proposizione 4.2.16 (Funzioni assolutamente continue). La proba-

bilità associata ad una funzione di ripartizione F è definita da una densità

se e solo se F è assolutamente continua, cioè per ogni ε > 0, esiste δ > 0

tale che, prese delle coppie di punti (x , y ),

i i

X X −

|x − | F (x ) F (y ) < ε

y < δ =⇒

i i i i

i≤n i≤n

La Proposizione precedente fornisce una precisa caratterizzazione che però

è poco pratica: di fatto si utilizza spesso questo criterio sufficiente (che lascia-

mo provare come esercizio). Supponiamo che la funzione di ripartizione F sia

1

continua e C a tratti, cioè che sia derivabile con derivata continua eccetto

che in un insieme finito di punti a , . . . , a : allora la probabilità associata ad

1 n

F è definita da una densità e una versione della densità f è data (eccetto

dF (x) .

che nei punti a , . . . , a ) dall’eguaglianza f (x) =

1 n dx

Notiamo che nei punti a , . . . , a possiamo definire la densità in un modo

1 n

qualsiasi, poichè si tratta di un insieme trascurabile (rispetto alla misura di

Lebesgue) e la densità interviene solo attraverso integrali.

4.3. VARIABILI ALEATORIE GENERALI 79

4.3 Variabili aleatorie reali e vettoriali su uno

spazio di probabilità generale

Ora che disponiamo della teoria dell’integrazione rispetto ad una probabilità

su uno spazio Ω generale, possiamo estendere senza difficoltà le definizioni

date nel Capitolo 2 e riguardanti le variabili aleatorie (reali e vettoriali): c’è

però una differenza sostanziale. Nel Capitolo 2 non avevamo menzionato

problemi di misurabilità (perchè in un insieme numerabile ogni sottinsieme

è misurabile) mentre ora dobbiamo essere molto precisi proprio riguardo a

questioni di misurabilità.

Definizione 4.3.1 (Variabile aleatoria reale). Assegnato uno spazio di

F,

Probabilità Ω, P , si chiama variabile aleatoria reale una applicazione

F) → B(IR)).

misurabile X : (Ω, (IR,

∈ ≤

Quindi X deve essere tale che, ad esempio, per ogni x IR , X x =

−1

− ∞, ∈ F.

X ] x] → ◦

Allora, data una funzione boreliana f : IR IR, f X è ancora una

variabile aleatoria (ma questo non è più vero con una generica funzione f ).

Definizione 4.3.2 (Legge di Probabilità). Si chiama legge di probabilità

(o anche distribuzione di probabilità) di una variabile aleatoria reale X l’im-

magine di P mediante X; si chiama funzione di ripartizione di X la funzione

di ripartizione della sua legge di probabilità. −1

Si ha dunque, per ogni A boreliano, P (A) = P X (A) .

X

Chiamata poi F la sua funzione di ripartizione, si ha

X

− ∞, ≤

F (x) = P ] x] = P X x .

X X

B(IR)

Osservazione 4.3.3. Assegnata comunque una probabilità Q su IR, ,

esiste una variabile aleatoria X la cui legge di probabilità sia eguale a Q.

La costruzione è simile a quella che è stata fatta per le leggi di proba-

bilità discrete, ed è anche molto semplice (ma importante dal punto di vista

F B(IR)

metodologico): si può prendere Ω = IR, = e P = Q. Si considera

poi come applicazione X : IR IR l’identità, cioè X(x) = x : è immediato

constatare che P = Q . Una analoga costruzione (che non ripeteremo) si

X

può fare per le variabili vettoriali.

Vediamo ora l’estensione al caso generale del Teorema 2.4.1.

80 CAPITOLO 4. PROBABILITÀ GENERALE

Teorema 4.3.4 (Integrazione rispetto ad una probabilità immagine).

→ ◦

Sia ϕ : IR IR boreliana: ϕ è integrabile rispetto a P se e solo se ϕ X è

X

integrabile rispetto a P e in tal caso vale la formula

Z Z

ϕ(x) dP (x) = ϕ X(ω) dP(ω) .

X

IR Ω

Dimostrazione. La dimostrazione è simile a quella del teorema 4.2.15, ed è

abbastanza semplice. Cominciamo a verificare la formula nel caso in cui

ϕ = I , con A boreliano.

A Z −1

I (x) dP (x) = P (A) = P X (A) =

A X X

IR

Z Z

I (ω) dP(ω) = I X (ω) dP(ω)

−1 A

X (A)

Ω Ω

Di conseguenza la formula è vera per le combinazioni lineari di indicatrici

di boreliani, cioè per le funzioni semplici. Data ϕ misurabile positiva, si

prende una successione approssimante crescente (ϕ ) di funzioni semplici:

n n≥1

applicando Beppo Levi in entrambi gli integrali si ottiene

Z Z

ϕ(x) dP (x) = lim ϕ (x) dP (x) =

X n X

n→∞

IR IR

Z Z

lim ϕ ϕ X(ω) dP(Ω)

X(ω) dP(Ω) =

n

n→∞ Ω Ω

Per passare poi al caso di ϕ di segno qualsiasi, si considera la decomposizione

− −

+ +

ϕ = ϕ ϕ e si applica separatamente la formula a ϕ e ϕ .

Perfettamente analoghe a quanto si è visto per il caso delle variabili

aleatorie discrete, sono le definizioni di valori attesi, momenti, varianza,

ecc. . .

Ad esempio, il valore atteso di X (se esiste) è l’integrale

Z Z

E X = X(ω) dP(ω) = x dP (x)

X

Ω IR

La dimostrazione del fatto che, se 1 p < q < +∞ ed X ammette mo-

mento di ordine q, allora ammette anche momento di ordine p, è sostanzial-

mente identica a quanto fatto per le variabili discrete: provare per esercizio a

tradurre questa dimostrazione. Allo stesso modo è identica la dimostrazione

della diseguaglianza di Chebishev.

4.3. VARIABILI ALEATORIE GENERALI 81

Passiamo ora al caso delle variabili aleatorie vettoriali X = X , . . . , X

1 n

limitando per semplicità di notazioni l’esposizione al caso delle variabili

aleatorie doppie (X, Y ) (l’estensione al caso n-dimensionale è del tutto im-

mediata).

Per definizione, si chiama variabile aleatoria doppia una applicazione mis-

2 2

F → B(IR

urabile (X, Y ) : Ω, IR , ) . Le componenti X e Y sono due

funzioni definite su Ω a valori reali.

Proposizione 4.3.5. La coppia (X, Y ) è una variabile aleatoria (cioè è mi-

2

surabile come applicazione a valori in IR ) se e solo se entrambe le componenti

X e Y sono variabili aleatorie reali (cioè misurabili come applicazioni a valori

in IR). 2

B(IR

Dimostrazione. Ricordiamo che ) è generata, ad esempio, dai prodotti

− ∞, − ∞,

cartesiani ] x]×] y] : pertanto, se X e Y sono misurabili,

−1 −1 −1

− ∞, − ∞, − ∞, ∩ − ∞,

X, Y ] x]×] y] = X ] x] Y ] y]

F.

è un elemento di Viceversa, supponendo che la coppia (X, Y ) sia misura-

bile, −1 −1

− ∞, − ∞, − ∞,

X ] x] = (X, Y ) ] x]×] +∞[

F.

è un elemento di

La legge di probabilità della coppia (X, Y ) è l’immagine di P mediante

2

B(IR

l’applicazione (X, Y ): è quindi una probabilità su ). Il Teorema 4.3.4

2 →

si estende senza difficoltà al caso vettoriale, in particolare presa ϕ : IR IR

boreliana e limitata, vale la formula ZZ

Z ϕ(x, y) dP (x, y)

ϕ X(ω), Y (ω) dP(ω) = X,Y

2

Ω IR

Nella formula precedente, si è considerata una funzione boreliana e limi-

tata perchè in questo caso sicuramente è integrabile (rispetto ad una misura

di probabilità); un altro caso in cui sicuramente l’integrale esiste è quando ϕ

è boreliana e a valori positivi.

La definizione di indipendenza di due variabili aleatorie X, Y è identica a

quella data a suo tempo per variabili discrete (vedi Definizione 2.5.5) ed in

maniera identica si prova il risultato seguente (vedi Corollario 2.5.10): se X

e Y sono indipendenti e f, g sono due funzioni boreliane, allora anche f X

e g Y sono indipendenti.

Per poter estendere al caso generale i risultati della Proposizione 2.5.8

e del Teorema 2.5.13, dobbiamo però insistere un poco sulla nozione di

probabilità prodotto.

82 CAPITOLO 4. PROBABILITÀ GENERALE

Definizione 4.3.6 (Probabilità prodotto). Siano P e Q due probabilità

B(IR)

su IR, : si chiama probabilità prodotto (e si indica P⊗Q) la probabilità

2 2

B(IR

su IR , ) tale che, presi comunque due sottinsiemi boreliani A e B di

IR, si abbia

⊗ ×

P Q A B = P A).Q B

L’unicità di una tale probabilità è una facile conseguenza del Teorema

×

4.1.3 : infatti i rettangoli misurabili A B (con A, B boreliani) sono una

famiglia di parti stabile per intersezione che genera la σ-algebra prodotto

2

B(IR ). L’esistenza invece è una conseguenza del Teorema 4.1.4 , ed è più

2

A

impegnativa da dimostrare: si considera l’algebra di parti di IR formata

da unioni disgiunte di rettangoli misurabili sulla quale è definita la naturale

estensione della 4.3.6 e si dimostra che è σ-additiva. Non insistiamo su ques-

ta costruzione, cito soltanto il fatto (che ci servirà tra poco) che vale una

estensione del Teorema di Fubini-Tonelli.

2 →

Più precisamente, se ϕ : IR IR è boreliana e limitata (oppure a valori

positivi) vale la formula di integrazione

Z

Z

ZZ ϕ(x, y) dQ(y) dP(x)

ϕ(x, y) dP⊗Q (x, y) =

2 IR IR

IR

Nella parte destra della formula sopra scritta si può scambiare l’ordine di

integrazione, inoltre quando vengono scritte delle integrazioni successive (se

non vi sono parentesi) vengono svolte da destra verso sinistra: scriveremo

cosı̀ più semplicemente

ZZ Z Z

ϕ(x, y) dP⊗Q (x, y) = dP(x) ϕ(x, y) dQ(y)

2

IR IR IR

È immediata l’estensione al caso generale della caratterizzazione provata

nel caso delle variabili discrete con la Proposizione 2.5.8: più precisamente

X e Y sono indipendenti se e solo se P = P P .

X,Y X Y

Ed in modo analogo, si estende facilmente il Teorema 2.5.13:

Teorema 4.3.7. Supponiamo che X ed Y siano indipendenti e dotate di

momento primo: anche XY ha valore atteso e vale la formula

E XY = E X E Y |]

Dimostrazione. Cominciamo ha provare che E[|XY < +∞ utilizzando il

Teorema di Fubini-Tonelli: ZZ

|XY | |xy| ⊗

E = dP P (x, y) =

X Y

2

IR

4.4. VARIABILI ALEATORIE CON DENSITÀ 83

Z Z

|x| |y| |X| |Y |

= dP (x) dP (y) = E E < +∞

X Y

IR IR

Ripetendo gli stessi passaggi senza i valori assoluti, si ottiene la tesi.

4.4 Variabili aleatorie con densità

Definizione 4.4.1. Si dice che la v.a. reale X ha densità f se la sua legge

di probabilià P ha densità f , cioè se per ogni boreliano A vale la formula

X Z

∈ f (x) dx

P X A = P A =

X A x

R

Di conseguenza la funzione di ripartizione è data da F (x) = f (t) dt ed

−∞

è pertanto continua, ma come sappiamo non è vero il viceversa. Per questo

motivo è piuttosto fuorviante la denominazione di variabili aleatorie con-

tinue che alcuni testi danno: bisognerebbe piuttosto dire variabili aleatorie

assolutamente continue.

Se si modifica la densità f su un insieme trascurabile (per la misura di

R

Lebesgue) il valore degli integrali f (x) dx non viene alterato: per questo

A

la densità di probabilità, più che una funzione, è una classe di equivalenza

di funzioni (intendendo per equivalenti due funzioni che differiscono su un

insieme trascurabile).

Proposizione 4.4.2. Sia X una variabile aleatoria reale. Sono equivalenti

le due seguenti affermazioni:

1. X ha densità f ;

2. per ogni funzione reale ϕ boreliana e limitata, vale la formula

Z

E ϕ(X) = ϕ(x) f (x) dx

IR

Dimostrazione. La dimostrazione è del tutto immediata, ma come vedremo

il criterio fornito da questa Proposizione è molto utile.

Da una parte, supponendo che X abbia densità f , utilizzando i Teoremi

4.3.4 e 4.2.15, si ha Z Z

E ϕ(X) = ϕ(x) dP (x) = ϕ(x) f (x) dx

X

IR IR

Viceversa, prendendo A boreliano e considerando ϕ = I , si ha

A

Z Z

∈ ◦

P X A = E I X = I (x)f (x) dx = f (x) dx

A A

IR A

84 CAPITOLO 4. PROBABILITÀ GENERALE

In maniera del tutto analoga viene data la definizione di variabile aleatoria

vettoriale X = (X , . . . , X ) con densità, e l’estensione n-dimensionale della

1 n

Proposizione 4.4.2.

Il risultato che viene ora enunciato è l’analogo per variabili con densità

della Proposizione 2.5.4.

Proposizione 4.4.3. Sia (X, Y ) una variabile doppia con densità f (x, y):

anche le componenti X ed Y ammettono densità f ed f che soddisfano le

1 2

formule +∞

+∞ Z

Z f (x, y)dy f (y) = f (x, y) dx

f (x) = 2

1 −∞ −∞

Dimostrazione. Si utilizza il criterio fornito dalla Proposizione 4.4.2. Sia

ϕ : IR IR boreliana limitata:

ZZ Z hZ i

E ϕ(X) = ϕ(x)f (x, y) dx dy = ϕ(x) f (x, y) dy dx

R

Questo equivale a dire che la funzione x−→ f (x, y) dy è la densità di X.

Osservazione 4.4.4. Viceversa, conoscendo le densità marginali delle com-

ponenti X e Y , non si può ricostruire la densità congiunta, anzi non è nep-

pure detto che la coppia (X, Y ) abbia densità! Per fornire un controesempio,

consideriamo una variabile X con densità e la coppia (X, X) ; provare che

quest’ultima non può avere densità.

Il risultato seguente è l’analogo per variabili con densità della Propo-

sizione 2.5.8.

Proposizione 4.4.5. Sia (X, Y ) una variabile doppia con densità: le vari-

abili X e Y sono indipendenti se e solo se tra le densità vale la seguente

relazione (quasi ovunque) f (x, y) = f (x) f (y)

1 2

Dimostrazione. È un facile esercizio provare che, se P e P hanno densità

1 2

rispettivamente f ed f , la probabilità prodotto P P ha come densità

1 2 1 2

la funzione f (x)f (y) (che è talvolta chiamata il prodotto tensore delle due

1 2

funzioni f ed f ).

1 2

Di conseguenza vale quella relazione tra le densità se e solo se la legge di

probabilità congiunta è il prodotto delle singole leggi.

Vediamo ora l’analogo per variabili con densità della Proposizione 2.5.15.

4.4. VARIABILI ALEATORIE CON DENSITÀ 85

Proposizione 4.4.6 (Formula della convoluzione). Siano X, Y due va-

riabili indipendenti con densità rispettivamente f ed f : la somma (X + Y )

1 2

ha densità g data dalla formula +∞

Z −

f (x y)f (y) dy

g(x) = 1 2

−∞ →

Dimostrazione. Di nuovo si usa la Proposizione 4.4.2. Sia ϕ : IR IR

boreliana limitata

ZZ Z Z

E ϕ(X+Y ) = ϕ(x+y)f (x)f (y)dx dy = f (y)dy ϕ(x+y)f (x)dx =

1 2 2 1

Z Z Z hZ i

− −

= f (y)dy ϕ(t)f (t y)dt = ϕ(t) f (t y)f (y)dy dt

2 1 1 2

Le formule che ora seguono esprimono come si trasforma la densità di una

variabile aleatoria (reale o vettoriale) se si applica ad essa un diffeomorfismo:

ricordiamo che si chiama diffeomorfismo un’applicazione biunivoca tra due

k

aperti A e B di IR , che sia differenziabile con inversa differenziabile.

Proposizione 4.4.7. Sia X una v.a. reale con densità f diversa da 0 su un

⊆ →

aperto A IR e sia h : A B un diffeomorfismo. Consideriamo la variabile

Y = h(X) : essa ha densità g data da

( ∈

0 se y / B

g(y) = −1 dx(y)

d h (y)

−1

= f x(y) se y B

f h (y) d y dy

Dimostrazione. È essenzialmente una conseguenza della formula del cambio

di variabili per gli integrali. Data ϕ boreliana limitata, si ha

Z

E ϕ(Y ) = E ϕ h(X) = ϕ(h(x)) f (x) dx =

A −1

Z d h (y)

−1

= ϕ(y) f h (y) dy

d y

B

Esempio 4.4.8. La densità più semplice che si possa immaginare è la densità

uniforme sull’intervallo [0, 1] cosı̀ definita

1 per 0 < x < 1

f (x) = 0 altrimenti

86 CAPITOLO 4. PROBABILITÀ GENERALE

Sia X con tale densità e sia Y = log(X) : la densità di Y è data da

y

e per y < 0

g(y) = ≥

0 per y 0

La formula per la trasformazione della densità di una v.a. vettoriale X

mediante un diffeomorfismo è anch’essa conseguenza della formula del cambio

di variabili per integrali (questa volta n-dimensionali) ed è del tutto analoga

−1

d h (y)

alla formula 4.4.7: il termine è sostituito col valore assoluto del

d y −1

determinante della matrice Jacobiana della funzione h .

Vediamo come si usa in concreto questa formula, limitandoci per sem-

plicità al caso di una variabile doppia (X, Y ) con densità f diversa da 0

2

sull’aperto A di IR : consideriamo un diffeomorfismo h da A su B e sia

(U, V ) = h(X, Y ). La coppia (U, V ) ha una densità g che si annulla fuori di

B, mentre su B soddisfa la formula ∂x

∂x

∂u ∂v

g(u, v) = f x(u, v), y(u, v) . ∂y ∂y

∂u ∂v

a b

dove con si intende il valore assoluto del determinante della matrice

c d

a b .

c d

Esempio 4.4.9. Sia (X, Y ) avente densità

−(x+y)

2e per 0 < x < y

f (x, y) = 0 altrimenti

−Y

e sia (U, V ) = (X +Y, X ) : vogliamo calcolare la densità di (U, V ) .

Innanzi tutto è facile verificare che la funzione sopra scritta è effettiva-

mente una densità, cioè che si ha

ZZ ZZ −(x+y)

f (x, y) dx dy = 2 e dx dy = 1

2 {0<x<y}

IR

Inoltre è immediato constatare che l’applicazione h(x, y) = (x+y, x−y) è

2

un diffeomorfismo dall’aperto A = (x, y) IR 0 < x < y sull’aperto B =

2

∈ −u

(u, v) IR u > 0 , < v < 0 : l’inversa di h si calcola immediatamente,

u−v

u+v e y = . È immediato anche il calcolo del modulo del

si ha infatti x = 2 2

∂x ∂x 1

∂u ∂v

determinante .

=

∂y ∂y 2

∂u ∂v

4.5. ESEMPI 87

La densità g della coppia (U, V ) risulta pertanto essere

−u

−u

e per u > 0 , < v < 0

g(u, v) = 0 altrove

È sempre prudente verificare che si ha effettivamente, come in questo

caso, ZZ ZZ −u

e du dv = 1

g(u, v) du dv =

2

IR B

4.5 Esempi di variabili aleatorie con densità

4.5.1 Densità uniforme

Si chiama densità uniforme sull’intervallo ]a, b[ una densità che è costante su

quell’intervallo e nulla fuori: si avrà quindi

1

per a < x < b

b−a

f (x) = 0 altrimenti

È un facile esercizio provare che, se X è una v.a. con tale densità, si ha

2

(b−a)

a+b

E[X] = e V ar(X) = .

2 12

4.5.2 Densità Gamma

Premettiamo la definizione della funzione Gamma: questa è definita, per

+∞ −x

R r−1

r > 0, da Γ(r) = x e dx. Questa non si può calcolare esplicitamente,

0

ma è immediato verificare (tramite una integrazione per parti) che, se r > 1,

− −

si ha Γ(r) = r 1 Γ(r 1). Inoltre Γ(1) = 1 e di conseguenza, per n intero,

Γ(n) = (n 1)!

Definizione 4.5.1. Si chiama densità Gamma di parametri r e λ , (r >

0 , λ > 0), (e si indica Γ(r, λ)) la funzione definita da

−λx

1 r r−1

λ x e x> 0

Γ(r)

f (x) = ≤

0 x 0

È un facile calcolo provare che si tratta effettivamente di una densità di

probabilità; quando r = 1, la densità Γ(1, λ) si chiama più semplicemente

esponenziale di parametro λ.

Se X Γ(r, λ) e β > 0, è facile provare che vale la seguente formula

Γ(r + β)

β

=

E X β

Γ(r) λ

88 CAPITOLO 4. PROBABILITÀ GENERALE

e da questa si calcolano facilmente i momenti della variabile X : ad esempio

r .

E[X] = λ ∼ ∼

Proposizione 4.5.2. Se X Γ(r , λ) , Y Γ(r , λ) e sono indipendenti,

1 2

allora (X + Y ) Γ(r + r , λ)

1 2

Dimostrazione. Si utilizza la formula della convoluzione (Proposizione 4.4.6):

per semplificare i conti, limitiamoci al caso in cui X e Y sono esponenziali

di parametro λ. La densità di (X + Y ) si annulla per x 0, e per x > 0 è

eguale a x

Z −λ(x−y) −λy −λx

2 2

λ e e dy = λ x e

g(x) = 0

che è appunto la densità Γ(2, λ).

La densità esponenziale esibisce una sorta di assenza di memoria che è in

un certo senso l’analogo per variabili con densità della proprietà delle variabili

geometriche.

Esercizio 4.5.3. Sia X una variabile con densità esponenziale e siano x, y

positivi: provare che si ha

P X >x + y X >x = P X >y (4.5.1)

Viceversa, sia X una variabile a valori positivi con legge di probabilità diffusa,

e supponiamo che, presi comunque x e y positivi, valga l’eguaglianza (4.5.1):

provare che X ha densità esponenziale.

4.5.3 Densità Gaussiana √

2

+∞ x

R dx = 2π : ne segue che la funzione f (x) =

Abbiamo visto che e 2

−∞

2

x

1 e è una densità di probabilità, detta densità Normale o Gaus-

√ 2

2π 2

x t

1 R

siana N (0, 1) , e la funzione Φ(x) = e dt è la relativa funzione

√ 2

−∞

di ripartizione. ∼

Per una variabile X N (0, 1) si ha E[X] = 0 (non c’è bisogno di fare

2

x

calcoli, poichè la funzione x e è una funzione dispari, e quindi il suo

2

2

integrale su tutto IR è 0). Viceversa V ar X = E X = 1, come si verifica

facilmente integrando per parti: si ha infatti

+∞ +∞

−1

Z Z

1 1

+∞

2 2 2

x x x

− − −

2

√ √ √

x e dx = x e + e dx = 1

2 2 2

2π 2π 2π

−∞

−∞ −∞

Definizione 4.5.4 (Variabile Gaussiana). Si dice che la variabile X ha

X−m

2 ∈

legge gaussiana N (m, σ ) m IR , σ > 0 se ha legge N (0, 1)

σ

4.6. CONVERGENZA DI VARIABILI ALEATORIE 89

Si può pertanto rappresentare X nella forma X = σY + m , con Y

2

N (0, 1) : ne segue immediatamente che E[X] = m , V ar X = σ . Inoltre,

come conseguenza della Proposizione 4.4.7, la densità di Y è la funzione g

definita da 1 (y−m)2

g(y) = e 2

2π σ

2 2

∼ ∼

Proposizione 4.5.5. Se X N m , σ , Y N m , σ e sono indipen-

1 2

1 2

2

2

∼ .

+ σ

denti, allora (X + Y ) N m + m , σ

1 2 2

1

Dimostrazione. Ci si può ridurre al caso in cui m = m = 0 , e, per sempli-

1 2

cità di conti, limitiamoci al caso in cui σ = σ = 1 . Applicando la formula

1 2

della convoluzione, la densità g di (X + Y ) è data da √

+∞ +∞ 2

Z Z

1 1

2 12 x

1 2 2 x − 2y−

− √

y +(x−y) −

g(x) = e e

dy = e dy

2 2

4

2π 2π

−∞ −∞

√ x

Facendo il cambio di variabile 2y = t , l’integrale sopra scritto

√ 2

risulta eguale a 2

x +∞

− Z

e 1 1

1 2 2

4 t x

− −

√ √ √

e dt = e

2 4

2π 2 2π 2

−∞

cioè (X + Y ) N (0, 2). 1 1

2

∼ ∼ , .

Esercizio 4.5.6. Se X N (0, 1), allora X Γ 2 2

4.6 Due parole sulla convergenza di variabili

aleatorie

Uno studio accurato della convergenza di variabili aleatorie sarà oggetto di

un corso più avanzato; qui ci limitiamo a qualche elemento utile per i teoremi

limite che sono impiegati nell’inferenza statistica.

Ricordiamo la definizione di convergenza in probabilità:

Definizione 4.6.1 (Convergenza in probabilità). Si dice che la succes-

sione di variabili aleatorie X converge in probabilità alla v.a. X se,

n n≥1

per ogni ε > 0 , si ha −

lim P X X > ε = 0

n

n→∞

90 CAPITOLO 4. PROBABILITÀ GENERALE

La convergenza in probabilità ad una costante c è un caso particolare di

quella definizione, poichè le costanti possono essere viste come delle variabili

aleatorie. Notiamo ancora che nella definizione 4.6.1 imporre “> ε” oppure

“≥ ε” porta allo stesso risultato, in quanto ε

|X ⊆ |X ≥ ⊆ |X

ω (ω)−X(ω)| > ε ω (ω)−X(ω)| ε ω (ω)−X(ω)| >

n n n 2

e di conseguenza ε

|X − ≤ |X − ≥ ≤ |X −

P X| > ε P X| ε P X| >

n n n 2

Vediamo la seguente leggera generalizzazione del Teorema 2.7.1:

Teorema 4.6.2 (Legge dei grandi numeri). Sia X , X , . . . una succes-

1 2

sione di variabili aleatorie dotate di momento secondo, incorrelate, e sup-

poniamo che E[X ] = m per ogni i (cioè hanno tutte lo stesso valore atteso)

i ≤

e che esista una costante K tale che si abbia V ar(X ) K qualunque sia i

i · · ·

(cioè le varianze sono equilimitate). Allora, posto S = X + + X , la

n 1 n

S converge in probabilità ad m .

successione n

n n≥1

Dimostrazione. È sempre una conseguenza della diseguaglianza di Chebi-

S

S 1

· · ·

= m e che V ar =

shev, osservando che E V ar(X ) + +

n

n 1

2

n n n

Kn

≤ .

V ar(X )

n S

Soprattutto in statistica, è usuale indicare X = (la media empirica

n

n n

delle variabili X , . . . , X ).

1 n

A volte sono comodi i criteri seguenti, che vengono enunciati come eser-

cizio:

Esercizio 4.6.3. Sia (X ) una successione di variabili aleatorie dotate di

n n≥1

momento secondo e supponiamo che

X = c lim V ar X = 0

lim E n n

n→∞

n→∞

Provare che la successione converge in probabilità a c ; provare con un con-

troesempio che il criterio è soltanto sufficiente.

Esercizio 4.6.4. Sia X una successione di variabili aleatorie e siano

n n≥

F (.) le relative funzioni di ripartizione. Sono equivalenti le affermazioni

n

seguenti:

• (X ) converge in probabilità a c ;

n n≥1

4.6. CONVERGENZA DI VARIABILI ALEATORIE 91

• per x < c , lim F (x) = 0 , e per x > c , lim F (x) = 1 .

n→∞ n n→∞ n

Tra le varie proprietà della convergenza in probabilità ci limitiamo alla

seguente, che sarà utilizzata più avanti:

Proposizione 4.6.5. Sia X una successione convergente in probabilità

n n≥1

a c e sia g una funzione boreliana continua nel punto c : allora Y = g(X )

n n

converge in probabilità a g(c). |x − ≤ ⇒ |g(x) −

Dimostrazione. Dato ε > 0 , esiste δ > 0 tale che: c| δ

g(c)| ε .

Di conseguenza vale la seguente inclusione di insiemi

n o n o

− ⊆ −

g(X ) g(c) > ε X c > δ

n n

Un altro tipo di convergenza era stato incontrato nel Teorema limite di

DeMoivre-Laplace: diamo una definizione precisa.

Definizione 4.6.6 (Convergenza in legge). Si dice che la successione di

v.a. X converge in legge (o anche in distribuzione) alla v.a. X se per

n n≥1

ogni f : IR IR continua e limitata, si ha

lim E f X = E f X

n

n→∞

Proposizione 4.6.7. Siano X e X variabili aleatorie, F ed F le relative

n n

funzioni di ripartizione; supponiamo inoltre che F sia continua (cioè la legge

di X sia diffusa). Allora sono equivalenti le seguenti affermazioni:

a) la successione (X ) converge a X in legge;

n n≥1

b) per ogni x IR , si ha lim F (x) = F (x) .

n→∞ n ∈

Dimostrazione. Supponiamo che sia verificato a): scegliamo x IR , δ > 0

e consideriamo una funzione continua f tale che f (t) = 1 per t x, f (t) =

0 per t (x + δ), e decrescente tra x e x + δ. Per ogni n , valgono le

diseguaglianze Z

≤ ≤

F (x) f (t) dF (t) = E f X F (x + δ)

n n n n

R

(la notazione g(t) dF (t) indica l’integrale di g rispetto alla probabilità as-

sociata alla funzione di ripartizione F ) e le stesse diseguaglianze valgono per

la variabile limite . Si ha pertanto

Z Z

≥ ≥

F (x + δ) f (t)dF (t) = lim f (t)dF (t) lim sup F (x)

n n

n→∞ n→∞

92 CAPITOLO 4. PROBABILITÀ GENERALE

− ≤

In modo analogo si prova la diseguaglianza F (x δ) lim inf F (x) , e

n→∞ n

per la continuità di F si può concludere che lim F (x) = F (x) .

n→∞ n

Supponiamo viceversa che sia soddisfatto b) , e consideriamo una funzione

continua f uniformemente limitata in modulo dalla costante 1 (ci si può

ridurre a questo caso). ≤ ≥ −

Dato ε > 0 , esiste M > 0 tale che si abbia F (−M ) ε e F (M ) 1 ε ;

≥ ≤ −2ε

esite di conseguenza n tale che, per n n , si abbia F (−M ) e

1 1 n

≥ −

F (M ) 1 2ε.

n Consideriamo poi una funzione ϕ costante a tratti (più precisamente della

n

P −

forma ϕ(x) = a I (x)) che sia nulla fuori di ] M, M ] e che su

i ]x ,x ]

i=1 i i+1

quell’intervallo differisca da f per meno di ε .

R R

È evidente che si ha lim ϕ dF = ϕ dF , e dunque esiste n tale

n→∞ n 2

R R

≥ ϕ dF ϕ dF < ε .

che, per n n , si abbia n

2 ≥

n = max(n , n ) e consideriamo n n . Valgono le seguenti

Sia ora 1 2

diseguaglianze Z

Z

Z

Z |f | ≤

|f −

|f |

− ≤ dF

ϕ| dF +

dF +

f ϕ dF ]M,+∞[

]−M,M ]

]−∞,−M ]

≤ − ≤

F (−M ) + ε + 1 F (M ) 3ε

R |f − ≤

In modo analogo si prova che si ha ϕ| dF 5ε .

n

Si ottengono allora le disuguaglianze:

Z Z Z Z Z Z

− ≤ |f −ϕ| − |f −ϕ|dF ≤

f dF f dF dF + ϕ dF ϕ dF + 9ε

n n n

Poichè questo si verifica per ogni ε > 0 , si ottiene cosı̀ il risultato.

Alla luce del risultato precedente, il Teorema 2.7.5 (teorema Limite Cen-

trale per variabili Binomiali) può essere visto come un risultato di convergen-

za in Legge. In verità quel risultato è valido in ipotesi molto più generali, e la

dimostrazione è lasciata ad un corso più avanzato: tuttavia è comodo poter

utilizzare subito questo risultato generale. Quello che viene qui enunciato,

senza dimostrazione, è il Teorema Limite Centrale di Paul Lévy:

Teorema 4.6.8. Sia X , X , . . . una successione di variabili indipendenti

1 2 2

equidistribuite, dotate di momento primo µ e di varianza σ (diversa da 0):

· · ·

posto S = X + + X : la successione

n 1 n √

− −

S nµ X µ

n n

√ = n σ

converge in legge alla variabile gaussiana N (0, 1) .

4.7. APPENDICE 93

Osservazione 4.6.9. Abbiamo visto come si possono costruire n v.a.

X , . . . , X indipendenti con leggi assegnate P , . . . , P , ma nei precedenti

1 n 1 n

teoremi limite intervengono successioni di variabili aleatorie: in realtà si

può costruire una sorta di prodotto infinito di probabilità, ma questo sarà

l’oggetto di un corso più avanzato. Tuttavia questa costruzione non è ne-

cessaria per dare un senso sia alla legge dei Grandi Numeri che al teorema

Limite Centrale. È sufficiente infatti costruire per ogni n, eventualmente su

diversi spazi Ω , le variabili X , . . . , X : questo permette di dare un senso a

n 1 n −nµ

S

S

n

n ≤ ≤

− n

a b , e solo queste

m > ε oppure P

quantità come P n √

n σ n

intervengono negli enunciati dei teoremi limite sopra riportati.

4.7 Appendice

4.7.1 Alcune leggi di probabilità di rilevante interesse

in Statistica

Prima di illustrare alcune leggi di probabilità di rilevante interesse nell’in-

ferenza statistica, introduciamo la definizione di quantile: data una funzione

di ripartizione F ed un numero 0 < α < 1, intuitivamente lo α-quantile è

il numero r tale che F (r ) = α (quindi, per una variabile aleatoria X con

α α ≤

funzione di ripartizione F , si ha P X r = α).

α

Notiamo che abbiamo già incontrato, alla fine del Capitolo 3, l’α-quantile

della legge N (0, 1) , cioè il numero q tale che Φ(q ) = α.

α α

La definizione sopra enunciata non presenta difficoltà se l’applicazione

F è biunivoca da un intervallo I IR su ]0, 1[ , ma in generale si possono

presentare due difficoltà. Può darsi che F abbia una discontinuità intorno al

valore α, in modo che non esista alcun numero r con la proprietà richiesta;

α

e può darsi che sia costante su un intervallo in modo che esista tutto un

intervallo di numeri r tali che F (r) = α . La definizione deve allora essere

modificata in questo modo:

Definizione 4.7.1 (Quantile). Data una funzione di ripartizione F ed un

numero 0 < α < 1 , si chiama α-quantile di F il numero cosı̀ definito

r = inf x IR F (x) > α .

α

Le leggi di probabilità che vengono ora esposte, sono state introdotte per

l’applicazione a problemi di inferenza statistica.

Definizione 4.7.2 (Legge chi-quadro). Si chiama legge chi-quadro a n

1

n

2 , .

gradi di libertà (e si indica χ (n)) la legge Γ 2 2

94 CAPITOLO 4. PROBABILITÀ GENERALE

Il motivo per cui è stato dato un nome particolare a questa legge Gamma

è il seguente: se (X , . . . , X ) sono indipendenti gaussiane N (0, 1) , allora

1 n

2

2

2 · · · ha legge χ (n) (la prova di questo fatto è una conseguenza

+ + X

X n

1

immediata dell’Esercizio 4.5.6 e della Proposizione 4.5.2).

Per agevolare i conti con questa particolare legge di probabilità, sono state

predisposte le tavole della legge Chi-quadro: più precisamente, in funzione

2(α,

dei gradi di libertà n e del numero α, queste tavole assegnano il valore χ n)

2 2

dello α–quantile delal legge χ (n) (cioè, per una variabile X con densità χ (n)

2

si ha P X χ = α ).

(α, n) 2

∼ ∼

Definizione 4.7.3 (Legge di Student). Siano X N (0, 1) , Y χ (n)

indipendenti: si chiama legge di Student a n gradi di libertà (e si indica T (n))

la legge di √ nX

√ Y

Prima di calcolare effettivamente la densità, osserviamo che se T è una

−T

variabile di Student, ha legge simmetrica (cioè T e sono equidistribuite):

infatti una variabile con densità è simmetrica se e solo se la sua densità è

√ n X

una funzione pari. Di conseguenza, poichè X N (0, 1) è simmetrica, √ Y

− nX

e sono equidistribuite.

√ Y

Il calcolo della densità (in verità piuttosto tedioso) è una conseguenza

della Proposizione 4.4.2 : siano f la densità di X ed f la densità di Y , e sia

1 2

ϕ boreliana limitata. Applicando il teorema di Fubini-Tonelli ed il cambio di

variabili, si ha √

√ i

h

nX n x

RR

E ϕ = ϕ f (x)f (y) dx dy

√ √ 1 2

{−∞<x<+∞ y

, y>0}

Y √

+∞ +∞ n x

R R

= f (y) dy ϕ f (x) dx

√ 1

2 −∞ y

0 √ √

+∞ +∞ t y y

R R ϕ(t)f

f (y) dy

= dt

√ √

2 1

0 n n

√ √

hR i

+∞

+∞ t y y

R

= ϕ(t) f f (y) dy dt

√ √

1 2

−∞ 0 n n

√ nX

e ne segue che la densità di è la funzione

√ Y √ √

+∞ t y y

Z

√ √

g(t) = f f (y) dy

1 2

n n

0

Inserendo al posto di f ed f i valori delle densità, e portando avanti conti

1 2

faticosi anche se non difficili, si prova che la densità g è data da g(x) =

n+1

2

x

c 1 + dove c è una opportuna costante.

2

n n

n

4.7. APPENDICE 95

Per poter fare dei conti effettivi, sono state predisposte le tavole della

legge di Student: in funzione dei gradi di libertà n e di α, riportano il valore

t dello α–quantile della legge τ (n)).

(α, n)

Poiché T ha una legge simmetrica (cioè la sua densità è una funzione pari)

−t

si constata facilmente che vale l’eguaglianza t = ; ne segue che

(α n) (1−α ,n)

|T |

se serve individuare un numero t tale che si abbia P > t = α , questo

.

numero è dato da t = t α ,n)

(1− 2

Definizione 4.7.4 (Legge di Fisher). Siano C e C due variabili indipen-

n m

2 2

denti con legge rispettivamente χ (n) e χ (m) : si chiama legge di Fisher F

n,m

la legge di C /n

n

C /m

m

Il calcolo della densità di tale variabile può essere condotto con passaggi

analoghi a quelli appena fatti: la densità risultante è evidentemente nulla

n −1

x 2

sulla semiretta negativa, e per x positivo vale c(n, m) .

n+m

(m+nx) 2

Anche per la legge di Fisher sono state compilate opportune tavole che

danno, per alcuni valori di α, lo α-quantile della legge F .

n,m

Concludiamo osservando che l’uso delle tavole statistiche, nella pratica, è

ora superato dall’uso di software statistici.

4.7.2 La misura di Cantor

L’insieme C di Cantor può essere definito come l’insieme dei numeri dell’in-

tervallo [0, 1] che possono essere scritti, in base 3, utilizzando le sole cifre 0 e

2. Ricordiamo che ogni numero di quell’intervallo può essere scritto, in base

+∞ a

P . La

3, nella notazione 0, a a a . . . intendendo con questa notazione n

1 2 3 n

n=1 3

notazione è unica con una eccezione: ad esempio il numero 1/3 si può scri-

ma anche 0, 0222 . . . = 0, 02 . In questo caso scegliamo

vere 0, 100 . . . = 0, 10

la seconda notazione (e quindi 1/3 si può scrivere con le sole cifre 0 e 2 e

pertanto appartiene a C).

L’insieme C si può costruire in questo modo: dall’intervallo [0, 1] co-

minciamo a togliere l’insieme A dei numeri che hanno 1 come prima cifra

1 13 23

decimale, cioè l’intervallo aperto ] , [. Poi togliamo l’insieme A dei numeri

2

che non stanno in A e che hanno 1 come seconda cifra decimale (l’unione

1 1 2 7 8

dei due intervalli aperti ] , [ e ] , [ ) e cosı̀ via ... Ogni insieme A è

n

2 2 2 2

3 3 3 3 −n

n−1

formato da 2 intervalli aperti di lunghezza 3 e quindi l’unione di questi

insiemi (A ) (che sono disgiunti) ha misura (secondo Lebesgue) eguale a

n n≥1

+∞ −n

n−1

P 2 3 = 1.

n=1 96 CAPITOLO 4. PROBABILITÀ GENERALE

Di conseguenza l’insieme C di Cantor (che è il complementare in [0, 1]

dell’unione di questi intervalli) è un insieme chiuso che ha misura 0 (cioè è

trascurabile) secondo Lebesgue. Viceversa la cardinalità di C coincide con

quella dell’intervallo [0, 1] (e quindi con quella di IR) : infatti C può essere

IN

{0,

rappresentato come 2} (cioè le successioni di cifre 0 e 2) , e la sua

IN

{0,

cordinalità coincide ovviamente con quella di 1} ed ogni numero tra 0

e 1 può essere rappresentato (in base 2) come successione infinita di cifre 0 e

1. Costruiamo ora la funzione di ripartizione F della misura di Cantor (che

è una probabilità) mediante limite di una successione (F ) di funzioni di

≥1

n

ripartizione continue approssimanti (infatti F non può essere scritta con una

espressione esplicita): ognuna delle (F ) (e quindi anche il limite) vale 0 per

n n

≤ ≥

x 0 e vale 1 per x 1.

Poi F è costante sull’insieme A e lineare a tratti nel complementare:

1 1

13 2 13 23

1 nei punti e ed è lineare tra 0 e e tra e 1.

più precisamente vale 2 3

Invece F coincide con F su A , è costante si ognuno degli intervalli che

2 1 1

compongono A e si raccorda negli altri punti in modo lineare a tratti: vale

2

1 1 2 3 7 8

nei punti e , vale nei punti e e cosı̀ di seguito ...

2 2 2 2 2 2

2 3 3 2 3 3 − ≤

È facile constatare che, dato n < m, si ha, per ogni x, F (x) F (x)

n m

−n

2 : di conseguenza la successione F è di Cauchy per la convergenza uni-

n

forme e pertanto converge uniformemente ad una funzione F che è crescente

≤ ≥

continua, vale 0 per x 0 e 1 per x 1 , ed è costante su ognuno degli

S

intervalli che compongono A . Pertanto la probabilità m associata ad

n

n≥1

F (la misura di Cantor) è una probabilità diffusa, concentrata sull’insieme

C (nel senso che il complementare di C è trascurabile per m ).

Se m avesse una densità f , si dovrebbe avere

Z

1 = m C = f (x) dx

C

ma questo è impossibile poichè l’integrale (secondo Lebesgue) di qualsiasi

funzione sull’insieme trascurabile C è 0.

È interessante sapere che ogni probabilità P sulla retta IR si può scrivere

nella forma P = m + m + m dove queste ultime sono sottoprobabilità (si

1 2 3

ha infatti m (IR) + m (IR) + m (IR) = 1 ) e sono tali che:

1 2 3

1) m è una misura discreta;

1

2) m è definita da una densità f ;

2

3) m è una misura diffusa concentrata su un insieme trascurabile secondo

3

Lebesgue.

4.8. ESERCIZI 97

La costruzione si può fare in questo modo: si prende la funzione di ripar-

tizione F associata a P e si considera l’insieme D (al più numerabile, even-

tualmente vuoto) dei punti di discontinuità di F . La misura m è concentrata

1

nei punti di D e ad ogni punto x D è tale che m ({x}) = ∆F (x).

1

Si può dimostrare che la funzione F è derivabile quasi ovunque (secondo

Lebesgue) e la sua derivata f risulta essere una funzione misurabile a valori

positivi (e il suo integrale su IR è 1) : la misura m è associata alla densità

2

f . − −

La misura m si ottiene come differenza P m m (cioè, per ogni

3 1 2

∈ B(IR) − −

A , m (A) = P(A) m (A) m (A) ), e si prova che m è diffusa

3 1 2 3

e concentrata su un insieme trascurabile secondo Lebesgue.

4.8 Esercizi

Esercizio 4.8.1. Sia X una v.a. con densità a valori positivi: provare che

vale la formula +∞

Z

E[X] = P X > x dx

0

Esercizio 4.8.2. Dire se le seguenti funzioni possono essere funzioni di ri-

partizione, ed in tal caso se la probabilità associata è definita da una densità.

Specificare inoltre se una v.a. che abbia quella legge di probabilità ammette

valore atteso. 1

1 + arctg x

F (x) = 2 π

0 x< 0

G(x) = 1

− ≥

1 x 0

2(1+x)

0 x< 0

H(x) = −2x

− ≥

2 2e x 0

 0 x< 0

 2

− − ≤

1 (x 1) 0 x < 1

K(x) = ≥

1 x 1

Esercizio 4.8.3. Supponiamo che la densità congiunta di una variabile

doppia (X, Y ) si possa scrivere nella forma f (x, y) = h(x).k(y), dove h e

k sono due funzioni boreliane positive: provare che X e Y sono indipendenti.

Chi sono rispettivamente le densità di X e di Y ?

98 CAPITOLO 4. PROBABILITÀ GENERALE

Esercizio 4.8.4. Siano X e Y due variabili indipendenti con densità espo-

X .

nenziale di parametro 1, e siano U = X + Y e V = X+Y

a) Calcolare la densità congiunta di U, V .

b) U e V sono indipendenti?

c) Verificare che vale l’eguaglianza

E[X]

X =

E X + Y E[X] + E[Y ]

Esercizio 4.8.5. Sia (X, Y ) una variabile doppia avente densità

−x

≥ ≥

e per x y 0

f (x, y) = 0 altrimenti

e sia Z = X Y .

a) Qual è la densità di Z ? Si tratta di una densità nota ?

b) Le variabili Y e Z sono indipendenti ?

Esercizio 4.8.6. Sia (X, Y ) una variabile doppia uniformemente distribuita

2 2

{(x, | ≤

sul cerchio unitario y) x + y 1} .

a) Calcolare le densità marginali di X e di Y . Le componenti sono

indipendenti?

b) Calcolare le densità del modulo e dell’argomento; più precisamente le

√ Y

2 2

X + Y e T = arctg .

densità delle variabili aleatorie R = X

Esercizio 4.8.7. Sia (X, Y ) una variabile aleatoria doppia con densità con-

giunta −(x+y)

x e se x > 0 e y > 0

f (x, y) = 0 altrimenti

a) X e Y sono indipendenti ? Y

b) Calcolare (se esiste) il valore atteso di .

X

c) Calcolare la densità della variabile X + Y .

d) Calcolare la densità della variabile U = min (X, Y ) .

Esercizio 4.8.8. Consideriamo una variabile aleatoria doppia (X, Y ) avente

come densità la funzione 2

10 x y se 0 < y < x < 1

f (x, y) = 0 altrimenti

a) Le componenti X e Y sono indipendenti?

X

b) Poniamo U = X e V = : calcolare la densità del vettore (U, V ) .

Y

c) Le variabili U e V sono indipendenti?

12

d) Calcolare P X > 2Y Y < .

4.8. ESERCIZI 99

Esercizio 4.8.9. Sia (X ) una successione di variabili aleatorie indipen-

n n≥1

denti uniformemente distribuite sull’intervallo [0, 1] e siano rispettivamente

M = max(X , . . . , X ) e V = min(X , . . . , X ).

n 1 n n 1 n

a) Calcolare le densità di M e V .

n n

b) Indagare sulla convergenza in probabilità delle due successioni (M )

n n≥1

e (V ) .

n n≥1

100 CAPITOLO 4. PROBABILITÀ GENERALE

Capitolo 5

Inferenza statistica su uno

spazio di Probabilità generale

5.1 Modelli statistici generali

Ricordiamo la definizione di Modello Statistico, che è già stata data quan-

do abbiamo esaminato l’inferenza statistica su uno spazio di Probabilità

numerabile (vedi Definizione 3.1.1):

Definizione 5.1.1 (Modello Statistico). Si chiama modello statistico una

θ

F, ∈ F

terna Ω, P , θ Θ dove Ω è un insieme, una σ-algebra di parti di

θ

∈ F

Ω e, per ogni θ Θ , P è una probabilità su Ω, .

Ora abbiamo gli strumenti matematici per indagare il caso in cui Ω è uno

spazio qualsiasi, tuttavia per evitare eccessive generalizzazioni e poter fare

conti concreti, d’ora innanzi ci mettiamo in queste ipotesi:

Ipotesi 5.1.2 (Modello con densità). Supponiamo che il modello statistico

soddisfi le seguenti condizioni: n

a) Ω è uno spazio euclideo IR (o un sottinsieme misurabile di uno spazio

euclideo);

F

b) è la σ-algebra di Borel su Ω ;

θ

c) le probabilità P ammettono densità rispetto alla misura di Lebesgue

n-dimensionale λ . B(A)

Osservazione 5.1.3. La σ-algebra di Borel su un sottinsieme misura-

n n

⊆ B(IR

bile A IR è formata dalle intersezioni degli elementi di ) con A , o

(equivalentemente) è generata dagli aperti di A.

101

102 CAPITOLO 5. STATISTICA SU UNO SPAZIO GENERALE

Definizione 5.1.4 (Verosimiglianza). Si chiama verosimiglianza una fun-

+

× →

zione L : Θ Ω IR tale che, fissato θ , L(θ, .) sia una versione della

θ

densità di P (rispetto alla misura di Lebesgue λ). θ

Conoscere la verosimiglianza equivale a conoscere ogni probabilità P , in

R R

θ

∈ F

quanto si ha per ogni A , P A = .. L θ ; x , . . . , x dx . . . dx .

1 n 1 n

A

Osservazione 5.1.5. Nel caso in cui Ω è uno spazio numerabile, avevamo

θ

dato un’altra definizione (vedi 3.1.2): più precisamente L(θ, ω) = P ({ω}) ,

e quindi apparentemente c’è una incongruenza tra queste due definizioni. In

realtà non è cosı̀ : entrambe sono casi particolari di densità.

E),

Date due misure m e m su (E, si dice che m è definita dalla densità

1 2 2 ∈ E,

f rispetto a m se f è misurabile positiva e si ha, per ogni A

1 Z

m (A) = f (e) dm (e)

2 1

A

Se si considera su un insieme numerabile Ω la misura m che conta i punti

(cioè m(A) = #A se A è in insieme finito, m(A) = +∞ se A è infinito), è

θ θ

facile verificare che la funzione ω P ({ω}) è la densità di P rispetto a m.

Un esempio frequente è il seguente:

Definizione 5.1.6 (Campione). Sia f (θ, .) , θ Θ una famiglia parametriz-

zata di densità di probabilità su IR: si chiama campione di taglia n e densità

f (θ, .) una famiglia di variabili aleatorie indipendenti, equidistribuite, aventi

θ

densità f (θ, .) (sotto P ). n

La costruzione canonica di un campione è la seguente: si prende Ω = IR

e si considera come verosimiglianza la funzione

n

Y

L θ ; x , . . . , x = f (θ, x )

1 n i

i=1

Si definiscono inoltre come variabili X le proiezioni canoniche di indice i: è

i θ

immediato verificare che ponendo su Ω la probabilità P definita dalla densità

L(θ, .) queste variabili risultano indipendenti ciascuna con densità f (θ, .).

I ⊆

Se ogni densità f (θ, .) si annulla fuori di un intervallo IR, conviene

n

n

I

considerare come spazio Ω = anzichè IR .

Le definizioni di stima (e quindi stima corretta, rischio, . . . ), regione di

fiducia e test (e quindi livello, potenza,. . . ), che sono state date nel caso di

uno spazio Ω numerabile, si estendono senza modifiche nel caso considerato

in questo e nel successivo capitolo, e quindi non verranno ripetute.

Ricordiamo qui solo le proprietà che differiscono dal caso considerato in

precedenza, e cominciamo col richiamare la nozione di riassunto esaustivo.

5.2. STIME DI MASSIMA VEROSIMIGLIANZA 103

Definizione 5.1.7 (Riassunto esaustivo). Una variabile aleatoria T : Ω

E è detta un riassunto esaustivo se si può scrivere la verosimiglianza nella

forma

L θ ; x , . . . , x = h θ , T (x , . . . , x ) k(x , . . . , x )

1 n 1 n 1 n

Il Teorema 3.3.3 ha un analogo nel risultato seguente:

Teorema 5.1.8. Sia T un riassunto esaustivo e U una stima di g(θ) : esiste

una stima V della forma V (x , . . . , x ) = f T (x , . . . , x ) preferibile a U,

1 n 1 n

inoltre V è strettamente preferibile a meno che U non sia già nella forma

f T . Infine, se U è corretta, anche V è corretta.

Non riportiamo però la dimostrazione che questa volta è più complicata; è

interessante sapere che entrambe le dimostrazioni (del caso discreto e del caso

con densità) sono casi particolari di una più generale che richiede nozioni più

avanzate di quelle che sono introdotte in questo corso (la nozione di speranza

condizionale).

5.2 Un risultato sulle stime di massima vero-

simiglianza

Richiamiamo la definizione di stima di massima verosimiglianza, che è già

stata data nella Definizione 3.2.6:

Definizione 5.2.1 (Stima di massima verosimiglianza). Sia assegnato

un modello statistico tale che Θ IR : si dice che U è una stima di massima

verosimiglianza se, per quasi ogni (x , . . . , x ) Ω, si ha

1 n

L U (x , . . . , x ) ; x , . . . , x = max L θ ; x , . . . , x

1 n 1 n 1 n

θ∈Θ

Ricordiamo che usualmente si indica θ la stima di massima verosimiglian-

b

za (se esiste). Vale l’analogo del Teorema 3.2.7, e questa volta ne forniamo

una dimostrazione completa.

Teorema 5.2.2. Supponiamo che Θ sia un intervallo di IR e sia assegnata

una famiglia di densità f (θ, x) , θ Θ che si possano scrivere nella forma

f (θ, x) = c(θ) . exp θ T (x) . g(x)

con una opportuna applicazione T : IR IR. Consideriamo un campione

infinito X , X , . . . con densità f (θ, .) e supponiamo che esista, per ogni n, la

1 2

stima di massima verosimiglianza θ relativa al campione di taglia n: allora

n

b

la successione di stime θ è consistente.

n

b n≥1

104 CAPITOLO 5. STATISTICA SU UNO SPAZIO GENERALE

Ricordiamo che quando le densità verificano la condizione del Teorema

5.2.2, si dice che si ha un modello esponenziale: la definizione può essere

k

estesa al caso a dimensione maggiore di 1, supponendo Θ IR e che esista

k

una applicazione (boreliana) T : IR IR in modo che si abbia

hθ,

f (θ, x) = c(θ). exp T (x)i .g(x)

k

h.,

dove .i è il prodotto scalare in IR . Con questa definizione più generale il

Teorema 5.2.2 rimane vero ed il principio della dimostrazione non cambia, è

solo un poco più complicato.

Vediamo ora la dimostrazione del Teorema 5.2.2.

R

Dimostrazione. Poichè si deve avere f (θ, x) dx = 1, ne segue che

−1

Z

c(θ) = ψ(θ)

exp θ T (x) g(x) dx = exp 0

R θ T (x)

e g(x) dx . Per calcolare ψ (θ) si può derivare

essendo ψ(θ) = log

sotto il segno di integrale, e si ottiene

R θ T (x)

T (x) e g(x) dx h i

0 θ

= E T X

ψ (θ) = i

R θ T (x)

e g(x) dx

Con conti analoghi, facili ma un poco più lunghi, si prova l’eguaglianza

00

θ θ

ψ (θ) = V ar T (X ) ; poichè necessariamente V ar T (X ) è strettamente

i i

positiva (vedi l’osservazione al termine della dimostrazione) ne segue che la

0

funzione ψ (θ) è strettamente crescente e quindi invertibile.

La verosimiglianza del campione n-simo assume la forma

Y

X

L θ ; x , . . . , x = exp θ T (x ) n ψ(θ) g(x )

n 1 n i i

i≤n i≤n

e per cercare il punto θ che rende massima questa espressione è sufficiente cer-

P

care il punto di massimo della funzione θ−→ θ T (x )−n ψ(θ) . Questo

i

i≤n

si può fare risolvendo l’equazione (detta equazione di massima verosimiglian-

za)

P T X i

i≤n

0

ψ θ = n

θ= θ

n

b

e di conseguenza la stima di massima verosimiglianza (che per ipotesi esiste)

P

−1 T (X )

i

0 i≤n

è data dall’espressione θ = ψ .

n

b n

θ

Fissiamo una probabilità P : per la Legge dei Grandi Numeri (Teorema

T X

i

θ

P

4.6.2) la successione converge in probabilità a E T (X ) =

1

i≤n n

5.3. RITORNO AL LEMMA DI NEYMAN-PEARSON 105

−1

0

0

θ e quindi (poichè ψ è una funzione continua) per la Proposizione

ψ −1

0 0

4.6.5, θ converge in probabilità a ψ ψ (θ) = θ.

n

b

Osservazione 5.2.3. Vediamo perchè (come è stato affermato nel corso del-

θ T (X ) > 0 : ricordo che solo le

la dimostrazione) necessariamente V ar i

costanti hanno varianza 0, e se T (x) fosse costante (quasi ovunque) la den-

sità f (θ, x) sarebbe proporzionale alla funzione g(x) e in definitiva queste

densità sarebbero tutte eguali tra loro e questo contraddice l’ipotesi che a

θ

θ di-

e P

due parametri θ e θ diversi corrispondono due probabilità P 2

1

1 2

θ T (X ) = 0 per ogni

verse. Appare chiaro quindi che non si può avere V ar i

parametro θ, ma si potrebbe obiettare che potrebbe essere eguale a 0 magari

per un solo θ Θ .

In realtà non è cosı̀ : la variabile T (X ) o è una costante per ogni pro-

i 00

θ

babilità P o non lo è per nessuna (e quindi ψ (θ) o è sempre 0 oppure è

sempre strettamente positivo). Infatti le probabilità definite dalle densità

f (θ, x) ammettono gli stessi insiemi trascurabili (nel linguaggio della teoria

della misura sono equivalenti ), e ricordiamo che la densità f (θ, x) è la densità

θ

della variabile X sotto P . Ricordando che una funzione a valori positivi

i

ha integrale 0 se e solo se è nulla fuori di un insieme trascurabile, e poichè

exp θ T (x) è sempre strettamente positivo, un boreliano A è trascurabile

per la densità f (θ, x) se e solo se g(x) è nulla quasi ovunque sull’insieme A

(rispetto alla misura di Lebesgue): questa condizione dunque non dipende

dal parametro θ .

Osservazione 5.2.4. Nel Teorema precedente, abbiamo messo per ipotesi

che esista la stima di massima verosimiglianza θ : infatti siamo tentati di

n

b

P

T X

−1 i

0 i≤n , ma senza quella ipotesi non

scrivere direttamente θ = ψ

n

b n ∈

possiamo farlo perchè non siamo sicuri che, per ogni ω = (x , . . . , x )

1 n

P

T X (ω)

i 0

i≤n

Ω , Θ .

sia un elemento di ψ

n

5.3 Ritorno al Lemma di Neyman-Pearson

Il Lemma 3.5.4 (che abbiamo illustrato nel Capitolo 3 relativamente al caso

dei modelli discreti) ammette una versione praticamente identica nel caso di

modelli con densità:

Lemma 5.3.1 (Lemma di Neyman-Pearson). Supponiamo assegnato un

modello statistico nel quale l’insieme Θ dei parametri è ridotto a due punti

H H

(Θ = θ , θ ) e sia dato il test dell’ipotesi θ = θ contro θ = θ .

0 1 0 0 1 1

106 CAPITOLO 5. STATISTICA SU UNO SPAZIO GENERALE

Consideriamo l’insieme D cosı̀ definito

∈ ≤

D = (x , . . . , x ) Ω L(θ ; x , . . . , x )) c L(θ ; x , . . . , x ))

1 n 0 1 n 1 1 n

dove c è una costante positiva. Allora

1. D è la regione critica di un test più potente di ogni altro test di livello

θ

P D ;

0

θ

θ ≥ D .

D P

2. vale la diseguaglianza P 0

1 →

Dimostrazione. Consideriamo una generica funzione ϕ : Ω [0, 1] e notiamo

che per ogni ω = (x , . . . , x ) vale la diseguaglianza

1 n

I (x , . . . , x )−ϕ(x , . . . , x ) L(θ ; x , . . . , x )−c L(θ ; x , . . . , x ) 0

D 1 n 1 n 0 1 n 1 1 n

Integrando rispetto alla misura di Lebesgue, si ottiene

Z Z

θ θ θ θ

− ≤ −

P D ϕ dP c P D ϕ dP

0 0 1 1

A questo punto la dimostrazione prosegue esattamente come per il Lemma

3.5.4.

In modo identico a quanto già visto nel caso di un modello discreto, si

parla di rapporto di verosimiglianza crescente rispetto a T, test unilateri ecc...

Non c’è difficoltà a tradurre tutto nella nuova situazione.

Osservazione 5.3.2 (Soglia di accettazione). Quando si pianifica un test

statistico, per prima cosa si sceglie un livello α (solitamente vicino a 0) e in

seguito si sceglie una regione critica D che abbia livello α .

θ ≤

Si deve cioè avere sup P (D) α : dunque più il livello diminuisce,

θ∈Θ 0

più la regione critica tende ad essere piccola. Spesso ci si trova in questa

situazione: per ogni numero 0 < α < 1, è assegnata una regione critica

≤ ⊆

D di livello α in modo tale che, se α α , allora D D . Inoltre

α 1 2 α α

1 2

∪ ∩ ∅

D = Ω e D = .

0<α<1 α 0<α<1 α

Allora, per ogni ω̄ Ω (cioè per ogni risultato dell’indagine statistica) è

∈ ∈

assegnato un numero ᾱ tale che, se α < ᾱ , ω̄ / D e se α > ᾱ , ω̄ D .

α α

Tale numero ᾱ sarà chiamato soglia di accettazione.

5.4. DUE ESEMPI 107

5.4 Due esempi

Esempio 5.4.1 (Campione di legge esponenziale). Sia dato un campi-

one X , . . . , X con densità esponenziale di parametro θ, θ > 0 .

1 n P

+ −θ(

n n x )

Si considera Ω = (IR ) e L θ ; x , . . . , x = θ e .

i

1 n

ni=1

P

La variabile T = X è un riassunto esaustivo. La ricerca della stima

i n ,

di massima verosimiglianza (per il campione di taglia n) porta a θ =

n

b P X

i

i

ed in base al Teorema 5.2.2 la successione di stime θ è consistente.

n

b

Ci possiamo domandare se la stima θ è corretta: per effettuare tale

n

b

θ P ∼

calcolo ricordiamo che (sotto P ) , X Γ(n, θ)). Di conseguenza

i

i≤n

+∞

Z

n θn

−θx

θ n n−2

E θ = θ x e dx =

n

b − −

(n 1)! n 1

0

H ≤

Vogliamo esaminare ora un test unilatero dell’ipotesi θ 1 contro

0

H θ > 1 al livello α : notiamo che

1 n

θ

L(θ ) 2

2 −(θ −θ )T

= e 2 1

L(θ ) θ

1 1

cioè il modello è a rapporto di verosimiglianza decrescente rispetto a T.

Di conseguenza, conosciamo la forma della buona regione critica: deve

P 1 P ≤ ≤

≤ X c α , cioè

X c con c tale che P

essere D = i

i i≤n

i≤n

P

1 ≥ −

X > c (1 α) . Per poter avere una regione critica più grande

P i

i≤n

possibile (allo scopo di aumentare la potenza del test) imponiamo che la

diseguaglianza appena scritta sia un’eguaglianza.

Si deve avere +∞ n−2

n−1

Z c c

1 h i

−x −c

n−1

− ···

(1 α) = x e dx = e + + + c +1

− − −

(n 1)! (n 1)! (n 2)!

c

È evidente che, dato α, esiste uno ed un solo c positivo che soddis-

fa l’equazione sopra scritta, ma il calcolo esplicito deve essere fatto con

approssimazioni numeriche.

H H 6

Consideriamo il test dell’ipotesi θ = 2 contro l’alternativa θ = 2 :

0 1

2

partiamo dal fatto che, sotto P , ogni variabile X ha valore atteso 1/2 e

i

varianza 1/4. P X 1

i − ≥

Questo suggerisce una regione critica della forma D = c

i

n 2

P X 1

2 i − ≥ ≤

con P c α . Il calcolo della probabilità sopra scritta può

i

n 2

108 CAPITOLO 5. STATISTICA SU UNO SPAZIO GENERALE

essere fatto, con passaggi simili a quelli sopra indicati, ma i conti espliciti

diventano complicati.

Possiamo allora accontentarci di una maggiorazione ottenuta con la dis-

eguaglianza di Chebishev:

P X

2 i

V ar i

2

P

X

V ar

X 1 1

n i

i

2 i − ≥ ≤

P c = =

2 2 2

n 2 c nc 4nc

−1/2

Prendendo c = 4nα si ottiene la diseguaglianza voluta. −1)

Esempio 5.4.2. Consideriamo la famiglia di densità (per θ >

θ

(θ + 1) x 0 <x< 1

f (θ, x) = 0 altrimenti

e sia dato un campione di taglia n e densità f (θ, .).

Poichè la densità può essere scritta nella forma

f (θ, x) = θ + 1 exp θ log x I (x) ,

]0,1[

siamo in presenza di un modello esponenziale.

n

Considerando Ω =]0, 1[ e Θ =]−1, +∞[ , si ottiene per la verosimiglianza

l’espressione n θ

n Y

L θ ; x , . . . , x = θ + 1 x

1 n i

i=1

Q

e di conseguenza T = X è un riassunto esaustivo.

i

i

Il calcolo della stima di massima verosimiglianza (per il campione di taglia

n) porta a n

−1 −

θ =

n

b P log X i

i≤n

e la successione di stime (

θ ) è consistente.

n n≥1

b

H ≥ H

Esaminiamo ora il test unilatero della forma θ 0 contro θ < 0 :

0 1

il rapporto delle verosimiglianze n

L θ θ + 1 −θ

2 θ

Y

2 2 1

X

= i

θ + 1

L θ 1

1 i

Q

è crescente rispetto a T = X e si ottiene pertanto una regione critica

i

i

Q Q

0

≤ ≤

della forma D = X c con c tale che P X c = α , essendo

i i

i i

α il livello desiderato.

5.5. ESERCIZI 109

I calcoli con prodotti di variabili indipendenti non sono agevoli, ma si

può passare dai prodotti alle somme considerando i logaritmi: è immediato

θ −

verificare che, sotto P , log X ha densità esponenziale di parametro (θ +1)

i

Q P

− − ∼

e di conseguenza log X = log X Γ(n, θ + 1) . Lasciamo

i i

i i

completare i dettagli al lettore.

5.5 Esercizi

Esercizio 5.5.1. Consideriamo un campione di taglia n di v.a. con densità

−(x−θ)

e x θ

f (θ, x) = 0 x<θ

dove 0 < θ < +∞.

a) Indagare se esiste una statistica esaustiva T e la stima di massima

verosimiglianza di θ.

b) Esaminare se tale stima è corretta.

Si vuole esaminare ora il test dell’ipotesi

H ≤ H

) θ 1 contro l’alternativa ) θ > 1

0 1

utilizzando come regione critica D = T > c : determinare la costante c in

modo tale che il test sopra indicato abbia livello α .

Esercizio 5.5.2. Siano X , . . . , X variabili aleatorie indipendenti equidis-

1 n

tribuite, dotate di momento primo e secondo. Tra tutte le stime lineari del

P a X ) , trovare quella corretta di

valore atteso (cioè della forma U = i i

i≤n

varianza minima.

Esercizio 5.5.3. Viene condotto un sondaggio telefonico per determinare

la percentuale di famiglie che vedono un certo programma televisivo: se

si desidera che, nella determinazione di tale percentuale, l’errore non sia

superiore a 0,02 con un grado di fiducia del 90%, quante famiglie almeno

devono essere intervistate?

Esercizio 5.5.4. Sia X , . . . , X un campione di taglia n con densità uni-

1 n

forme sull’intervallo [0, θ] , 0 < θ < +∞.

a) Indagare se esiste una statistica esaustiva e trovare una stima corretta

di θ. −

b) Trovare un intervallo di fiducia al livello 1 α per il parametro θ (si

suggerisce di cercare un intervallo di fiducia della forma T , T (1 + d) con d

da calcolare opportunamente).


PAGINE

128

PESO

674.84 KB

AUTORE

Jacko

PUBBLICATO

+1 anno fa


DETTAGLI
Corso di laurea: Corso di laurea in matematica
SSD:
Università: Pisa - Unipi
A.A.: 2012-2013

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher Jacko di informazioni apprese con la frequenza delle lezioni di Elementi di Probabilità e Statistica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Pisa - Unipi o del prof Pratelli Maurizio.

Acquista con carta o conto PayPal

Scarica il file tutte le volte che vuoi

Paga con un conto PayPal per usufruire della garanzia Soddisfatto o rimborsato

Recensioni
Ti è piaciuto questo appunto? Valutalo!

Altri appunti di Elementi di probabilità e statistica

Tavole statistiche
Dispensa
Appunti e esercitazioni, Algebra 1
Appunto
Parte 1, Geometria analitica e algebra lineare
Appunto
Spazio duale e biduale, Geometria analitica
Appunto