Calcolo delle probabilità e Statistica Matematica 2 - Appunti

Aggiornato il 27/03/2026

di Ely90h

Publisher

Vota

Contenuto verificato e approvato dal Team di Esperti di Skuola.net

Appunti di Probabilità e Statistica Matematica 2 per l'esame del professor Apolloni all'università degli studi a Milano, per completezza i contenuti sono stati in parte integrati …

Esame Calcolo delle probabilità e Statistica Matematica 2

Facoltà Scienze matematiche fisiche e naturali

Dal corso del Prof. Apolloni Bruno

Università Università degli Studi di Milano

A.A. 2011-2012

60 pagine

Appunto

Scarica

Estratto del documento

Calcolo delle probabilità e statistica II

20/10/2012

Questo testo, Calcolo delle probabilità e statistica II, di F.Kircheis è stato rilasciato sotto la

licenza Creative Commons - Attribuzione - Condividi allo stesso modo 3.0 Unported .

Per leggere una copia della licenza visita il sito https://creativecommons.org/licenses/by-sa/3.0/deed.it.

Indice

1 Convergenza di variabili aleatorie e proprietà degli stimatori 3

2 Distribuzioni Campionarie 14

3 Normale multivariata 15

4 Verifica di ipotesi 16

4.1 Test per ipotesi semplici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

4.2 Test per ipotesi composte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

4.2.1 Rapporto di verosimiglianza . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

4.3 Legame intervalli di fiducia e verifica ipotesi . . . . . . . . . . . . . . . . . . . . . . 25

4.4 Confronto parametri di distribuzioni normali . . . . . . . . . . . . . . . . . . . . . 26

4.5 Analisi ad uno e più fattori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

4.6 Test χ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

4.6.1 Confronto tra la distribuzione di un campione con una distribuzione nota . 32

4.6.2 Confronto fra due distribuzioni campionarie . . . . . . . . . . . . . . . . . . 34

4.6.3 Verifica dell’indipendenza di due variabili . . . . . . . . . . . . . . . . . . . 34

5 Il modello lineare generale 38

5.1 Regressione Lineare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

5.2 Regioni di fiducia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

5.3 Analisi della varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

5.3.1 Classificazione ad un parametro con lo stesso numero di osservazioni per

cella . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

5.3.2 Classificazione a due fattori con una osservazione per cella . . . . . . . . . . 49

6 Bande di fiducia 51

7 Test non parametrici 53

7.1 Test di Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

7.2 Test di Kolmogorov-Smirnov per 2 campioni . . . . . . . . . . . . . . . . . . . . . . 55

7.3 Test di Cramer von Mises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

7.4 Sign-test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

7.5 Test di Wilcoxon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

7.6 Tecniche di ricampionamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

7.6.1 Metodo bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

7.6.2 Metodo Jacknife . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

7.6.3 Permutation Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

1 Convergenza di variabili aleatorie e proprietà degli sti-

matori

Definizione 1.1. (Convergenza quasi certa) n

{X } F, → B

Sia una successione di variabili aleatorie tale che X : (Ω, P ) (R, ) e X una

n n∈N n R

F, → B

variabili aleatorie tale che X : (Ω, P ) (R, )

R q.c.

→ → ∞ −−−−→ ∈

Diciamo che X X per n quasi certamente, cioè che X X se P ({ω Ω :

n n n→∞

−−−−→

X X}) = 1

n n→∞

Questo vuol dire che X e X differiranno di eventi con probabilità nulla

Esempio 1.2.

F, B ∀I ⊂

Sia (Ω, P ) = ([0, 1], , λ). Dove λ è la misura di Lebesgue, cioè = [a, b] [0, 1] si ha

[0,1]

−

λ(I) = b a.

F, → B

Sia X : (Ω, P ) (R, ) e sia X(ω) = ω

R

Ci chiediamo se X è una variabile aleatoria, ed eventualmente con quale distribuzione.

−1 −1

∩ ⇒

Considero I [0, 1] = Allora X (I) = λ(X (I)) = λ(∅) = 0

∅ ∅

−1 −1

⊆ ⊆ −

Se invece I [0, 1] ho X (I) [0, 1] e quindi λ(X (I)) = b a λ([0, 1]) = 1

Aiuto, manca il disegno

∼

E quindi X U (0, 1) 1 1

n ∼

F, → B Ho che X U ( , 1 + )

Definisco X : (Ω, P ) (R, ) con X (ω) = ω + N

n n

R n n n

⇒ ∀ω ∈ → ∈

[0, 1] X (ω) X(ω) e P (X [0, 1]) = 1

q.c.

−−−−→

X X

n n→∞

Definizione 1.3. (Convergenza in probabilità)

Diciamo che P

−−−−→

X X

n n→∞

se s ∈ |X − ≥

lim P ({ω Ω : (ω) X(ω)| ε}) = 0

n→∞

Questo vuol dire che al crescere di n la probabilità che i valori assunti da X e X differiscano di

più di ε sia nulla.

Esempio 1.4. (Legge debole dei grandi numeri)

Sia X una successione di variabili aleatorie indipendenti, identicamente distribuite con ] = µ

E[X

n i

e var(X ) = σ .

Sia ∞

1 X

X̄ = X

n n

n n=1

P

−−−−→

Si ha che X µ, infatti per la disuguaglianza di Tschebyscheff:

n n→∞ var( X̄ )

− ≥ ≤

X̄ X̄ ]| ε)

P(| E[

n n 2

cioè 2

− ≥ ≤ −−−−→

X̄ X̄ ]| ε) 0

P(| E[

n n 2 ·

ε n n→∞

Nota.

Esiste una legge forte dei grandi numeri di Kolmogorov:

q.c.

−−−−→

X̄ µ

n n→∞

Definizione 1.5. (c.d.f. e p.d.f.)

c.d.f è la ’cumulative distribution function’, cioè la funzione di distribuzione cumulativa

p.d.f è la ’probability density function’, cioè la funzione di densità di probabilità

Definizione 1.6. (Convergenza in distribuzione)

{F } {X }

Sia una successione di funzione di distribuzione cumulativa delle variabili aleatorie e

n n

−−−−→ −−−−→

sia F la funzione di distribuzione cumulativa di X. Se F F , diciamo che X X,

n n

n→∞ n→∞

cioè che X converge in distribuzione, oppure in legge.

Esempio 1.7. (Teorema del limite centrale)

{X }

Sia una successione di variabili aleatorie indipendenti, identicamente distribuite con ] =

E[X

n i

2 ∀i.

µ e var(X ) = σ Allora

i −

X̄ µ

n √ −−−−→ Y

σ/ n n→∞

∼ N

con Y (0, 1).

Definizione 1.8. (Convergenza in media p-esima)

L

−−−−→

Diciamo che X X se

n n→∞ p

− ≥

lim [kX Xk ] = 0, p 1

E n

n→∞

Nota.

≥

Se p p allora

1 2 p p

1 2

L L

−−−−→ ⇒ −−−−→

X X X X

n n

n→∞ n→∞

Teorema 1.9.

Sia X una successione di variabili aleatorie, allora:

n q.c P d

−−−−→ ⇒ −−−−→ ⇒ −−−−→

1. X X X X X X

n n n

n→∞ n→∞ n→∞

d P

−−−−→ ⇒ −−−−→

2. Se X = cost. X X X X

n n

n→∞ n→∞

L P

−−−−→ ⇒ −−−−→

3. X X X X

n n

n→∞ n→∞

Definizione 1.10. (Centro)

Non c’è un modo univoco per definire il centro di una distribuzione.

Se la distribuzione è simmetrica solitamente si prende il valore atteso (che coincide con la media-

na), ma se la distribuzione non è simmetrica, si possono considerare il valore atteso, la mediana,

oppure la moda (nel caso questa fosse unica). Si può anche utilizzare il metodo dei minimi qua-

drati brevemente descritto, trattato nei prossimi capitoli: 2

P −

Sia x . . . x la realizzazione di X . . . X si vuole trovare il valore a tale che il valore (x a)

1 n 1 n i

sia minimo

Definizione 1.11. (Stimatore)

Sia X . . . X un campione di variabili aleatorie con distribuzione congiunta (funzione di verosi-

1 n

miglianza) dipendente da un parametro. k

∈ ≤

θ , k n

L(x . . . x , θ), R

1 n 4

Uno stimatore di θ è una statistica, ossia una funzione del campione: θ̂ = T (x . . . x ) con

1 n

n p

→ ≥

: , n > p k

T R R

nota

Se L è una funzione di densità . . .

Se L è una funzione congiunta . . .

devo chiedere!

Proposizione 1.12. (di uno stimatore)

Sia X . . . X un campione di funzioni di verosimiglianza e θ̂ = T (X . . . X ) uno stimatore.

1 n 1 n

1. Consistenza

Diciamo che θ̂ è debolmente consistente per θ se

n P

−

→

θ̂ θ

mentre fortemente consistente se q.c.

−−→

θ̂ θ

2. Non-distorsione

Diciamo che θ̂ è non-distorto (oppure corretto) per θ se

n n

∀θ, ∀n ∈

θ̂ ) = θ,

E( N

3. Efficienza n

∈ →

Sia θ e siano θ = T (X . . . X ) e θ = T (X . . . X ) con T : Diciamo che

R R R.

1 1 1 n 2 2 1 n 1,2

θ è più efficiente di θ se var(

θ̂ ) < var( θ̂ )

1 2 1 2

4. Asintotica normalità

∈

Sia θ e θ̂ = T (X . . . X ) stimatori di θ, diciamo che θ̂ è asintoticamente normale,

R n 1 1 n n

∼ AN

cioè θ̂ (θ, σ ) se

n n −

θ̂ θ d

n −−−−→ N (0, 1)

σ n→∞

5. Sufficienza ⇔

Diciamo che θ̂ è sufficiente per θ la distribuzione di X = (X , X , . . . , X ) condizio-

1 2 n

n n n

∀θ ∈ ∀t ∈

nata a T (X) = t è indipendente da θ M con (M ) = 1

R P

6. Ottimale

è ottimale se è corretto e se è più efficiente per ogni altro stimatore corretto.

θ̂ n

Esempio 1.13. (Stimatore sufficiente) ∼

Siano X , X . . . X variabili aleatorie indipendenti, identicamente distribuite B(1, θ) e x . . . x

1 2 n 1 n

una realizzazione.

Dalla realizzazione si possono estrapolare due informazioni distinte

1. Il numero di successi

2. L’ordine dei successi

Tuttavia basta la prima informazione per ottenere uno Stimatore sufficiente.

Sia n

X ∼

T = X = #{di successi avuti} B(n, θ)

i=1 5

Allora t n−t

−

(X = x , . . . , X = x , T (X . . . X ) = t) 1

θ (1 θ)

P

θ 1 1 n n 1 n

|T

(X = x , . . . , X = x = t) = =

P

θ 1 1 n n n n

t n−t

−

(T = t) θ (1 θ)

P

θ t t

e non dipende da θ, quindi T è sufficiente per stimare il parametro θ

Nota. n n

∈ →

Si ha θ [0, 1], T : con dimensione del campione e dimensione del parametro θ

R R, R R

Esempio 1.14.

Dato X = (X . . . X ), le cui componenti sono variabili aleatorie indipendenti, identicamente

1 n

distribuite con funzione di densità di probabilità f continua. Si consideri la statistica T (X) =

≤ ≤ · · · ≤

(X , . . . , X ) con X X X . Essendo le X indipendenti, identicamente

(1) (n) (1) (2) (n) (i) Quindi T contiene tutte le

distribuite basta permutare in modo casuale le X per riottenere X.

(i)

e quindi T è sufficiente.

informazioni di X,

Nota. n n

→ , come in questo caso, la dimensione del problema non viene ridotta.

Se si ha T : R

R

Teorema 1.15. (criterio di fattorizzazione)

Una statistica T = T (X) è sufficiente se e solo se esistono R , R funzioni non negative tali che

1 2

Y ·

f (x , θ) = R (T (x), θ) R (x) (1)

i 1 2

Teorema 1.16. (Fattorizzazione di Fisher-Neyman)

= (X , . . . , X ),le cui componenti sono variabili aleatorie (non per forza indipendenti,

Sia X 1 n k

∈ ⊆ 6

identicamente distribuite ) con funzione di verosimiglianza L(X, θ), θ Θ , k = n

R

n m

→ 6 6

Una statistica T : , n = m = k, cioè T (X) = (T (X), . . . , T (X)) è sufficiente se e

R R 1 m

solo se la funzione di verosimiglianza si può fattorizzare nel seguente modo:

θ) = g(T (x), θ)h(x , . . . , x ) (2)

L(X, 1 n

con h indipendente da θ e g distribuzione di T

Dimostrazione. (solo caso discreto)

⇒)

Sia T sufficiente per θ, e x = (x , . . . , x ) una realizzazione di X. Allora

1 n

= x|T = t) = h(X = x, t)

P(X

indipendente da θ, e quindi θ) = (X = x)

L(X, P

θ ·

= (X = x|T = t) (T = t)

P P

θ θ

= h(x, t) g(T , θ)

con h indipendente da θ.

⇐) m

· ∈

= (x , . . . , x ) e L(X, θ) = g(T (x), θ) h(x), t tale che (T = t) > 0

Sia x R P

1 n θ

Si ha che 6

(T = t) = (T (X) = t)

P P

θ θ

X 0 )

= P (X = x

A

X 0

= L(x , θ)

A

X 0

· )

= g(t, θ) h(x

A X 0

θ) h(x

= g(t, )

A

0 0

∈ |T

con A = (x (x ) = t))

R 0

= x|T (x ) = t) sia indipendente da θ:

voglio che (X

P θ 0 0 0

(X g(t,

= x, T (x ) = t) θ)h(x ) h(x )

P θ

(X = x|T (x ) = t) = = =

P θ 0 0

P P

(T = t) g(t, θ) h(x h(x

) )

P

θ A A

Corollario 1.17. n m

→

Se T = T (X) è sufficiente per θ e se T = H(U ), con U : statistica, allora anche U è

R R

sufficiente per θ. è invertibile allora U è sufficiente se e solo se lo è anche T .

In particolare se H

Definizione 1.18. (Famiglia esponenziale)

Si tratta di una particolare famiglia di variabili aleatorie, distinguiamo il caso in cui il parametro

θ sia unidimensionale o meno.

Definizione. (Famiglia esponenziale a parametro unidimensionale)

∈ { ∈ ⊆ }

Una variabili aleatorie X è fam.esp. con param. θ Θ se la funzione di densità di

R

probabilità ha la forma: Q(θ)T (X)

f (X, θ) = C(θ)e h(X)

∀θ ∈ ∀x ∈ ⊆

dove C(θ) > 0 Θ e h(x) > 0 S insieme indipendente da θ. Se (X , . . . , X ) = X

R 1 n

∼

sono variabili aleatorie indipendenti, identicamente distribuite f (X, θ), allora

n n

Y Y

P T (X )

n nQ(θ)

f (X , θ) = C (θ)e h(X )

L(X, θ) = i

i=1 i

i i=1

i=1 n nQ(θ)T

P Q

Sia quindi T = T (X ) e g(X, θ) = C (θ)e h(X), oltre a h(X) = h(X ).

i i

Si ha che T è sufficiente per θ.

Esempio 1.19.

Le seguente distribuzioni fanno parte della famiglia esponenziale, sono riportati i relativi T (X)

distribuzione T (X) 2

−

N (µ, θ), µ noto T (X) = (X µ)

P (θ) T (X) = X

Γ(a, θ) T (X) = X

Γ(θ, b) T (X) = log(X)

−

β(r, θ) T (X) = log(1 X)

β(θ, s) T (X) = log(X)

B(n, θ) T (X) = X

Definizione. (Famiglia esponenziale a parametro multidimensionale)

= (X . . . X ) una variabili aleatorie indipendenti, identicamente distribuite con distribu-

Sia X 1 n k

∈ ⊆

zione dipendente da θ Θ .

R

00 00

∈ { ∈ }

Allora X fam.esp. con param. θ Θ se e solo se

P (X)

Q (θ)T

f (X, h(X)

θ) = C(θ)e j

j=1

∀θ ∈ ∀x ∈ ⊆

dove C(θ) > 0 Θ e h(x) > 0 S indipendente da θ.

R

In modo analogo ad una esponenziale a parametro unidimensionale, la statistica

. . . T (X) è sufficiente per θ poiché vale la fattorizzazione di Fisher-Neyman.

T = (T X) n

Nota.

Date almeno diverse statistiche non sappiamo ancora quale scegliere per studiare un parametro

θ se le due hanno proprietà differenti. Cerchiamo normalmente di utilizzare quella con meno

informazioni inutili.

Definizione 1.20. (Statistica ancillare) Si dice ancillare

Una statistica V = V (x) si dice ancillare se la distribuzione non dipende da θ.

∀θ ∈

di primo ordine se (x)] = c Θ, cioè se il valore atteso è indipendente da θ.

E[V

Nota.

Se non si considerano le statistiche ancillari non si perdono informazioni sul parametro, è inol-

tre generalmente più semplice controllare che una statistica sia ancillare del primo ordine che

ancillare.

Esempio 1.21. n

Q −θ),

Sia X = (X , . . . , X ) un campione con una funzione di verosimiglianza L(X, θ) = f (X

1 n i

i=1

con f , funzione di densità di probabilità nota.

{L(X, ∈ ⊆ −

Chiamiamo θ); θ Θ Location family e si dimostra che X X sono statistiche

R} i j

ancillari.

Data ad esempio la distribuzione ∼ −

X U (θ 1/2, θ + 1/2)

si può trovare la seguente statistica sufficiente: T = (Y = max(X ), Z = min(X )), che è

i i

−

”minima” e ”contiene” Y Z che è ancillare, non è quindi possibile trovare una statistica

”completa”.

Definizione 1.22. (Statistica completa) k

∈ ⊆

Sia X = (X . . . X ) un campione con funzione di verosimiglianza L(X, θ), θ Θ e

Anteprima

Vedrai una selezione di 13 pagine su 60