Appunti Statistica 2 - completi

Name: Appunti Statistica 2 - completi
Rating: 5.0 (1 reviews)
Author: aina.belloni

Revisionato il 23/05/2026

di aina.belloni

Publisher

Vota 5,0/5 (1)

Contenuto verificato e approvato dal Team di Esperti di Skuola.net

Appunti di statistica II basati su appunti personali del publisher presi alle lezioni del prof. Borgoni dell’università degli Studi di Milano Bicocca - Unimib, facoltà di …

Esame Statistica II

Facoltà Scienze statistiche

Dal corso del Prof. Borgoni Riccardo

Università Università degli Studi di Milano - Bicocca

A.A. 2018-2019

45 pagine

33 download

Appunto

Scarica

Estratto del documento

CAMPIONAMENTO

POPOLAZIONE

Popolazione: insieme dei possibili esiti che, a parità di condizioni, possono essere ottenuti da un esperimento

(misurazione, rilevazione, …)

Popolazione finita

Per popolazione finita si intende un insieme di unità statistiche realmente esistenti che possono essere oggetto di

rilevazione totale oppure parziale.

Sono esempi di popolazione finita: l’insieme delle famiglie di un dato Comune; l’insieme delle aziende industriali di

una certa Regione ecc.

Popolazione infinita

L’espressione popolazione infinita (virtuale) indica l’insieme potenziale delle osservazioni connesse alla ripetizione,

teoricamente illimitata, di un esperimento casuale condotto nelle stesse condizioni.

Sono esempi di popolazione infinita: gli esiti (guarigione - non guarigione) di una terapia somministrata a soggetti

omogenei; i pezzi che escono da un processo di produzione industriale ecc.

Modello descrittivo della popolazione

Per modello descrittivo della popolazione intendiamo

-) la distribuzione di frequenze relative di un carattere all’interno di una popolazione finita, oppure

-) una funzione (modello) matematico che esprime la probabilità o la densità della variabile casuale che descrive

l’esito della singola prova di un esperimento nel caso di una popolazione infinita/virtuale.

f(x)

In entrambi i casi, useremo il simbolo

INFERENZA STATISTICA

L’obiettivo non è descrivere quantitativamente una situazione empirica, ma partendo da questa

descrizione, inferire aspetti generali della popolazione di riferimento.

di riferimento)

teoria della probabilità fornisce i modelli (popolazione per i fenomeni la possibilità di misurare

l’errore commesso nell’inferenza.

descrittiva produce evidenze relative a tali modelli basandosi sui dati rilevati

L’analisi

L’inferenza statistica permette di “risalire” dai dati osservati empiricamente alle caratteristiche del

modello/popolazione (per es. stimare la curva sovrapposta all’istogramma, i suoi parametri)

CAMPIONE sottoinsieme finito degli elementi presenti nella popolazione

Numerosità (ampiezza) campionaria: numero di campioni n.

CAMPIONE CASUALE

Data la variabile casuale X oggetto di studio, con distribuzione f(x), un campione casuale è l’insieme di variabili

X , …,X

casuali indipendenti e identicamente distribuite come X.

1 n

X f(x) C.C. (X , …,X ) i.i.d. come X

 1 n

campionamento con reinserimento campionamento casuale,

Il da una popolazione finita rappresenta un quello

senza reinserimento non è casuale.

CAMPIONE OSSERVATO

Valore del campione casuale, quando l’ho osservato. Numero che ottengo quando faccio la rilevazione.

Vettore di numeri x ,..,x

1 n

Variabilità campionaria: Il campione osservato è solo uno dei possibili campioni estraibili dalla popolazione

d’interesse. Prima di osservarlo il campione è un vettore di variabili casuali, ho un solo campione osservato.

Spazio campionario: insieme dei possibili campioni di numerosità prefissata estraibili dalla popolazione.

Un generico campione è costituito da n numeri (x , …,x ) dove x è il possibile valore di X , ecc.

1 n 1 1

Lo spazio campionario è l’insieme di tutti i vettori di numeri possibili.

Distribuzione congiunta del campione: probabilità congiunta associata ad ogni campione; ovvero la probabilità

associata al verificarsi di ogni campione.

A ogni elemento (x , …,x ) (campione) dello spazio campionario è associata una probabilità (densità) data dalla

1 n

funzione di probabilità (densità) congiunta : f(x ,..,x ) = f(x )*..* f(x ) = ∏ ( )

1 n 1 n

Dove f (.) è la funzione di probabilità/densità della variabile casuale X oggetto di studio.

X STATISTICHE, STIMATORI E STIME

La funzione di probabilità/densità di determinate variabili casuali sono determinate da parametri (θ,λ).

STIMA del parametro

Da questi parametri dipendono anche i corrispondenti valori attesi e varianza dalla posso



risalire anche a questi valori.

Spazio parametrico: dove si muove il parametro, che valori può assumere. (Θ)

STATISTICA = funzione nota dei dati campionari.

Le statistiche campionarie dipendono dal (sono funzioni del) campione su cui sono calcolate e, come questo, sono

quindi affette da variabilità. Poiché in pratica si osserva un unico campione tra i possibili occorre assegnare al valore

della statistica una misura di tale variabilità.

= (x , …,x ) , S = S() nota , S: ad esempio media campionaria ∑

ℝ → ℝ

 1 n

varianza campionaria ∑

( − )

= ∑

( − )

Sono statistiche campionarie (o variabili casuali campionarie)

STIMATORE = statistica utilizzata per stimare un determinato parametro, è una variabile casuale.

T = T() = T(x , …,x ) ad esempio media campionaria e varianza campionaria.

 1 n

Distribuzione campionaria: distribuzione dello stimatore.

STIMA = è un possibile valore assunto dalla variabile casuale (stimatore).

In generale nella singola realizzazione campionaria (singolo campione) si può avere (e generalmente si ha) una stima

il cui valore è diverso da quello del parametro. Alcune stime possono essere anche molto lontane dal valore vero

altre molto vicine.

Stimatore naturale di un parametro è lo stimatore ottenuto calcolando sul campione la quantità corrispondente a

quella che si vuole stimare nella popolazione.

è lo stimatore naturale di E(X)

 e stimatori naturali di Var(X)

 DISTRIBUZIONE CAMPIONARIA DELLA MEDIA

Dato X f(X) e c.c (X , … ,X ) siano μ e σ rispettivamente media e varianza della popolazione.

~ 1 n ( )

Il valore atteso e la varianza della media campionaria sono: E() = E(X) = μ e Var() = =

Popolazione normale con varianza nota

X N (μ , σ ) con X , μ e σ > 0 noto ; (X , … ,X ) c.c. da X.

2 2

~ ∈ ℝ ∈ ℝ 1 n funzione generatrice dei momenti:

= = = ricavo la distribuzione di dalla

∑ ∑ ∑

( )

= E[ ] =

() ( )

. .

∑ ] = E [∏ ] = =

= E[ ] = E[ ∏ ∏ ∏

[ ] ( )

() ∑ ∑

N (∑ , ) = N (μ , ) con noto

∑

 E() = = = = μ = E(X)

∑ ∑

Var() = = = =

∑ ∑

indipendenza e identica distribuzione

Basta che sia un campionamento basato su perché valga questo valore atteso

e questa varianza (non solo per popolazione normale).

Per grandi campioni: distribuzione asintotica di

Data X f(X) e (X , … ,X ) c.c. da X (i.i.d come X), e date E(X) = μ e Var(X) = σ finite.

~ 1 n

Z = N(0,1) per n +∞ , n>>0 risultato asintotico

→ →

n ⁄

√

F (x) funzione di ripartizione di Z , e , funzione di ripartizione di N(0,1)

Φ()

n n

F (x)

lim () = Φ() ≈ Φ()

  n

→ N(0,1) N (μ , ) risultato approssimato

~ ⟹ ~

⁄

√

VALORE ATTESO MOMENTI CAMPIONARI

X f(X) e (X , … ,X ) c.c. da X r momento r-esimo

M =

r ∑

~ ∈ ℕ



1 n

∑ ()

μ = E(X ) =

r ir ()

∫ =

= = =

E(M ) =

r ∑ ∑ ∑

] ]

[

momento campionario = momento dell’intera popolazione , per ogni distribuzione.

 STIMA PUNTUALE

stima puntuale stimatore più “conveniente” per attribuire

La si occupa di affrontare il problema di come scegliere lo

θ.

un valore al parametro di interesse

stima intervallare

La invece consiste nell’individuare un insieme di valori plausibili per il parametro θ.

PROPRIETA’ DI UNO STIMATORE: CORRETTEZZA o NON DISTORSIONE

Dato un campione casuale (X , … ,X ) di una popolazione di cui interessa stimare il parametro θ, lo stimatore T = t(X ,

1 n n 1

… ,X ) di θ , è detto non distorto se: E(T ) = θ

n n Bias(T ) = 0 non è distorto

La distorsione la calcoliamo con Bias(T ) = E(T – θ) = E(T ) – θ se

 n

n n n

Bias(T ) = Var(X) – E(T )

n n

stimatore corretto (non distorto) di E(X)

 stimatore distorto di Var(X), poiché E( ) ≠ Var(x)

 stimatore corretto di Var(X), infatti la chiamo varianza corretta



PROPRIETA’ ASINTOTICHE: NON DISTORSIONE

Sia T stimatore di θ, Bias(T ) = E(T ) – θ

n n n

= 0

Se allora T è asintoticamente non distorto, ovvero all’aumentare della numerosità

( ) n

→ campionaria lo stimatore tende ad essere migliore e la distorsione diminuisce.

E(T )≈ θ

n>>0 , se T è asintitocamente non distorto (Bias(T )≈ 0) allora

 n

n n

DISTRIBUZIONE CAMPIONARIA DELLA VARIANZA

Con popolazione normale ignoti

X N (μ , σ ) con X , μ e σ > 0 ; (X , … ,X ) c.c. da X.

2 2

~ ∈ ℝ ∈ ℝ 1 n

= stimatore di σ 2

∑ ( − )

= =

∑ ∑

∑ ) (( − ) + ( − )) [( − ) + 2( − )( − ) + ( − ) ]

( + =

= +

∑ ∑ ∑

( − ) ( − )( − ) ( − )

= + = +

∑ ∑

( ) ( − ) ) ( )

( ⁄

√

Y = W = Z =

∑ ∑ (

~ ) ~ ( ) ~

⁄

√

N (0,1)

poichè N (μ , σ )

2 ~ ~

~ 



( )

G (t) = E[ ] = (se W e Z indipendenti) = E[ ] E[ ] = G (t) G (t)

Y W Z

( )

G (t) = = = ovvero la funzione generatrice dei momenti di

( )

W ( ) /

)

(

W = ∑ ( ~

)



= = =

∑ ∑

∑ ( − ) ( − )

( ) ~



E( ) = n – 1 quindi E( ) = σ ≠ σ = Var(x)

2 2



Stimatore non corretto Bias( ) = E( ) - σ = - < 0 quindi tende a sottostimare la varianza campionaria

= 0

Anche se quindi è asintoticamente non distorto.

( )

→

STIMATORI CORRETTI DI σ

= ignoti

X N (μ , σ ) con X , μ e σ > 0 ; (X , … ,X ) c.c. da X

2 2

∑ ( − )

~ ∈ ℝ ∈ ℝ 1 n

] = E [

E[S ] = E [ ] = E [ ] = σ = σ = Var(X)

2 2 2

∑ ( − )

Bias(S ) = 0 è uno stimatore corretto, non distorto.



= μ noto

X N (μ , σ ) con e σ > 0; (X , … ,X ) c.c. da X

2 2

∑

( − ) ~ 1 n

ma direttamente il valore della media.

Essendo μ noto non devo considerare la stima , ] =

] = E [ ] essendo

E[S ] = E [ E [∑

2 ∑

∑ ∑

( − ) ( ~

( − ) ( ) )

= = = Var(X) stimatore corretto



S

= =

Inoltre osserviamo che 2

∑ ∑

( ) ( − ) ~

VARIANZA CORRETTA = per popolazione normale

∑

( − )

( )

= S

= = 2

∑

( − ) ( − ) ~

 

= Var(X)

E[S ] = σ

2 2

( ) ( )

Var[ S ] = 2 (n-1) essendo , quindi Var[S ] = 2 (n-1)

2 2

Var[S ] = mi dice quanto è variabile la stima (oscillazione rispetto a quel valore)

2 ( )

Ma se non conosco devo stimarlo, per stimare la varianza dello stimatore uso lo stimatore di : S 2

[ ] ( )

Altro modo per calcolare Var[S ] = dove = E [(X-μ) ] momento quarto e μ = E(x)

2 4

( + )

In generale, non solo per popolazione normale.

Ricalcolo in generale dove M =

Considero Var(x) = E(x ) – [E(x)] , = M - 2

2 2 ∑

E(M ) ) = (lin & i.d.) =

E( ) = E(M - E(X ) = Var(X) + E (X) = σ + μ

) = E(M ) - E( ) = E( 2 2 2 2

2 2 ∑

 2

2 2 E( ) + E () = + μ

= Var()

2 2 2

- μ = σ

= σ + μ - 2 2

2 2

Var[ ] = Var[S ] = = Var[ ]

( ) ( )

( )

Var( ) =

DEVIAZIONE STANDARD: = = σ

() √

DISUGUAGLIANZA DI JENSEN

CONVESSITA’ grafico di g(x) è sopra il grafico della tangente a g(x)

Funzione g: (a,b) con è convessa se il in ogni

→ ℝ (, ) ⊆ ℝ g’’(x) ≥ 0

Inoltre: se g(x) è derivabile due volte allora

∈ (, ). ∀ ∈ (, );

g(x) > 0 strettamente convessa.

se allora la funzione è

concava su (a,b) se - g(x) è convessa.

Invece dico che g(x) è

DISUGUAGLIANZA DI JENSEN

Sia X una variabile casuale, E(|x|) < e g(x) una funzione convessa. Allora:

∞ () ≥ (())

Dimostrazione

Sia la retta tangente a g(x) in E(x), = g(x)

() () + .

= = = (lin) = =

(()) (()) + () [ + ] () E(x) l(x)

perché g convessa

() ≥ () () ≥ () = (())

 x

Esempio

X~ f(x) g(x) = x convessa E(x ) ≥ [E(x)] Allora Var(x) = E(x ) - [E(x)] ≥ 0

2 2 2 2 2



PROPRIETA’ DI UNO STIMATORE : EFFICIENZA RELATIVA

ERRORE QUADRATICO MEDIO : MSE

Ci da idea della distorsione dello stimatore e della sua dispersione rispetto al centro.

(x , … ,x ) c.c. da X

X f(x,θ) , θ Θ e

~ ∈ 1 n

T = T(X , … ,X ) stimatore di θ

n 1 n

MSE(T ) = E(T -θ) media degli errori al quadrato che commettiamo stimando θ con T

n n n

= Var(T ) + (Bias(T )) 2

n n

MSE (T ) = quando c’è il pedice vuol dire che è una funzione di θ non di T

( − ) ()

∫

θ n n

ℝ

Dimostro che E(T -θ) = Var(T ) + (Bias(T ))

2 2

n n n

E(T -θ) = E[(T - E(T ) + E(T ) -θ) ] = E[(T - E(T )) + 2(T - E(T )) (E(T ) -θ) + (E(T ) -θ) ] = lin =

2 2 2 2

n n n n n n n n n n

= E[(T - E(T )) ] + E[2(T - E(T )) (E(T ) -θ)] + E[(E(T ) -θ) ] =

2 2

n n n n n n

= E[(T - E(T )) ] + 2 (E(T ) -θ) E[T - E(T )] + (E(T ) -θ) = dove ( Var(T) = E[T-E(T)] )

2 2 2

n n n n n n

= Var(T ) + (E(T ) -θ) =

n n

= Var(T ) + (Bias(T )) 2

n n MSE(T ) = Var(T )

Quando uno stimatore è corretto, non distorto e quindi E(T ) = θ

 n n n

DEFINIZIONE: T1 è più efficiente di T2

X f(x,θ) , (x , … ,x ) c.c. da X ; e T e T stimatori di θ. Allora posso dire che se:

~ 1 n 1 2

MSE (T ) ≤ MSE (T ) θ Θ , o MSE (T ) < MSE (T ) per almeno un θ in Θ

∀ ∈

1 2

θ θ θ 1 θ 2

( )

E = dati due stimatori è preferibile quello con MSE minore.

( )

Confronto e

( ) ( )

MSE ( ) = Var( ) + Bias( ) = + (- ) = MSE ( ) = Var( ) + 0 =

2 2

θ θ

( ) = < 1 MSE ( ) < MSE ( ) quindi è più efficiente anche se distorto

E =

 θ θ

EFFICIENZA ASSOLUTA

Uno stimatore per cui MSE è pari a tale valore minimo è detto efficiente fra tutti gli stimatori non distorti (in termini

assoluti) STIMATORI UMVUE

Sono stimatori corretti a varianza uniformemente minima; cioè uniformemente uguale per ogni θ.

UMVUE

T di θ è detto stimatore se Var(T ) < Var(T) e se E(T )= θ θ Θ

* * * ∀ ∈

 dove T è uno stimatore non distorto di θ.

TEOREMA DI UNICITA’ DELL’UMVUE

Se T è UMVUE θ allora è unico.

Dimostrazione ∗

Supponiamo che esista U di θ tale che E(U) = θ e Var(U) = Var(T*). Introduciamo V = , terzo stimatore.

E(T*) + E(U) = θ quindi è non distorto.

E(V) =

Var(V) = Var (T*+U) = [ Var(T*) + Var(U) + 2 Cov(T*,U) ] = [ 2 Var(T*) + 2 Cov(T*,U) ] =

[ Var(T*) + ρ = [ Var(T*) + ρ Var(T*)] = Var(T*)

= ∗

(T ) (U)]

≤ 1 , e data Cov(T*,U) = ρ

Anteprima

Vedrai una selezione di 10 pagine su 45