CAMPIONAMENTO
POPOLAZIONE
Popolazione: insieme dei possibili esiti che, a parità di condizioni, possono essere ottenuti da un esperimento
(misurazione, rilevazione, …)
Popolazione finita
Per popolazione finita si intende un insieme di unità statistiche realmente esistenti che possono essere oggetto di
rilevazione totale oppure parziale.
Sono esempi di popolazione finita: l’insieme delle famiglie di un dato Comune; l’insieme delle aziende industriali di
una certa Regione ecc.
Popolazione infinita
L’espressione popolazione infinita (virtuale) indica l’insieme potenziale delle osservazioni connesse alla ripetizione,
teoricamente illimitata, di un esperimento casuale condotto nelle stesse condizioni.
Sono esempi di popolazione infinita: gli esiti (guarigione - non guarigione) di una terapia somministrata a soggetti
omogenei; i pezzi che escono da un processo di produzione industriale ecc.
Modello descrittivo della popolazione
Per modello descrittivo della popolazione intendiamo
-) la distribuzione di frequenze relative di un carattere all’interno di una popolazione finita, oppure
-) una funzione (modello) matematico che esprime la probabilità o la densità della variabile casuale che descrive
l’esito della singola prova di un esperimento nel caso di una popolazione infinita/virtuale.
f(x)
In entrambi i casi, useremo il simbolo
INFERENZA STATISTICA
L’obiettivo non è descrivere quantitativamente una situazione empirica, ma partendo da questa
descrizione, inferire aspetti generali della popolazione di riferimento.
di riferimento)
teoria della probabilità fornisce i modelli (popolazione per i fenomeni la possibilità di misurare
La
l’errore commesso nell’inferenza.
descrittiva produce evidenze relative a tali modelli basandosi sui dati rilevati
L’analisi
L’inferenza statistica permette di “risalire” dai dati osservati empiricamente alle caratteristiche del
modello/popolazione (per es. stimare la curva sovrapposta all’istogramma, i suoi parametri)
CAMPIONE sottoinsieme finito degli elementi presenti nella popolazione
Numerosità (ampiezza) campionaria: numero di campioni n.
CAMPIONE CASUALE
Data la variabile casuale X oggetto di studio, con distribuzione f(x), un campione casuale è l’insieme di variabili
X , …,X
casuali indipendenti e identicamente distribuite come X.
1 n
X f(x) C.C. (X , …,X ) i.i.d. come X
~
1 n
campionamento con reinserimento campionamento casuale,
Il da una popolazione finita rappresenta un quello
senza reinserimento non è casuale.
CAMPIONE OSSERVATO
Valore del campione casuale, quando l’ho osservato. Numero che ottengo quando faccio la rilevazione.
Vettore di numeri x ,..,x
1 n
Variabilità campionaria: Il campione osservato è solo uno dei possibili campioni estraibili dalla popolazione
d’interesse. Prima di osservarlo il campione è un vettore di variabili casuali, ho un solo campione osservato.
Spazio campionario: insieme dei possibili campioni di numerosità prefissata estraibili dalla popolazione.
Un generico campione è costituito da n numeri (x , …,x ) dove x è il possibile valore di X , ecc.
1 n 1 1
Lo spazio campionario è l’insieme di tutti i vettori di numeri possibili.
Distribuzione congiunta del campione: probabilità congiunta associata ad ogni campione; ovvero la probabilità
associata al verificarsi di ogni campione.
A ogni elemento (x , …,x ) (campione) dello spazio campionario è associata una probabilità (densità) data dalla
1 n
funzione di probabilità (densità) congiunta : f(x ,..,x ) = f(x )*..* f(x ) = ∏ ( )
1 n 1 n
Dove f (.) è la funzione di probabilità/densità della variabile casuale X oggetto di studio.
X STATISTICHE, STIMATORI E STIME
La funzione di probabilità/densità di determinate variabili casuali sono determinate da parametri (θ,λ).
STIMA del parametro
Da questi parametri dipendono anche i corrispondenti valori attesi e varianza dalla posso
risalire anche a questi valori.
Spazio parametrico: dove si muove il parametro, che valori può assumere. (Θ)
STATISTICA = funzione nota dei dati campionari.
Le statistiche campionarie dipendono dal (sono funzioni del) campione su cui sono calcolate e, come questo, sono
quindi affette da variabilità. Poiché in pratica si osserva un unico campione tra i possibili occorre assegnare al valore
della statistica una misura di tale variabilità.
=
= (x , …,x ) , S = S() nota , S: ad esempio media campionaria ∑
ℝ → ℝ
1 n
=
varianza campionaria ∑
( − )
= ∑
( − )
Sono statistiche campionarie (o variabili casuali campionarie)
STIMATORE = statistica utilizzata per stimare un determinato parametro, è una variabile casuale.
T = T() = T(x , …,x ) ad esempio media campionaria e varianza campionaria.
1 n
Distribuzione campionaria: distribuzione dello stimatore.
STIMA = è un possibile valore assunto dalla variabile casuale (stimatore).
In generale nella singola realizzazione campionaria (singolo campione) si può avere (e generalmente si ha) una stima
il cui valore è diverso da quello del parametro. Alcune stime possono essere anche molto lontane dal valore vero
altre molto vicine.
Stimatore naturale di un parametro è lo stimatore ottenuto calcolando sul campione la quantità corrispondente a
quella che si vuole stimare nella popolazione.
è lo stimatore naturale di E(X)
e stimatori naturali di Var(X)
DISTRIBUZIONE CAMPIONARIA DELLA MEDIA
Dato X f(X) e c.c (X , … ,X ) siano μ e σ rispettivamente media e varianza della popolazione.
2
~ 1 n ( )
Il valore atteso e la varianza della media campionaria sono: E() = E(X) = μ e Var() = =
Popolazione normale con varianza nota
X N (μ , σ ) con X , μ e σ > 0 noto ; (X , … ,X ) c.c. da X.
2 2
~ ∈ ℝ ∈ ℝ 1 n funzione generatrice dei momenti:
= = = ricavo la distribuzione di dalla
∑ ∑ ∑
( )
= E[ ] =
() ( )
. .
∑ ] = E [∏ ] = =
= E[ ] = E[ ∏ ∏ ∏
[ ] ( )
() ∑ ∑
=
N (∑ , ) = N (μ , ) con noto
∑
~
E() = = = = μ = E(X)
∑ ∑
Var() = = = =
∑ ∑
indipendenza e identica distribuzione
Basta che sia un campionamento basato su perché valga questo valore atteso
e questa varianza (non solo per popolazione normale).
Per grandi campioni: distribuzione asintotica di
Data X f(X) e (X , … ,X ) c.c. da X (i.i.d come X), e date E(X) = μ e Var(X) = σ finite.
2
~ 1 n
Z = N(0,1) per n +∞ , n>>0 risultato asintotico
→ →
n ⁄
√
F (x) funzione di ripartizione di Z , e , funzione di ripartizione di N(0,1)
Φ()
n n
F (x)
lim () = Φ() ≈ Φ()
n
→ N(0,1) N (μ , ) risultato approssimato
~ ⟹ ~
⁄
√
VALORE ATTESO MOMENTI CAMPIONARI
X f(X) e (X , … ,X ) c.c. da X r momento r-esimo
M =
r ∑
~ ∈ ℕ
1 n
∑ ()
μ = E(X ) =
r ir ()
∫ =
= = =
E(M ) =
r ∑ ∑ ∑
] ]
[
[
momento campionario = momento dell’intera popolazione , per ogni distribuzione.
STIMA PUNTUALE
stima puntuale stimatore più “conveniente” per attribuire
La si occupa di affrontare il problema di come scegliere lo
θ.
un valore al parametro di interesse
stima intervallare
La invece consiste nell’individuare un insieme di valori plausibili per il parametro θ.
PROPRIETA’ DI UNO STIMATORE: CORRETTEZZA o NON DISTORSIONE
Dato un campione casuale (X , … ,X ) di una popolazione di cui interessa stimare il parametro θ, lo stimatore T = t(X ,
1 n n 1
… ,X ) di θ , è detto non distorto se: E(T ) = θ
n n Bias(T ) = 0 non è distorto
La distorsione la calcoliamo con Bias(T ) = E(T – θ) = E(T ) – θ se
n
n n n
Bias(T ) = Var(X) – E(T )
n n
stimatore corretto (non distorto) di E(X)
stimatore distorto di Var(X), poiché E( ) ≠ Var(x)
stimatore corretto di Var(X), infatti la chiamo varianza corretta
PROPRIETA’ ASINTOTICHE: NON DISTORSIONE
Sia T stimatore di θ, Bias(T ) = E(T ) – θ
n n n
= 0
Se allora T è asintoticamente non distorto, ovvero all’aumentare della numerosità
( ) n
→ campionaria lo stimatore tende ad essere migliore e la distorsione diminuisce.
E(T )≈ θ
n>>0 , se T è asintitocamente non distorto (Bias(T )≈ 0) allora
n
n n
DISTRIBUZIONE CAMPIONARIA DELLA VARIANZA
Con popolazione normale ignoti
X N (μ , σ ) con X , μ e σ > 0 ; (X , … ,X ) c.c. da X.
2 2
~ ∈ ℝ ∈ ℝ 1 n
= stimatore di σ 2
∑ ( − )
=
= =
∑ ∑
∑ ) (( − ) + ( − )) [( − ) + 2( − )( − ) + ( − ) ]
( + =
= +
∑ ∑ ∑
( − ) ( − )( − ) ( − )
= + = +
∑ ∑
( ) ( − ) ) ( )
( ⁄
√
?
Y = W = Z =
∑ ∑ (
~ ) ~ ( ) ~
⁄
√
N (0,1)
poichè N (μ , σ )
2 ~ ~
~
( )
G (t) = E[ ] = (se W e Z indipendenti) = E[ ] E[ ] = G (t) G (t)
Y W Z
/
( )
( )
G (t) = = = ovvero la funzione generatrice dei momenti di
( )
W ( ) /
)
(
W = ∑ ( ~
)
= = =
∑ ∑
∑ ( − ) ( − )
( ) ~
E( ) = n – 1 quindi E( ) = σ ≠ σ = Var(x)
2 2
Stimatore non corretto Bias( ) = E( ) - σ = - < 0 quindi tende a sottostimare la varianza campionaria
2
= 0
Anche se quindi è asintoticamente non distorto.
( )
→
STIMATORI CORRETTI DI σ
2
= ignoti
X N (μ , σ ) con X , μ e σ > 0 ; (X , … ,X ) c.c. da X
2 2
∑ ( − )
~ ∈ ℝ ∈ ℝ 1 n
] = E [
E[S ] = E [ ] = E [ ] = σ = σ = Var(X)
2 2 2
∑ ( − )
Bias(S ) = 0 è uno stimatore corretto, non distorto.
2
= μ noto
X N (μ , σ ) con e σ > 0; (X , … ,X ) c.c. da X
2 2
∑
( − ) ~ 1 n
ma direttamente il valore della media.
Essendo μ noto non devo considerare la stima , ] =
] = E [ ] essendo
E[S ] = E [ E [∑
2 ∑
∑ ∑
( − ) ( ~
( − ) ( ) )
= = = Var(X) stimatore corretto
S
= =
Inoltre osserviamo che 2
∑ ∑
( ) ( − ) ~
~
VARIANZA CORRETTA = per popolazione normale
∑
( − )
( )
= S
= = 2
∑
( − ) ( − ) ~
= Var(X)
E[S ] = σ
2 2
( ) ( )
Var[ S ] = 2 (n-1) essendo , quindi Var[S ] = 2 (n-1)
2 2
Var[S ] = mi dice quanto è variabile la stima (oscillazione rispetto a quel valore)
2 ( )
Ma se non conosco devo stimarlo, per stimare la varianza dello stimatore uso lo stimatore di : S 2
=
[ ] ( )
Altro modo per calcolare Var[S ] = dove = E [(X-μ) ] momento quarto e μ = E(x)
2 4
( + )
In generale, non solo per popolazione normale.
Ricalcolo in generale dove M =
Considero Var(x) = E(x ) – [E(x)] , = M - 2
2 2 ∑
2
2
E(M ) ) = (lin & i.d.) =
E( ) = E(M - E(X ) = Var(X) + E (X) = σ + μ
) = E(M ) - E( ) = E( 2 2 2 2
2 2 ∑
2
2 2 E( ) + E () = + μ
= Var()
2 2 2
- μ = σ
= σ + μ - 2 2
2 2
Var[ ] = Var[S ] = = Var[ ]
2
( ) ( )
( )
Var( ) =
DEVIAZIONE STANDARD: = = σ
() √
DISUGUAGLIANZA DI JENSEN
CONVESSITA’ grafico di g(x) è sopra il grafico della tangente a g(x)
Funzione g: (a,b) con è convessa se il in ogni
→ ℝ (, ) ⊆ ℝ g’’(x) ≥ 0
Inoltre: se g(x) è derivabile due volte allora
∈ (, ). ∀ ∈ (, );
g(x) > 0 strettamente convessa.
se allora la funzione è
concava su (a,b) se - g(x) è convessa.
Invece dico che g(x) è
DISUGUAGLIANZA DI JENSEN
Sia X una variabile casuale, E(|x|) < e g(x) una funzione convessa. Allora:
∞ () ≥ (())
Dimostrazione
Sia la retta tangente a g(x) in E(x), = g(x)
() () + .
= = = (lin) = =
(()) (()) + () [ + ] () E(x) l(x)
perché g convessa
() ≥ () () ≥ () = (())
x
Esempio
X~ f(x) g(x) = x convessa E(x ) ≥ [E(x)] Allora Var(x) = E(x ) - [E(x)] ≥ 0
2 2 2 2 2
PROPRIETA’ DI UNO STIMATORE : EFFICIENZA RELATIVA
ERRORE QUADRATICO MEDIO : MSE
Ci da idea della distorsione dello stimatore e della sua dispersione rispetto al centro.
(x , … ,x ) c.c. da X
X f(x,θ) , θ Θ e
~ ∈ 1 n
T = T(X , … ,X ) stimatore di θ
n 1 n
MSE(T ) = E(T -θ) media degli errori al quadrato che commettiamo stimando θ con T
2
n n n
= Var(T ) + (Bias(T )) 2
n n
MSE (T ) = quando c’è il pedice vuol dire che è una funzione di θ non di T
( − ) ()
∫
θ n n
ℝ
Dimostro che E(T -θ) = Var(T ) + (Bias(T ))
2 2
n n n
E(T -θ) = E[(T - E(T ) + E(T ) -θ) ] = E[(T - E(T )) + 2(T - E(T )) (E(T ) -θ) + (E(T ) -θ) ] = lin =
2 2 2 2
n n n n n n n n n n
= E[(T - E(T )) ] + E[2(T - E(T )) (E(T ) -θ)] + E[(E(T ) -θ) ] =
2 2
n n n n n n
= E[(T - E(T )) ] + 2 (E(T ) -θ) E[T - E(T )] + (E(T ) -θ) = dove ( Var(T) = E[T-E(T)] )
2 2 2
n n n n n n
= Var(T ) + (E(T ) -θ) =
2
n n
= Var(T ) + (Bias(T )) 2
n n MSE(T ) = Var(T )
Quando uno stimatore è corretto, non distorto e quindi E(T ) = θ
n n n
DEFINIZIONE: T1 è più efficiente di T2
X f(x,θ) , (x , … ,x ) c.c. da X ; e T e T stimatori di θ. Allora posso dire che se:
~ 1 n 1 2
MSE (T ) ≤ MSE (T ) θ Θ , o MSE (T ) < MSE (T ) per almeno un θ in Θ
∀ ∈
1 2
θ θ θ 1 θ 2
( )
E = dati due stimatori è preferibile quello con MSE minore.
( )
Confronto e
( ) ( )
MSE ( ) = Var( ) + Bias( ) = + (- ) = MSE ( ) = Var( ) + 0 =
2 2
θ θ
( ) = < 1 MSE ( ) < MSE ( ) quindi è più efficiente anche se distorto
E =
θ θ
EFFICIENZA ASSOLUTA
Uno stimatore per cui MSE è pari a tale valore minimo è detto efficiente fra tutti gli stimatori non distorti (in termini
assoluti) STIMATORI UMVUE
Sono stimatori corretti a varianza uniformemente minima; cioè uniformemente uguale per ogni θ.
UMVUE
T di θ è detto stimatore se Var(T ) < Var(T) e se E(T )= θ θ Θ
* * * ∀ ∈
dove T è uno stimatore non distorto di θ.
TEOREMA DI UNICITA’ DELL’UMVUE
Se T è UMVUE θ allora è unico.
*
Dimostrazione ∗
Supponiamo che esista U di θ tale che E(U) = θ e Var(U) = Var(T*). Introduciamo V = , terzo stimatore.
E(T*) + E(U) = θ quindi è non distorto.
E(V) =
Var(V) = Var (T*+U) = [ Var(T*) + Var(U) + 2 Cov(T*,U) ] = [ 2 Var(T*) + 2 Cov(T*,U) ] =
[ Var(T*) + ρ = [ Var(T*) + ρ Var(T*)] = Var(T*)
= ∗
(T ) (U)]
≤ 1 , e data Cov(T*,U) = ρ
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.