Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
DISTRIBUZIONE DELLA VC VARIANZA CAMPIONARIA
- Consideriamo un campione bernoulliano composto da n determinazioni (x , x , …, x ) delle vc (X ,
1 2 n 1
X , …, X ): campione osservato.
2 n
- Le variabili X , X , …, X sono iid.
1 2 n
- Definiamo varianza campionaria la seguente statistica:
- Quando questa funzione viene applicata al campione osservato restituisce un numero, quando
viene riferita al campione inteso come n-upla di variabili casuali i.i.d. (X , X , …, X ) la chiamiamo
1 2 n
statistica campionaria.
Vc varianza campionaria corretta
A differenza della media campionaria, non si verifica l’uguaglianza perfetta tra valore atteso della varianza
2
campionaria e il suo omologo nella popolazione (σ ). I due valori risultano connessi da un fattore
moltiplicativo, come segue:
Perciò, definiamo un’altra statistica detta varianza campionaria corretta:
Osserviamo che:
Alice Prederi
In questo modo avremo:
Distribuzione della vc varianza campionaria corretta
La distribuzione dalla vc varianza campionaria corretta ha una funzione di densità basata sul chi quadro con
n-1 gradi di libertà:
La varianza della vc varianza campionaria corretta è pari a:
Dove μ¯ indica il momento centrale di ordine quarto.
4
24/11/2023 Lezione 13 – stima puntuale e stima intervallare
STIMA PUNTUALE
- Ogni inferenza relativa a una popolazione è basata su statistiche campionarie (vc di vc), in quanto
non conosciamo i parametri relativi alla popolazione.
- La scelta delle statistiche opportune dipende dal parametro sconosciuto considerato.
- Uno stimatore di un parametro θ della popolazione:
o È una variabile casuale che dipende dall’informazione contenuta nel campione (funzione T
(X , X , …, X )) che dipende dalle vc X , X , …, X .
1 2 n 1 2 n
o Il suo valore fornisce un’approssimazione del valore sconosciuto del parametro.
- Uno specifico valore della variabile casuale usata come stimatore viene chiamato stima puntuale:
valore restituito dalla funzione sulle osservazioni di un campione effettivo, ovvero t = T(x , x , …, x ).
1 2 n
- Quindi possiamo stimare il parametro θ della popolazione con il valore di una statistica campionaria
(una stima puntuale).
Stimatori puntuali – proprietà
- Non esiste un unico meccanismo per determinare lo stimatore puntuale “migliore”.
- È utile dare una panoramica delle proprietà di cui possono godere le statistiche che usiamo come
stimatori.
- Ragionando su tali proprietà, possiamo decidere quale statistica campionaria è più adatta per
stimare un parametro della popolazione (media, varianza, ecc.).
- Gli stimatori hanno certe proprietà desiderabili, come:
o Non distorsione o correttezza.
o Non distorsione asintotica.
o Efficienza.
o Consistenza.
o Robustezza.
Stimatore non distorto o corretto
Uno stimatore T viene definito stimatore non distorto o corretto o non affetto da errore sistematico per il
parametro θ se il suo valore atteso coincide con il parametro θ stesso, ovvero:
- Esempio: la media e la mediana campionarie sono due stimatori non distorti per la media della
popolazione μ.
Alice Prederi
- Non distorsione non significa che un particolare valore di T debba essere uguale a θ, ma che ha la
capacità di stimare correttamente in media un parametro della popolazione.
- Possiamo pensare a E(T) come alla media dei valori che T assumerebbe in corrispondenza a tutti i
possibili campioni estraibili dalla popolazione. Ma che talvolta sovrastimerà e altre volte
sottostimerà il parametro.
Non distorsione – rappresentazione grafica
Distorsione
Sia T uno stimatore per il parametro θ.
Distorsione (bias) di T: differenza tra la sua media e θ, ovvero:
La distorsione di uno stimatore non distorto è pari a zero.
Stimatore asintoticamente non distorto
Sia T uno stimatore per il parametro θ.
T è uno stimatore asintoticamente non distorto (asintoticamente corretto) per il parametro θ se la
distorsione tende a zero quando n tende a infinito, cioè se all’aumentare dell’ampiezza del campione, la
distorsione diventa sempre più piccola.
- Esempi: la varianza campionaria non è uno stimatore corretto (ma la possiamo correggere). Al
crescere di n, la varianza campionaria e la varianza campionaria corretta tendono a coincidere,
pertanto diciamo che la varianza campionaria è solo asintoticamente corretta.
Efficienza
In molti problemi pratici si possono ottenere diversi stimatori non distorti per uno stesso parametro θ. È
necessario individuare lo stimatore migliore.
Lo stimatore più efficiente per parametro θ è lo stimatore non distorto con la varianza più piccola.
- Supponiamo di avere due stimatori corretti T e T per un generico parametro basati sullo stesso
1 2
numero di osservazioni campionarie n. Lo stimatore T si dice più efficiente dello stimatore T se ha
1 2
la varianza minore (maggiore precisione), ovvero se
- L’efficienza relativa di uno stimatore corretto T rispetto a uno stimatore corretto T è il rapporto tra
1 2
le loro varianze (precisioni):
- Se gli stimatori non sono corretti, l’efficienza relativa è definita come:
- Esempio: la media campionaria è uno stimatore più efficiente della mediana.
- Quando uno stimatore risulta più efficiente di qualsiasi altro si parla di efficienza assoluta.
Alice Prederi
Consistenza
Uno stimatore T è consistente se all’aumentare della dimensione del campione, si concentra sempre più sul
parametro θ, cioè se la distorsione B e la varianza di T tendono entrambe a zero.
- Errore quadratico medio (Mean Square Error) MSE: misura che tiene conto sia della varianza sia
della distorsione di uno stimatore, definita come:
- L’MSE risulta scomponibile nelle due componenti che ci interessano: varianza dello stimatore
dovuta all’errore casuale (imprecisione) e quadrato della distorsione:
- Quindi, lo stimatore T è consistente se l’MSE tende a 0 quando n tende a infinito. Misura
l’accuratezza dello stimatore.
- Uno stimatore molto efficiente può risultare inaccurato perché la sua distorsione è ampia.
Viceversa, uno stimatore corretto può risultare inaccurato perché inefficiente.
Robustezza
Uno stimatore è detto robusto rispetto alla violazione di un certo assunto riguardante la distribuzione che
caratterizza una popolazione, se il suo valore non è sensibilmente influenzato dalla violazione medesima.
- Esempio: nella fase di rilevazione dei dati possono essere stati fatti errori materiali di registrazione
che alterano sensibilmente le code di una distribuzione che ci si attendeva normale. Questi valori
anomali influenzeranno il risultato della stima, allontanandoci dal vero valore del parametro da
stimare.
- Se si sospetta la presenza di valori anomali si preferisce talvolta ricorrere a stimatori meno efficienti
ma in compenso più robusti, cioè meno sensibili alle anomalie.
o Esempio: talvolta alla media campionaria si preferisce la meno, efficiente, ma più robusta,
mediana campionaria.
Stima con la media e la mediana
- La media campionaria è più efficiente della mediana campionaria come stimatore puntuale per la
media della popolazione μ.
- Uno dei vantaggi della mediana, rispetto alla media, è quello di dare meno peso alle osservazioni
estreme.
- Se la popolazione non fosse distribuita normalmente, la media campionaria potrebbe non essere lo
stimatore più efficiente per la media.
Metodi per costruire gli stimatori
Esistono due approcci principali per costruire gli stimatori:
- Metodo dei minimi quadrati (George U. Yule 1871-1951, Karl Pearson 1857-1936): stima il/i
parametro/i mediante quel valore m che rende minima la somma delle distanze al quadrato tra le
osservazioni e il parametro stesso. L’assunto è che i valori osservati siano in gran parte molto
prossimi ai loro valori attesi.
- Metodo della massima verosimiglianza (Ronald A. Fisher 1890-1962): basato sull’idea che le
caratteristiche reali della popolazione generano con diversi livelli di probabilità distribuzioni
campionarie diverse.
o Se ragioniamo all’inverso, vediamo che, dato un certo campione, il metodo cerca
sistematicamente tra i diversi valori attribuibili ai parametri della popolazione e seleziona
quelle stime che con più probabilità sono congruenti con le osservazioni campionarie.
Alice Prederi
o Non è distribution-free, ovvero usa la forma funzionale della vc che è assunta a modello
della popolazione f(X; θ).
Stima puntuale e stima intervallare a confronto
- Uno stimatore è una variabile casuale.
- La stima puntuale è un unico valore.
- Una stima intervallare o intervallo di confidenza fornisce ulteriori informazioni circa la variabilità
del parametro sconosciuto.
STIMA INTERVALLARE
Oltre la stima puntuale
- Nella stima puntuale, a prescindere dei metodi utilizzati e dalle qualità degli stimatori, non
possiamo aspettarci che la stima coincida con il valore del parametro θ.
- Anzi, se lo stimatore T è una vc continua, la probabilità di indovinare esattamente il valore di θ è un
evento impossibile.
- Quale è il grado di approssimazione che ragionevolmente possiamo aspettarci?
- Quanta incertezza è associata a una stima puntuale di un parametro della popolazione?
Stima intervallare
- Nella maggior parte delle applicazioni pratiche la stima puntuale non è adeguata. È necessario
abbinarla a una misura di variabilità.
- Questo ci permette di ottenere un intervallo di valori all’interno del quale si potrà verosimilmente
trovare il parametro da stimare (con una certa probabilità).
- Rispetto a una stima puntuale, una stima per intervallo fornisce maggiori informazioni sulla
caratteristica della popolazione oggetto di studio.
- Tali stime per intervallo sono chiamate intervalli di confidenza.
- I limiti di tale intervallo (L1, L2) sono detti limiti di confidenza o di fiducia. Tanto più ampio sarà
l’intervallo, tanto maggiore sarà la probabilità che esso contenga θ.
Intervalli di confidenza (IC)
Un intervallo di confidenza fornisce una serie di informazioni:
- Prende in considerazione la variazione nel valore della statistica da campione a campione.
- È basato sulle osservazioni di un campione.
- Fornisce informazioni sulla vicinanza allo sconosciuto parametro della popolazione.
- È espresso in termini di livello di confidenza 1 – α fissato a priori. I valori più usati per 1 &