Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
X MEDIA E s VARIABILI CASUALI
Si considerino campioni estratti dalla popolazione in modo casuale, ovvero in modo tale che ogni individuo della popolazione abbia la stessa probabilità di essere incluso nel campione. Poiché il campione rappresenta una porzione casuale della popolazione dalla quale viene estratto, anche i valori di x media e s varieranno in modo casuale perché calcolati sui campioni stessi. Pertanto x media e s forniscono una stima dei valori veri µ e σ con un certo errore casuale. All'aumentare della dimensione n del campione la stima dei parametri µ e σ è attesa essere sempre più affidabile poiché è maggiore l'informazione acquisita sulla distribuzione teorica. L'errore casuale diminuisce all'aumentare della dimensione campionaria e all'aumentare della variabile stessa. DISTRIBUZIONI DI CAMPIONAMENTO Immaginiamo ora di estrarre tutti i campioni possibili da una popolazione e dicalcolare una misura di sintesi, cioè una media (una per ogni campione). Successivamente rappresentiamo, come distribuzione empirica, i valori delle medie all'interno di un istogramma. Quello che otteniamo è la distribuzione campionaria che descrive come possono cambiare casualmente i valori di una statistica calcolata su un campione casuale. Inoltre, descrive qual è la variabilità della stima stessa, cioè della media campionaria intorno al valore della media della popolazione.
DISTRIBUZIONE CAMPIONARIA DI X MEDIO
Per definire la distribuzione di campionamento della media x medio:
- supponiamo di simulare m=1000 diversi campioni casuali di n=1, 5, 10, 50 osservazioni da una popolazione teorica con distribuzione gaussiana
- calcoliamo le medie x medio per ciascun campione simulato
- riassumiamo tutte le stime ottenute negli m campioni, osservando la distribuzione empirica delle medie stesse
A partire da questo modello empirico si potrebbe identificare il
modello teorico continuo per la distribuzione della media (distribuzione campionaria). Nella realtà ovviamente non si procede estraendo più campioni ma se ne considera uno solo; ciò che abbiamo appreso dall'estrazione simulata di più campioni ci aiuterà nella nostra operazione di stima a partire dal singolo campione di dimensione n. Aumentando la numerosità del campione → ampiezza 10-50 la distribuzione si concentra attorno ai valori della vera media. All'aumentare di n varia quindi la variabilità della distribuzione campionaria della media. Dalle simulazioni si nota che:
- all'aumentare di n la distribuzione di x medio tende a concentrarsi attorno a μ ovvero la stima di μ da parte di x medio diviene sempre più precisa
- la distribuzione della stime appare ancora avere la forma della distribuzione Gaussiana con deviazione standard decrescente al crescere di n.
Si dimostra infatti che se si estrae un
campione casuale di qualunque dimensione n da una popolazione avente distribuzione normale con media µ e deviazione standard σ, allora la media campionaria è una variabile casuale che si distribuisce anch’essa secondo un modello di distribuzione di tipo Gaussiano con media µ e deviazione standard σ/n.
CAMPIONAMENTO DA DISTRIBUZIONI NON GAUSSIANE
Ipotizziamo che la variabile originale non sia una distribuzione gaussiana, in particolare ipotizziamo la distribuzione uniforme in cui si ha probabilità uguale per tutti i valori di essere estratti. Anche questo tipo di distribuzione è caratterizzata da un certo valore della media e della deviazione standard.
Utilizziamo ora una distribuzione uniforme che è definita in un intervallo di valori che vada da 10 a 60, con una media µ pari a 35 e una deviazione standard pari a 14,43. Simuliamo sempre 1000 campioni casuali di n= 1, 5, 10, 50 osservazioni da una popolazione.
varianza /n. Questo risultato è noto come Teorema del Limite Centrale. Per visualizzare queste informazioni, possiamo utilizzare i seguenti tag HTML:teorica;calcoliamo le medie e le riassumiamo nei grafici dove riportiamo sia la distribuzione empirica che la distribuzione teorica (interpola i dati rappresentati dall'istogramma). Con campioni di dimensione bassa la distribuzione delle medie campionarie sembra rimanere uniforme (la linea della distribuzione teorica è piatta). Più si aumenta la dimensione del campione, più la forma della distribuzione teorica sembra essere vicina a quella della normale. Il valore della dispersione dei dati, e quindi anche la deviazione standard della gaussiana, diminuisce all'aumentare del numero di dati nel campione (la curva tende ad assottigliarsi intorno al valore centrale).
TEOREMA DEL LIMITE CENTRALE 2
Dato un campione di dimensioni n; tratto da una variabile casuale X con qualunque distribuzione e con media µ e varianza σ^2, la variabile casuale media campionaria (X medio) viene ben approssimata al crescere di n, dalla distribuzione gaussiana con media µ e varianza σ^2/n. Questo risultato è noto come Teorema del Limite Centrale.
si avvicini a una distribuzione gaussiana. La varianza (o deviazione standard) σ è un parametro che indica la dispersione dei dati rispetto alla media. L'errore standard della media, indicato come √ è una misura dell'incertezza con cui la media campionaria X medio stima la media della popolazione. Secondo il teorema centrale del limite, le medie campionarie si concentrano intorno alla media della popolazione più di quanto avvenga per le singole misure. Inoltre, la variabilità delle medie campionarie è direttamente proporzionale alla variabilità della popolazione e inversamente proporzionale a n. In altre parole, la variabilità delle medie campionarie diminuisce all'aumentare di n. Quindi, se la distribuzione della popolazione è gaussiana, allora la media campionaria si distribuisce come una gaussiana per qualunque valore di n. Più la forma della distribuzione dei dati della popolazione si allontana dal modello gaussiano, maggiore è il valore di n necessario affinché la distribuzione della media campionaria si avvicini a una distribuzione gaussiana.sia effettivamente Gaussiana. La distribuzione campionaria delle medie campionarie (X medio) ha media pari alla media della popolazione; la varianza invece è direttamente proporzionale alla varianza della popolazione (distribuzione originale). La deviazione standard di X medio aumenta all'aumentare di σ. DISTRIBUZIONE SGPT/ALT Pensiamo ora ai valori di alanina aminotransferasi in 1000 soggetti maschi adulti. È noto che la distribuzione di ALT è fortemente asimmetrico-positiva per la presenza di individui con danni epatici causati da alcol, farmaci, infezioni virali. La linea superiore (rossa) rappresenta la distribuzione dei valori di ALT nel campione. La linea sottostante (verde) invece rappresenta la funzione gaussiana che corrisponde ai valori della distribuzione delle medie campionarie. Pur partendo da una distribuzione di partenza non simmetrica (era asimmetrica-positiva) se utilizziamo campioni di una certa numerosità, aumentandoLa numerosità dei dati all'interno del campione, avremo la distribuzione delle medie campionarie di tipo gaussiana. In particolare, si concentra sempre più intorno ai valori centrali, pari alla media, mano a mano che la dimensione del campione aumenta.
CONSEGUENZE DEL TEOREMA DEL LIMITE CENTRALE
Il teorema centrale del limite consente quindi di quantificare l'incertezza insita nella stima del parametro µ. Poiché la distribuzione di x medio è Gaussiana con media µ e deviazione standard /n , allora riferendoci alla variabile standardizzata possiamo scrivere: 1/2σZ si distribuisce secondo una distribuzione Gaussiana standardizzata con media 0 e deviazione standard 1. Possiamo quindi utilizzare le tabelle della gaussiana standardizzata per far inferenza sul valore della media della popolazione. Z si distribuisce quindi secondo una distribuzione gaussiana standardizzata al crescere di n. All'aumentare di n si avrà una
maggiore precisione nell'approssimazione a una gaussiana. Quindi, il teorema del limite centrale a volte viene applicato con delle numerosità piuttosto piccole, è fondamentale comunque capire quale sia la distribuzione di partenza.
Quando il valore del parametro è ignoto possiamo stimarlo dai dati. La statistica che permette di calcolare la stima campionaria relativamente alla deviazione standard è la radice quadrata di una sommatoria degli scarti al quadrato della media fratto n-1.
Se partiamo dalla distribuzione di campionamento e facciamo una standardizzazione dobbiamo sostituire il valore di con il valore stimato dai dati (valore di s). Otteniamo quindi il rapporto t.σ
Qual è la distribuzione di questa quantità?
Possiamo vederlo in questi grafici dove le linee tratteggiate rappresentano la distribuzione t di Student. Questa distribuzione approssima meglio la forma empirica dei dati nel momento in cui i campioni sono piccoli.
Quindi se i valori sono piccoli e voglio stimare, usare una t di Student invece che una σ gaussiana (linea continua) è la scelta migliore. All'aumentare di n invece le due distribuzioni tendono ad assomigliarsi fino a essere equivalenti (se n >60). La distribuzione t di student approssima meglio la distribuzione empirica a basse numerosità. La distribuzione t di Student, indicata con t, è caratterizzata dal parametro d che corrisponde al numero di gradi di libertà ed è legato alla numerosità del campione. d = n – 1 → gradi di libertà. Così come per distinguere una gaussiana dall'altra si utilizzano i parametri μ e σ, per distinguere una t di Student da un'altra σ si utilizza d. Questa è la forma della distribuzione t con un numero diverso di gradi di libertà pari a 1, 5, 10, 20. Esistono anche le tavole delle t di Student. Più alto è il numero dei gradi di libertà,più la t di Student si avvicina a una gaussiana standardizzata (perché chiaramente è più alta la numerosità campionaria, essendo d = n - 1).
INFERENZA STATISTICA: INTERVALLI DI CONFIDENZA
ERRORE DI STIMA
Come ottenere informazioni sulla media della popolazione, conoscendo la media del campione
- Si seleziona un campione di n individui
- Su questo campione si ottiene una media campionaria x medio, che è una stima puntuale della media della popolazione µ (concetto che si oppone alla stima intervallare che viene data dall’intervallo di confidenza)
- Considerando per X una distribuzione Gaussiana: P(X=µ) = 0
- In generale, x medio sarà una stima per eccesso o per difetto di µ → ha errori:
µ = x medio ±errore
Come definire l’errore
È necessario basarsi sulla variabile casuale X, in modo da definire una procedura che valga per ogni valore di media x medio
Si potrebbe indicare un intervallo che ha
una certa probabilità π (tipicamente 0.95) di contenere μ: P(X-errore ≤ μ ≤ X+errore) = ππ può essere identificato anche come