Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
X
sua attendibilità: devo dire con quale probabilità la media campionaria rappresenta la media dell’universo.
In generale, ciò viene effettuato indicando un intervallo, centrato sulla media campionaria, entro il quale
data una certa probabilità, si trova il vero valore di μ .
0
I limiti inferiore e superiore si calcolano a partire dalla media
/2 X z X z \
campionaria, dal valore Z per (si considera sempre test
0
n n
2 2
bilaterale) e l’errore standard.
I due limiti quindi contengono, con un certa probabilità, il vero valore della media dell’universo. La
: /2
probabilità è in funzione del valore di se è 5%, è 2.5% ===> l’intervallo conterrà la vera media
dell’universo per il 95%. Se voglio aumentare la probabilità che l’intervallo contenga la vera media, devo
ampliare l’intervallo, per cui i due limiti saranno più distanti tra loro.
Inoltre, quando uso il test z uso la media del campione come miglior stima dell’universo.
34 SECONDO TIPO DI TEST: TEST t DI STUDENT
Il test t di Student soddisfa diverse necessità relativamente al confronto tra medie
confronta la media della popolazione con la media del campione quando la dispersione della
popolazione è ignota;
confronta due medie campionarie (gruppo trattato e non trattato):
- per campioni indipendenti (unpaired samples)
- per campioni dipendenti (paired samples).
Nel caso del confronto tra due campioni il test deve dirmi se la differenza tra le medie dei due campioni è
dovuta al caso o no. In questo secondo caso i campioni appartengono a due universi diversi, quindi il
farmaco sarà efficace per una terapia.
Se nel test z si ha un solo parametro da stimare, nel test t sono due: media e dispersione dell’universo.
Quindi, quando μ (media dell’universo) e/o σ sono ignoti, la distribuzione normale non è più adatta a
0
descrivere la distribuzione di probabilità utile. Si deve utilizzare una distribuzione di probabilità diversa,
appunto la distribuzione t.
Per cui, per determinare questi due parametri dell’universo, si devono utilizzare i due parametri del
campione (media e dispersione s) come stima. La distribuzione t tiene conto della simultanea variazione
X
campionaria di questi due valori.
In generale, la distribuzione t di Student ha:
- code più alte
- è più stretta (più centrata alla media rispetto alla distribuzione normale)
- mostra varianza maggiore rispetto alla normale
- all' aumentare dei gradi di libertà essa tende rapidamente alla normale.
Quando si parla di distribuzione t, si fa riferimento ad una famiglia di distribuzioni, perché si deve
considerare la simultanea variazione di due parametri.
La famiglia di distribuzione dipende dal numero di gradi di libertà.
Vari tipi di distribuzione t in funzione del grado di libertà.
Asse Y: valori di probabilità
asse X: valori di una generica variabile X.
All’aumentare dei gradi di libertà (simbolo v) le distribuzioni si
avvicinano all’asse X, per cui le distribuzioni t si avvicinano ad una
distribuzione normale classica.
Inoltre, in queste distribuzione la media è identica (zero), cambia solo
la dispersione standard (molto maggiore per la distribuzione nera).
Quindi ci si dovrà chiedere a quale distribuzione di t il nostro esperimento fa riferimento. 35
GRADI DI LIBERTA’
I gradi di libertà di una variabile aleatoria o di una statistica in genere, corrispondono al numero di misure
indipendenti meno il numero dei vincoli. I vincoli sono valori che rimangono costanti, per esempio la
somma o la media. Ho 5 osservazioni e ne calcolo la media (vincolo). Se la somma è fissa quante di queste
osservazioni devo conoscere per poterle poi conoscere tutte? 4 (4 gradi di libertà) ---> il quinto valore è
vincolato al valore di somma che ho ottenuto.
Quindi dati n dati, ne sono sufficienti n-1 per determinarne l’intera serie a partire dal vincolo stesso.
Attraverso i gradi libertà determino la distribuzione di t (tra quelle infinite) più consona ai dati sperimentali
che ho a disposizione.
SCHEMA RIASSUNTIVO
Per fare un test t di deve:
1. determinare l’ipotesi nulla e l’ipotesi alternativa
2. scegliere il livello di significatività (sempre 5%)
3. definire i gradi di libertà
4. in funzione del tipo di test (a una o due code) e di si determinano i valori critici e la regione di
rifiuto
5. si risolve il test e si vede se il t calcolato è superiore o meno al valore critico (da tabella), funzione
sia di sia del tipo di test prescelto ---> principale differenza col test z (dove al valore trovato si
determinava subito la probabilità)
6. si decide se confutare o accettare H in funzione di
0
1. CONFRONTO TRA MEDIA CAMPIONARIA E MEDIA DELLA POPOLAZIONE
In questo caso, sono due le stime che si devono fare:
- la stima della media della popolazione μ 0
- la stima della deviazione standard della popolazione σ
Se la stima della prima è data dalla media campionaria, la miglior stima della seconda è data dalla
deviazione standard del campione, chiamata s.
Condizione necessaria è che:
la dispersione dell’universo sia ignota;
i dati campionari si devono distribuire secondo una distribuzione normale. Occorre dunque fare
prima un test per verificare che i miei dati si distribuiscano effettivamente secondo tale
distribuzione.
Un tipico esempio in cui si sa che i dati non si distribuiscono normalmente, senza fare il test, è quando ho
una dimensione sperimentale campionaria molto ridotta.
36
Cosa bisogna fare quindi, quando almeno uno dei due campioni, gruppi, ha dati che non seguono una
distribuzione normale?
Si possono aggiungere ulteriori osservazioni, quindi allargare il campione;
Se questo non fosse possibile si può optare per una trasformazione matematica dei dati (radice quadrata,
logaritmo, reciproco, …). Questo cambia la scala delle misure e quindi il campo di variabilità dei dati, e
quindi si può avere più probabilità che i dati si distribuiscano secondo una distribuzione normale, ma non è
detto. Questa trasformazione può rendere difficile interpretare il dato medesimo, quindi si potrà adeguare
questa operazione con ulteriori passaggi matematici;
La terza opzione è l’utilizzo di test (non parametrici) che non dipendono da una distribuzione non normale.
i dati siano osservazioni indipendenti (inteso come diversità) in uno stesso gruppo, campione, cioè
le osservazioni entro gruppo non devono essere in alcun modo associate tra loro, devono essere
diverse le une dalle altre; per esempio se devo testare un farmaco non vado a testarlo su persone
con lo stesso corredo genetico.
Come si calcola il test t quando si confronta media dell’universo e del campione. La formula è identica a
quella dello Z, ovvero c’è una differenza tra medie al numeratore e l’errore standard a denominatore.
L’unica differenza è la presenza della dispersione (deviazione standard) del campione s, e non dell’universo.
s viene infatti usata come migliore stima della dispersione dell’universo.
n-1 (pedice) sono i gradi di libertà ---> va a definire l’esatta distribuzione di t da utilizzare
in questo contesto
X
0
t n il numero di osservazioni
( n 1
) s μ la media della popolazione, è la media campionaria
X
0
n x è una generica i-esima osservazione
i
2
( x x )
i a denominatore, al posto di n c’è n-1: in questo caso utilizzo la deviazione standard del
s
n 1 campione non come misura descrittiva della dispersione del campione, ma come miglior
stima della dispersione dell’universo
Se è richiesto di fare la dispersione di un insieme di dati bisogna calcolare la deviazione standard con n;
se è invece s è richiesta in un test come miglior stima possibile della dispersione ignota di un universo,
allora la miglior stima possibile si ottiene dividendo per n-1. 37
ESEMPIO
Si consideri un vivaio con pianticelle di tipo A, che dopo due mesi raggiungono un’altezza media di μ =25cm.
0
Nel terreno vengono versate sostanze tossiche e per verificarne l’incidenza negativa sulla crescita delle
piante ne vengono seminate 7 che dopo 2 mesi raggiungono le altezze di 22, 25, 21, 23, 24, 25, 21 cm.
Scegliere il tipo di test più adatto e dire se le sostanze tossiche influiscono sull’altezza delle piante.
Test a due code H : μ = μ H : μ ≠ μ = 0.05
0 0 1 0
gradi di libertà e media del campione n-1 = 7-1 = 6 μ = 23
Devo quindi confrontare 23 con 25, e dire se la differenza di 2 cm è dovuta al campionamento (quindi non
significativa) o se la differenza è dovuta ad un fattore importante.
calcolo s 2 2 2
( 22 23
) ( 25 23
) ...( 21 23
) 6 1
.
732
calcolo t (23-25)/(1.732/√7) = -3.055 ----------> si prende sempre il valore assoluto
perché visto che il test è a due code
Valore critico t per = 0.05 e gradi di libertà 6 t = 2.447
0.025; 6
guardo per = 0.025
Bisogna dunque confrontare il t calcolato con il t tabellare
Nella distribuzione normale a t=2.447 corrisponde un integrale di 0.025 sia a
destra che a sinistra della distribuzione (test a due code).
Il t calcolato è 3.055 e cade a destra di 2.447, quindi in piena area di rifiuto.
Decisione Accetto H e rifiuto H ,
1 0
quindi concludo che la differenza tra le due medie è significativa, ovvero che
l’altezza delle piante è stata influenzata dalle sostanza tossiche
Quindi i gradi di libertà permettono di distinguere l’esatta distribuzione di t tra le tante, di questa
distribuzione definisco l’area di rifiuto tramite e quindi, incrociando, determino il valore di t tabellare.
INTERVALLO DI CONFIDENZA
Anche in questo caso, come per il test Z, è possibile definire s s
un intervallo di confidenza per un prescelto livello di X t X t
0
; n 1 ; n 1
. n n
2 2
significatività
38 2. CONFRONTO TRA DUE MEDIE CAMPIONARIE
Si confrontano quindi due campioni, ognuno con la propria media.
I due campioni possono essere dipendenti o indipendenti tra loro quando si fa quindi una distinzione tra
due gruppi, campioni (non entro gruppi come visto prima).
Esempio pratico
Ho raccolto le osservazio