Questo procedimento per la determinazione della zona critica dipende dalla specificazione dell’H1 (ipotesi alternativa):
Quelle più utilizzate sono quelle in base alle quali la media> µ = 0 con la media = da µ = 0.
In base a come è specificata l’ipotesi alternativa viene determinata la regione critica:
- Se l’ipotesi alternativa è µ = da µ = 0, allora la probabilità d’errore viene suddivisa nelle due code:
il nostro errore α viene suddiviso in una metà nella coda sx e una metà nella coda dx, facendo si che cambino
i valori delle soglie critiche (ipotesi alternative bidirezionali); avremo quindi avuto due valori di z da
determinare: uno z tale che la probabilità che lo z sia maggiore di questo valore è dello 0,025, e un altro valore
di z tale che la probabilità che z è inferiore a questo valore di z è 0,025 (-1,96 e 1,96, quindi avremmo
comunque rifiutato H0, perché il valore di z che corrisponde a 46,9 è 1,986 che è maggiore di 1,96); avremmo
anche potuto esprimere la regione critica anche nei termini delle medie campionarie: in questo caso devo trovare il valore di x a partire da z:
La nostra ragione critica sarà data per dei valori della media campionaria inferiori a 29,8, oppure superiori a
46,8; la nostra media valeva 46,9, quindi anche se esprimiamo la regione critica nei termini della media
campionaria rifiutiamo HO (46,9 > 46,8, quindi siamo all’interno della regione critica);
- Se invece specifichiamo delle ipotesi alternative unidirezionali ( µ < µ =0 ), tutto l’errore α è concentrato
in una coda (a sx);
…QUINDI…
- Quando noi utilizziamo le informazioni su un solo campione per far … su un parametro della popolazione
(media), la nostra ipotesi nulla è specificata per indicare le situazioni in cui le differenze sono attribuite al caso;
- L’ipotesi alternativa può essere formulata in diversi modi:
1) ipotesi unidirezionale;
2) ipotesi bidirezionale;
- Il test nel caso di una verifica di ipotesi su una media è costruito così: ; affinchè noi possiamo applicare questo dobbiamo rispettare delle
assunzioni: quando n > 30 possiamo applicare il test, se invece n < 30 e non sappiamo come si distribuisce la variabile nella popolazione, non
possiamo applicare il test, se invece n < 30 ma possiamo ipotizzare la normalità della variabile grazie ai dati del campione, possiamo
applicare il test;
- Per quanto riguarda la soglia critica, possiamo trovare due tipologie di test: a una coda (ipotesi alternativa mono direzionale ) dovremmo individuare
il valore di z associato a una probabilità che si concentra in una delle due code; se si tratta invece di un test a due code (ipotesi alternativa
bidirezionale) dovremmo individuare quei valori di z tali che lasciano nelle due code 5% della distribuzione complessiva, e per ogni coda 0,05%,
- La regola di decisione dipende da dove si colloca il valore osservato (valore critico): nel caso di H0 il valore osservato dee cadere all’interno della
zona critica
Esercizio: Il valore di colesterolo serico dei ragazzi degli USA è µ = 175 mg /ml con s = 50. Su un CCS di 39 ragazzi il cui padre aveva
avuto una storia di infarto, la media di colesterolo era di 195 mg/ml. Utilizzando un test a due code, valutate se il campione studiato è
significativamente differente dall’atteso.
- L’ipotesi H0 è l’ipotesi in base alla quale la differenza che osservo tra la popolazione di 39 soggetti è quella generale è una differenza dovuta solo al
caso —> secondo H0 quindi quale sarà la media del colesterolo nella popolazione di 39 soggetti (ragazzo con padre che ha avuto un infarto)?
- Calcolo la z del campione:
- Definiamo la regione critica (nei termini della z):
N.B. Dire “non rifiuto H0” è diverso da dire che è vera H0, perché con “non rifiuto” io dico che non posso sapere se effettivamente
l’ipotesi che la mia media sia = 175 sia vera perché non ho abbastanza evidenze per saperlo, se io rifiuto H0 invece posso dire che la mia
media è = 175;
—> Se invece α = 0,05 ?
Conclusione: se io volessi dire con un errore del 5% quale è la differenza delle due medie posso dire che sono diverse, invece se lo voglio dire con un
errore dell’1% non lo posso dire con sicurezza.
—> STESSO ESERCIZIO CON DATI MODIFICATI
Avendo un n<30 utilizzo il test t invece del test z:
—> Se invece α = 0,05?
—> Con proporzione campionaria: se invece di calcolare la verifica di ipotesi con la media campionaria la dovessimo calcolare con la
proporzione campionaria?
Sappiamo che nella proporzione campionaria i valori di media e di deviazione standard equivalgono a : posso quindi calcolare il
test: allo stesso modo con cui noi scopriamo un test z della media secondo la formula , posso farlo anche per la proporzione con
l’espressione ;
Esercizio: la prevalenza di asma e del 5%. Su un campione di 1000 bambini atopici, 98 avevano l’asma. Secondo voi esiste
un’associazione tra asma e atopia?
Rifiutando H0 io sto affermando che la popolazione di asmatici nella popolazione di bambini atipici è significativamente diversa dalla
popolazione di bambini asmatici nella popolazione di bambini generale;
TEST PER IL CONFRONTO DI UNA STIMA CAMPIONARIA CON UN PARAMETRO DELLA
POPOLAZIONE
Per confrontare la stima campionaria con un parametro della popolazione utilizzo questa formula di test , la quale ci da un’idea generale di
come viene costruito il test per verificare un’ipotesi sul parametro, dove è la stima del parametro nel nostro campione (ciò che utilizziamo per andare
a verificare l’ipotesi sul parametro nella popolazione, ed è una quantità che deriva dall’osservazione del nostro campione), invece è l’ipotesi che noi
facciamo sotto H0, ipotizzando che H0 sia valida e ultimo al denominatore abbiamo ES del parametro, (errore standard) che può assumere diverse
forme a seconda di qual’è il parametro per il quale costruiamo la verifica d’ipotesi: nel caso della media, l’ES = ; quando invece abbiamo
considerato il test per la verifica di una proporzione l’ES = ;
Questa tabella riassume le situazioni che abbiamo visto:
—> situazioni che riguardano la media:
- se d.s. è nota oppure n>30, allora possiamo utilizzare il test z, e l’ES sarà dato da , oppure da ; in questo caso, la d.s.
standard stimata nel campione è una buona stima della d.s. nella popolazione, quindi possiamo applicare il test senza problemi;
- se invece la d.s. è ignota e n<30, la d.s. campionaria non è una buona stima della d.s. nella popolazione, quindi utilizziamo il test t
(Stessa forma ma si distribuisce come una t di student, con grado di libertà n-1); comunque dobbiamo ipotizzare la normalità della variabile nella
popolazione, altrimenti non potremmo adottare nemmeno il test t;
—> situazioni che riguardano la proporzione:
- nel primo caso, se n>30 e n x p>10, allora possiamo adottare un test z, e l’ES è data da ;
CONFRONTO TRA DUE CAMPIONI
Per confrontare due campioni, prima di tutto si osservano le informazioni riguardanti il campione, e non quella su tutta la popolazione:
- 1 esempio: dobbiamo confrontare l’efficacia di due trattamenti A e B che riducono l’ipertensione, i quali vengono sperimentati su due gruppi di soggetti
ipertesi che sono due campioni estratti da due popolazioni: quella che riceverà il trattamento A, e quella ce riceverà il trattamento B —> ci interessa
quindi confrontare la pressione arteriosa della popolazione di pazienti trattati con A, con la pressione dei pazienti trattati con B, per capire se c’è una
differenza tra i due gruppi;
- 2 esempio: dobbiamo confrontare la mortalità per tumore alla vescica di un gruppo di soggetti esposti ad una sostanza pericolosa, con un gruppo di
soggetti non esposti: quello che osserviamo a livello del campione c permette di arrivare ad una conclusione sul fatto che questa esposizione sia
effettivamente dannosa, vogliamo capire se quindi la mortalità nei due gruppi è diversa;
L’obiettivo quindi è fare inferenze (dire qualcosa sulle due popolazioni) utilizzando la differenza tra parametri che riguardano le due
δ, dato da
popolazioni. In questo caso ci interessa arrivare ad una conclusione su questo parametro µ1 - µ2: nel caso del primo esempio, dato dalla
differenza tra la pressione arteriosa nella popolazione di coloro trattati con A e di quelli trattati con B, nel caso del 2 esempio invece ci interessa fare un
inferenza che riguarda la differenza nella mortalità dovuta al tumore nella popolazione di soggetti esposti e quelli non esposti, e lo facciamo facendo
x1 - x2 (medie campionarie): all’aumentare della differenza tra le due medie, avremmo una maggiore evidenza nella differenza a livello reale, e
al contrario minore sarà la differenza tra le due medie, minore sarà la differenza poi a livello reale.
—> Ma come facciamo a determinare quella soglia che ci distingue queste due situazioni contrapposte (medie nelle popolazioni uguali o
diverse)? Con la verifica di ipotesi.
STIMA CAMPIONARIA DI X - X
Osservazioni prima popolazione: media = µ , varianza = certa varianza (σ , d.s. σ ); immaginiamo che queste osservazioni siano distribuite normalmente;
Osservazioni seconda popolazione: media = µ , varianza = certa varianza (σ , d.s. σ ); immaginiamo che queste osservazioni siano distribuite
normalmente,
Se sono vere queste assunzioni, come si distribuisce la media campionaria delle osservazioni dei due campioni? Si distribuiranno come una normale,
con una media uguale allo stesso valore della popolazione, e una d.s. uguale alla d.s. della variabile nella popolazione diviso la radice quadrata della
numerosità campionaria:
(Se avessimo delle n>30, allora queste considerazioni sarebbero valide anche se la variabile nella popolazione non fosse normale).
—> Per farci un’idea di ciò che accade a livello di popolazione dobbiamo determinare le ipotesi H0 (che faccio quando suppongo che tutte le
differenze che osservo siano dovute al caso) e H1: H0 = µ = µ . Se poi faccio la differenza tra le due medie campionarie, posso descrivere come
si distribuisce la differenza di queste:
Se ripetiamo questa procedura infinite volte possiamo descrivere la distribuzione della differenza delle medie campionarie;
Per quanto riguarda la varianza invece, si tratta di un indicatore che descrive la variabilità della differenza delle medie campionarie, ed è una
quantità che dipende dalla variabilità della variabile nella 1 popolazione (σ ), dalla variabilità della variabile nella 2 popolazione (σ ), e dalla numerosità
dei campioni ( grandezza campioni, variabilità);
—> Dobbiamo quindi verificare H0, e per costruire il test abbiamo bisogno di calcolare l’errore standard:
Quindi, abbiamo osservato che la differenza delle due medie campionarie si distribuisce come una normale, centrata sulla differenza delle due medie nelle
popolazioni e ha una deviazione standard che è . Questa ipotesi ci permette di verificare la nostra ipotesi HO.
Ipotesi H0: µ = µ ;
Ipotesi alternativa H1: possiamo formularla in due modi: - bidirezionale (considero entrambe le direzioni):
- unidirezionale (ipotizziamo che una delle due medie sia più grande dell’altra):
In base a come ho formulato l’ipotesi alternativa, delimito la regione critica: - bidirezionale (considero le due code):
- unidirezionale (concentro la regione critica in una delle due code):
α (probabilità di errore che decidiamo di
Stiamo considerando delle distribuzioni normali, e le determiniamo tenendo conto del valore di
compiere).
Il test viene costruito considerando l’ipotesi H0, quindi la differenza delle medie campionarie si distribuirà come una normale che ha media
= 0 (data dalla differenza delle due medie, che in questa caso supponiamo siano uguali);
Nel caso in cui conosciamo le d.s. campionarie, allora utilizzo il test z e applico questa formula:
Se invece non conosco le d.s. campionarie, MA n>30, allora utilizzo comunque il test z, con la sola differenza che al posto dei valori
di δ abbiamo le stime delle varianze (s): 1) Si può affermare che l’età al menarca è inferiore nelle donne più giovani?
- Ipotesi HO: x = x
- È stata formulata un’ipotesi alternativa bidirezionale, quindi ipotizziamo che l’età al menarca della 1 popolazione = età al menarca 2 popolazione;
- Utilizziamo il test z;
p-value: è la probabilità di osservare un valore come quello che abbiamo osservato nel nostro campione o un valore più estremo (nel caso
dell’esempio, sarebbe la probabilità di osservare un valore come 6,95 oppure più estremo),
Se avessi dovuto determinare l’intervallo di confidenza al 95% della differenza tra le due medie campionarie è pari a:
TEST PER IL CONFRONTO TRA DUE PROPORZIONI SU GRANDI CAMPIONI
Conclusione: la proporzione di mortalità nella popolazione trattata con trattamento A è inferiore alla proporzione di mortalità di coloro trattati con
trattamento B;
TEST PER IL CONFRONTO TRA DUE MEDIE CAMPIONARIE SU PICCOLI CAMPIONI
Utilizziamo un metodo differente dal precedente, perchè quand non abbiamo informazioni sulla variabilità della variabile nella popolazione e dobbiamo usare
le informazioni campionarie per stimare la variabilità nella popolazione, la deviazione standard campionaria NON E’ UNA BUONA STIMA della reale
deviazione standard nella popolazione;
S = deviazione standard campionaria;
σ = reale variabilità (d.s.) di tutta la popolazione;
In questa situazione non possiamo utilizzare il test di z, ma utilizziamo il test di t (si distribuisce come una t di student), e per applicarlo dobbiamo fare delle
considerazioni:
1) che la variabile sia normale in tutte le popolazioni che stiamo confrontando, e spesso non abbiamo dei mezzi che esserne certi: vado a vedere la
distribuzione empirica della variabile sulla base dei dati campionari e vedere più o meno si può ipotizzare un andamento normale;
2) , cioè che le d.s. della variabile nelle due popolazioni siano uguali, CONDIZIONE DI OMOSCHEDASTICITA’;
- Sotto H0 quindi:
Se è vero che le varianze nelle due popolazioni sono uguali, allora siano la varianza campionaria che noi calcoliamo usando i dati del primo campione e la
varianza campionaria che calcoliamo usando i dati del secondo campione delle stime della stessa varianza che vale per entrambe le popolazioni;
Come calcoliamo questa varianza stimata (s)?
Utilizziamo sia la stima della varianza campionaria del 1campione, sia la stima della varianza che arriva dal 2 campione: le combiniamo facendo un media
ponderata, dove i pesi della media ponderata sono dati n1 e n2 (si tratta quindi di una stima della varianza delle due popolazioni, supponendo sia la stessa)
Per quanto riguarda l’errore standard di x - x è uguale a quello che abbiamo visto nel caso dei grandi campioni, con l’unica differenza che abbiamo la stessa stima
della varianza campionaria per entrambi i campioni
Come si modifica il test?
Assume sempre la stessa struttura: differenza delle due medie campionarie diviso l’errore standard: ;
Si distribuisce come una t di student, che ha un numero di grado di libertà dato dalla somma di n1 e n2 - 2: ;
Come determino la regione critica?
Viene fatta sulla base della definizione dell’ipotesi alternativa:
- ipotesi bidirezionale: la regione critica sarà determinata individuando i due valori critici t, e le due regioni critiche collocate nelle due code
- ipotesi unidirezionale: avremo una regione critica concentrata in una delle due code
Nel momento in cui effettuiamo un test, possiamo compiere due tipi di errori:
1. Errore di primo tipo: rifiutare H0 quando H0 è vera. La probabilità di commettere questo errore è α;
2. Errore di secondo tipo: accettare H0 quando è vera H1. La probabilità di commettere questo tipo di errore è β;
Questi due errori sono in competizione: il nostro desiderio sarebbe di minimizzare il più possibile entrambi gli errori, e di compiere un piccolo errore in
entrambe le situazioni, però questo non è possibile perchè quando si cerca di minimizzare l’errore di primo tipo si verifica che aumenta la
probabilità di compiere un errore di secondo tipo e viceversa.
Esercizio:
La verifica di ipotesi prevede che fissiamo un valore α: sulla base della probabilità di errore che decidiamo automaticamente si determina anche la probabilità
di errore di secondo tipo;
Questo ci permette di determinare la probabilità di compiere un errore di secondo tipo (probabilità di non rifiutare H0 quando H1 è vera o è falsa H0):
determino qual’è l’area di probabilità che vale sotto H1 (probabilità che la media campionaria sia inferiore a 45,4 nell’ipotesi in cui valga H1)
- DETERMINO β POTENZA DEL TEST
Nell’ambito della verifica di ipotesi la quantità β ha un nome specifico:
Sì tratta della probabilità di rifiutare H0 quando H0 è falsa (oppure quando è vera H1): 1-β. È detta potenza perchè si riferisce alla capacità del test di
individuare una differenza quando questa differenza esiste (trovare H1 quando H1 è effettivamente vera).
Nell’esempio sopra, la potenza vale
Esistono delle convenzioni che ci dicono quanto deve essere grande la potenza del test: spesso si ritiene accettabile la potenza quando è superiore
all’80% ( nel nostro caso sopra è un probabilità modesta); questo valore della probabilità di compiere un errore di secondo tipo non è un valore fisso, ma lo
dobbiamo ricavare (non possiamo minimizzare contemporaneamente α e β, quindi fisso il valore di α e vedo qual’è la potenza che riesco a raggiungere con
questo
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
-
Statistica
-
Statistica ed epidemiologia medica (parte1)
-
Appunti statistica medica e epidemiologia
-
Statistica medica