Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
Teorema di Bayes
Queste due probabilità sono diverse: P(R|H0) ≠ P(H0|R)
Per comprendere più a fondo quanto detto sopra, dobbiamo studiare il Teorema di Bayes.
Il legame tra le due probabilità, P(R|H0) e P(H0|R), è definito Teorema di Bayes:
- P(H0) è la probabilità a priori di H0
- P(R|H0) è la probabilità del risultato R condizionato ad H0. Si tratta, in pratica, della probabilità che si ottiene eseguendo un test statistico.
- P(H0|R) è la probabilità a posteriori, ovvero la probabilità che sia vera H0 se è stato ottenuto il risultato R.
Esempio:
L'incidenza della schizofrenia negli adulti è circa del 2%. Supponiamo di avere un test per la diagnosi di tale patologia con il 95% di accuratezza nell'individuazione dei soggetti realmente schizofrenici, e circa il 97% nell'individuazione dei soggetti sani.
Possiamo allora indicare con:
- H0: il soggetto è
sano• H1: il soggetto è schizofrenico
R – risultato del test positivo per la schizofrenia
Pertanto avremo le seguenti probabilità:
P( H0) = 0.98 - probabilità a priori di H0
P( H1) = 0.02 - probabilità a priori di H1
P(R|H0) = 0.03 - verosimiglianza del risultato positivo (falsi positivi)
P(R|H1) = 0.95 - accuratezza del test (veri positivi)
Si noti che P(R|H0) è minore di 5%.
Calcoliamo la probabilità a posteriori utilizzando il teorema di Bayes:
Ciò significa che: avendo un soggetto che è stato diagnosticato come positivo alla schizofrenia, in realtà c'è una probabilità del 60% che non lo sia.
Nonostante la verosimiglianza P(R|H0) = 0.03 sia minore di 0.05 abbiamo una probabilità a posteriori molto più alta, P(H0|R) = 0.61.
Se consideriamo tutta la popolazione, qual è la proporzione di individui positivi al test che non sono realmente malati?
Dobbiamo calcolare: 294 (falsi positivi) diviso il
Numero totale di individui risultati positivi al test, quindi 294 (falsi positivi) + 190 (veri positivi).
Adottando la logica del test statistico i termini del problema potrebbero essere: dato che H0 rappresenta l'ipotesi che il soggetto sia normale e che P(R| H0 ) è minore di 0.05, concludiamo con il rifiuto di H0. In realtà però, la probabilità che il soggetto sia realmente sano (H0 è vera) avendolo diagnosticato come malato risulta molto alta: P(H0|R)=0.607.
Bisogna sempre ricordare che i test statistici nella forma tradizionale stimano la probabilità associata ad un certo risultato R nella condizione in cui H0 sia vera e non la probabilità a priori di H0 o la probabilità a posteriori.
È necessario fare attenzione quando da un'analisi statistica si va a considerare la significatività del risultato. Quando un risultato è significativo, significa che abbiamo osservato un dato poco probabile sotto ipotesi nulla.
Ma l'ipotesi nulla ha comunque un'alta probabilità di essere vera, indipendentemente dal risultato. Statistical significance is not a scientific test. It is a philosophical, qualitative test. It does not ask how much. It asks whether. Existence, the question of whether, is interesting. But it is not scientific. (Ziliak & McCloskey, 2008) Nell'utilizzo dell'approccio NHST bisogna assolutamente tenere conto dei seguenti aspetti: - NHST tende a indurre confusione tra la probabilità dell'ipotesi condizionata ai dati (probabilità a posteriori) e probabilità dei dati condizionati all'ipotesi (verosimiglianza). - NHST viene erroneamente considerato un metodo per la verifica delle ipotesi. In realtà esso tiene conto solo di H0 e permette solo la falsificazione di tale ipotesi senza che questo abbia relazione con la veridicità di H1. John P.A. Ioannidis scrisse un articolo intitolato "Why most published research"findings are false” (2005). Ciò scatenò una grande discussione attorno all'argomento. C'è chi addirittura ha proposto di ritirare l'idea di significatività statistica.
Alcune precisazioni importanti
Relazione tra α e β
Uno dei limiti evidenziati del NHST è di focalizzare l'attenzione sull'errore di I tipo, trascurando quasi completamente l'errore di II tipo.
La decisione di rigettare o meno H0 può essere corretta o sbagliata. Se la rigettiamo quando è vera commettiamo un errore di I tipo, se non la rigettiamo quando è falsa commettiamo un errore di II tipo.
status dell'ipotesi
decisione H0 vera H0 falsa
non rigetto H0 corretto errore di II tipo
rigetto H0 errore di I tipo corretto
Lo schema decisionale classico è costituito in modo da fissare la probabilità di commettere un errore di I tipo. Generalmente questa probabilità, indicata con la lettera α, è fissata a
0.05. Tale valore, anche se quasi universalmente condiviso, è sostanzialmente arbitrario e fortemente messo in discussione. Scegliendo un valore più basso di α si riduce la probabilità di commettere un errore di I tipo, ma al tempo stesso si aumenta il valore di β ossia della probabilità di commettere un errore di II tipo. In sostanza, i due errori sono connessi tra loro e così anche le probabilità ad essi associate; riducendo α si aumenta β e viceversa. Quindi tra i limiti dell'approccio NHST troviamo che:
- il criterio α= 0.05 è puramente arbitrario;
- i test tradizionali tendono a sovrastimare l'evidenza contro H0: infatti H0 nei contesti reali non è mai esattamente vera e pertanto aumentando a dovere il numero di osservazioni è quasi sempre possibile rigettarla;
- l'ipotesi nulla legata ad un unico valore puntuale (H0: θ = θ0) senza opportuni accorgimenti porta a
<pre>
z <- (x - mean(x)) / sd(x)
</pre>
oppure utilizzando la funzione scale():
<pre>
z <- scale(x)
</pre>
Un altro modo di intendere il termine normalizzazione è una trasformazione dei dati in modo da rendere la loro distribuzione più simile a quella normale. Sia x un vettore numerico, lo possiamo normalizzare con i seguenti comandi:
<pre>
library(car)
nx <- bcPower(x, 0)
</pre>
La funzione library() carica il pacchetto, mentre bcPower() trasforma i dati x in un nuovo vettore nx normalizzato (la distribuzione dei valori viene forzata ad assumere la forma di una curva normale).
La standardizzazione è un'operazione lineare, mentre le trasformazioni atteamodificare la distribuzione dei dati generalemente non lo sono. La standardizzazione è invariante della forma distributiva mentre la normalizzazione no.
Esempio in R:
> library(car) > set.seed(20121215) > x <- rchisq(220,5) # dati con distribuzione asimmetrica > z <- (x-mean(x))/sd(x) # dati standardizzati > nx <- bcPower(x,.5) # dati normalizzati ## grafico > par(mfrow=c(3,1),mar=c(4,3,2,1),cex.axis=2,cex.lab=2,cex.main=2) > hist(x,nclass=28,col="gray",xlab="x",ylab="",main="[A]") > hist(z,nclass=28,col="lightgreen",xlab="z",ylab="",main="[B]") > hist(nx,nclass=28,col="pink",xlab="n",ylab="",main="[C]")
Dimensione dell'effetto e potenza
Non considerare l'errore di II tipo significa ignorare la potenza del test, ovvero la capacità del test statistico di rigettare correttamente l'ipotesi H0 quando è
falsa.Per comprendere il significato della potenza e la sua relazione con gli errori prendiamo in considerazione lo schema di Neyman e Pearson, sulla base del quale è stato costruito l'approccio NHST.
Alla base dello schema di Neyman e Pearson vi è la conoscenza della distribuzione campionaria di una determinata statistica t(X) calcolata su un insieme di dati campionari.
Dal punto di vista decisionale, la suddivisione dello spazio campionario in una regione di rifiuto ed una di non-rifiuto porta a quattro scenari possibili:
- status dell'ipotesi: decisione H0 vera, H0 falsa
- non rigetto H0: corretto, errore di II tipo
- rigetto H0: errore di I tipo, corretto
Per ciascuno scenario viene definita una probabilità:
- status dell'ipotesi: decisione H0 vera, H0 falsa
- non rigetto H0: 1 - α, β
- rigetto H0: α, 1 - β