La verifica delle ipotesi
Principi generali nella verifica delle ipotesi
La verifica delle ipotesi consiste nel formulare un'ipotesi sulla popolazione e nel verificarla attraverso l'utilizzo dei dati campionari. Data un'ipotesi sul parametro della popolazione, si vuole verificare, sulla base dell'osservazione della statistica campionaria, se tale ipotesi è accettabile (ovvero in accordo con i dati osservati). L'ipotesi statistica è un'affermazione sul valore di un parametro (incognito), che può essere sottoposta a verifica empirica.
Esempio
Un ricercatore vuole verificare l'effetto di un intervento per promuovere l'autoefficacia scolastica (AS) negli studenti italiani di prima media. L'ipotesi del ricercatore è che l'intervento possa determinare un aumento nell'AS. Un test per la misura dell'AS viene somministrato a un campione di 35 studenti (n = 35) sottoposti all'intervento. Il punteggio medio al test è X = 25.9 (s = 8.1). Nella popolazione generale di studenti di prima media il test ha μ = 24 e σ = 9.3.
Se l'intervento non ha effetto, possiamo considerare il campione di n = 35 studenti sottoposti all'intervento come proveniente dalla popolazione generale. In questo caso, dobbiamo attenderci che la media osservata sul campione sia simile alla media della popolazione (x rappresenta una stima di μ). Tuttavia, a causa delle fluttuazioni campionarie, la statistica non coinciderà con il parametro della popolazione da cui il campione è stato estratto.
La differenza tra il valore osservato nel campione e quello relativo alla popolazione può essere attribuita esclusivamente al caso? Oppure è sufficientemente elevata da poter essere considerata sostanziale? Queste due possibilità corrispondono a due ipotesi mutuamente escludentisi, definite ipotesi nulla e ipotesi alternativa:
- Ipotesi nulla: la media della popolazione (da cui proviene il campione) è uguale a un determinato valore. Ad esempio: H0: μ = 24
- Ipotesi alternativa: la media della popolazione è diversa dal valore definito da H0. Corrisponde alla negazione dell'ipotesi nulla. Può essere unidirezionale o bidirezionale.
Ipotesi alternativa bidirezionale
L'ipotesi alternativa bidirezionale prevede una differenza, senza però specificare la direzione (es. gli studenti sottoposti al trattamento hanno un punteggio medio nell'AS diverso da 24).
H0: μ = 24
H1: μ ≠ 24
Si legge come: la media della popolazione da cui proviene il campione è uguale a 24 (H0) o diversa da 24 (H1).
Ipotesi alternativa monodirezionale
L'ipotesi alternativa monodirezionale prevede una direzione (es. gli studenti sottoposti al trattamento hanno un punteggio medio nell'AS superiore a 24).
H0: μ = 24
H1: μ > 24
Si legge come: la media della popolazione da cui proviene il campione è uguale a 24 (H0) o maggiore di 24 (H1).
Il processo di verifica delle ipotesi
Nell'inferenza statistica si parte dall'assunzione iniziale che l'ipotesi nulla sia vera: l'ipotesi nulla è ritenuta vera fino a prova contraria. Il processo di verifica delle ipotesi è pertanto un processo di falsificazione dell'ipotesi nulla. L'ipotesi nulla non può mai essere accettata: dobbiamo decidere se rifiutarla o non rifiutarla.
Nell'esempio:
- Se la media calcolata sul campione (es. X = 38) è molto distante dal valore ipotizzato per la rispettiva popolazione (μ=24), allora potremmo ragionevolmente concludere che H0 è errata.
- Difficilmente possiamo essere certi che H0 sia vera, anche quando la media osservata nel campione è particolarmente vicina (X = 24.05) a quella ipotizzata in base ad H0 (μ = 24). Il campione potrebbe infatti provenire da una popolazione con una media diversa da 24, anche se molto simile (es. Μ = 24.10).
Come decidere se rifiutare H0?
Per stabilire quale delle due ipotesi è corretta si utilizza un test statistico. Un test è una regola di decisione tra due ipotesi contrapposte riguardanti una caratteristica della popolazione. In particolare, un test statistico consente di scegliere se rifiutare o non rifiutare l'ipotesi nulla. Il test opera un confronto tra la statistica osservata sul campione e il parametro che si ipotizza in base ad H0: Statistica – Parametro.
Se la differenza tra la statistica e il parametro è piccola, è probabile che tale differenza sia dovuta al caso (non rifiuto H0). Se la differenza è elevata, probabilmente si tratta di una differenza reale, che non può essere attribuita esclusivamente al caso (rifiuto H0).
Nell'esempio:
Statistica – Parametro = X - μ = 25.9 – 24 = 1.9
Il valore osservato sul campione si discosta di 1.9 unità dal parametro della popolazione. Quanto è realmente grande una differenza di 1.9? Dobbiamo stabilire un criterio per decidere se tale differenza è sufficientemente elevata per rifiutare H0. In altri termini, dobbiamo rapportare la differenza osservata a un'unità di misura nota, per interpretarla correttamente.
Un modo può essere quello di standardizzare la differenza, trasformandola in un punteggio z (con M = 0 e dev.st. = 1). Ciò consente di:
- Esprimere la differenza in termini di deviazioni standard dalla media,
- Utilizzare le proprietà della curva normale per calcolare la probabilità di osservare tale differenza (o una differenza maggiore).
Utilizzando le proprietà della distribuzione normale standardizzata possiamo calcolare la probabilità di osservare un punteggio che ricade in una determinata zona della curva.
Problema e soluzione
Problema: in genere non sappiamo come la variabile si distribuisce nella popolazione (non sappiamo quindi se la popolazione ha forma normale). Possiamo ricorrere, però, al teorema del limite centrale!
La media che abbiamo osservato sul campione, infatti, appartiene alla distribuzione campionaria delle medie calcolate su tutti i possibili campioni di ampiezza n che è possibile estrarre dalla popolazione. Il teorema del limite centrale dimostra che la distribuzione campionaria delle medie approssima la distribuzione normale, qualunque sia la forma della popolazione (quando n > 30).
Se assumiamo che H0 sia vera, possiamo definire le proprietà della distribuzione campionaria delle medie. La differenza tra la media osservata sul campione e la media attesa in base ad H0 viene quindi divisa per la deviazione standard della distribuzione campionaria delle medie (errore standard):
z = X - μ/σX
Questo punteggio rappresenta il test z [definito anche z «empirico» (è calcolato sul campione), per distinguerlo dal punteggio z «critico»].
X – μ: Differenza tra il valore osservato nel campione e il valore atteso nella popolazione in base ad H0. Maggiore è questa differenza, maggiore è la probabilità che l'ipotesi nulla sia falsa. σX: Può essere interpretato come la differenza attesa in base al caso tra il valore osservato sul campione e il valore della popolazione. Maggiore è il rapporto tra numeratore e denominatore, maggiore è la probabilità che l'ipotesi nulla sia falsa. La distanza tra valore osservato (campione) e valore atteso (popolazione) viene espressa in termini di “errori standard”.
Nell'esempio:
z = X - μ/σX = [...] = 1.21
Per trovare l'area compresa tra 1.21 e +∞ bisogna:
- Individuare l'area compresa tra 0 e +1.21, che corrisponde a .3869
- Sottrarre t ...