Quindi il parametro di interesse per noi
è questa media μ della spesa online.
Questa slide contiene l'istogramma
dell'ammontare speso in un anno da
questo ammontare di 10.000 famiglie
americane. Quello che si vede
chiaramente da questo istogramma è
che la distribuzione dell'ammontare
speso in un anno è fortemente
asimmetrica a destra (di fatto quello
che si vede in questo grafico è solo una
barra verticale molto alta, che è questa
barra, la prima barra dove sono
concentrate la stragrande maggioranza
dei valori per il campione che stiamo
considerando; mentre le rimanenti
barre che sono appena visibili
contengono i rimanenti pochi valori per
questa quantità.
Chiaramente in questa situazione ipotizzare che questo campione arrivi da una popolazione in cui
l'ammontare speso è distribuito in modo normale, cioè secondo una campana è molto forzato perché
evidentemente non sembra essere questa la distribuzione che vediamo nel campione e quindi se è vero che
il campione è rappresentativo della popolazione, in teoria tale dovrebbe essere la situazione almeno molto
simile anche per la popolazione.
Per il momento lasciamo in sospeso questa informazione, diamo per scontato che nella popolazione da cui
questi dati sono stati estratti, invece, l'ammontare speso sia distribuito in modo normale.
In base ai valori osservati nel
campione possiamo calcolare che:
• La media dell'ammontare
speso in un anno da questo campione
di famiglie è: 1946,439 dollari;
• Il calcolo della deviazione
standard campionario porta a un
valore di: 8038,61 dollari;
Il primo numero è una stima, una
media campionaria della media della
popolazione; mentre il secondo
numero è una stima della deviazione
standard dell'intera popolazione.
• L’errore standard della media campionaria abbiamo visto che si calcola come deviazione standard
campionaria s/radice della dimensione del campione. Esce un valore di 80,3861. Questo numero è il
numero che noi utilizziamo (errore standard) per quantificare la variabilità campionaria della media
18
campionaria. Più è grande questo numero e maggiore sarà la variabilità del valore della media
campionaria che noi osserveremo ipotizzando di estrarre tanti valori diversi dalla popolazione;
• Calcoliamo ora l'intervallo di confidenza della media μ nota dell'ammontare speso in un anno da tutte
le famiglie americane/da tutta la popolazione delle famiglie americane utilizzando un intervallo di
confidenza del 95%. Insieme all'errore standard della media campionaria, questo numero (80,3861) è
necessario calcolarsi il fattore di affidabilità usando un software anche Excel (la funzione in Excel si
chiama Distrib.t) potreste recuperare il valore del fattore di affidabilità, dove il numero del grado di
libertà n-1 è dato da 10.000 (dimensione del campione) -1, quindi 9.999 e visto che 0,95 è il livello di
confidenza. Quindi 1 – alfa = 0,95 ne consegue che alfa è = 0,05, quindi alfa/2 è = 0,025 e quindi 1 –
alfa/2 è 0,975 (valore che vediamo indicato come secondo indice del valore di affidabilità).
Quindi il calcolo del fattore di affidabilità porta a un risultato di 1,9602. x bar (1946,439) + fattore di
affidabilità (1,9602) che moltiplica l’errore standard (80,3861) si ottiene l’intervallo di confidenza che va da
1789 all’incirca a 2104 dollari all'incirca.
Come si interpreta questo risultato che otteniamo, questo intervallo di confidenza? Questo range di valori
rappresenta il range di valori più probabili al 95% della media dell'ammontare speso online in un anno dalle
famiglie americane/dalla popolazione delle famiglie americane. Quindi ripetiamo: questo intervallo fornisce
il range di valori più probabile al 95% per la media dell'ammontare speso online in un anno dalla popolazione
delle famiglie americane. Questo intervallo è relativamente stretto, il che indica che la stima della media della
popolazione 1946 (la media campionaria) è una stima abbastanza precisa/buona nel senso che l'intervallo di
confidenza calcolato nel modo che abbiamo visto dà origine ad un intervallo che ha un'ampiezza abbastanza
stretta: va da circa 1789 a 2100 e quindi dà un'idea abbastanza precisa di quale potrebbe essere il vero valore
che non conosciamo di questo parametro (la media dell'ammontare speso in un anno online dalle famiglie
americane).
Detto questo passiamo a presentare invece brevemente in che cosa consiste un test statistico e quali sono i
concetti principali relativi a un test statistico e a come si effettua in pratica un test.
Allora abbiamo detto che un test rappresenta un
approccio complementare rispetto agli intervalli di
confidenza e abbiamo anche detto già/ricordato in
che cosa consiste un test. Ovvero un test consiste in
una procedura il cui obiettivo è quello di valutare
quali tra due insiemi slegati/disgiunti del valore del
parametro, quali di questi due insiemi risulta essere
più verosimile alla luce dei dati campionari.
I due insiemi vengono chiamati rispettivamente
IPOTESI NULLA e IPOTESI ALTERNATIVA del test e
sono indicati con la notazione H0 l’ipotesi nulla e H1
l’ipotesi alternativa. Questa è una notazione
universale che viene sempre usata in statistica per
riferirsi alle due ipotesi che vengono confrontate in un test.
Solitamente come ipotesi alternativa viene scelto l'insieme che si vorrebbe dimostrare essere quello più
plausibile/quello più ragionevole, quindi come ipotesi nulla si sceglie l'insieme dei due che si vorrebbe
escludere/scartare.
A titolo di esempio riportiamo un esempio che considereremo più nel dettaglio successivamente, cioè un test
che confronta due diversi insiemi per questo parametro RO che è l'indice di correlazione lineare tra due
variabili in una popolazione/nell'intera popolazione. L'ipotesi nulla è rappresentata dall'assenza di
19
associazione lineare (non sappiamo che quell'associazione è di tipo lineare, ma sappiamo che l'indice di
correlazione lineare misura proprio e solo quel tipo di associazione lineare). Quindi l'ipotesi nulla HO indica
che nella popolazione non esiste associazione/relazione di tipo lineare tra queste due variabili X e Y.
Mentre l'ipotesi alternativa H1 coinvolge valori del parametro che sono disgiunti rispetto ai valori specificati
(che è uno solo) nell'ipotesi nulla. H1 quindi prevede che l'indice di correlazione lineare nella popolazione
assume dei valori che sono diversi da zero, esiste dunque una qualche associazione lineare positiva o negativa
tra le due variabili.
Queste due ipotesi dunque significano:
• H0 non c'è una relazione lineare tra due variabili della popolazione;
• H1 c'è un qualche tipo di relazione lineare tra le due variabili della popolazione.
Sulla base dei dati campionari vogliamo valutare se H0 è più verosimile/più ragionevole rispetto a H1 o
viceversa. Proseguiamo presentano alcuni altri concetti
fondamentali che stanno alla base dei test
prima di passare al caso della media
campionaria e presentare i dettagli del test
relativo alla media campionaria.
Dicevamo, l'idea dei test è quella di valutare
se i dati campionari sono più a supporto e
forniscono prove empiriche a supporto più
dell'ipotesi nulla o più a favore dell'ipotesi
alternativa. Per cui alla fine ogni test deve
condurre per forza a uno solo di questi due possibili risultati.
O alla fine di un test si decide di rifiutare l'ipotesi nulla a favore di quella alternativa perché si ritiene che i
dati campionari forniscano sufficienti prove empiriche per scartare l'ipotesi nulla e quindi confermare
l'ipotesi alternativa come quella più ragionevole ; oppure l'alternativa è che alla fine del test, il test si
concluda con un non rifiuto dell'ipotesi nulla ovvero si concluda affermando che i dati non forniscono prove
empiriche sufficienti per scartare HO in favore di H1 e quindi questo significa in pratica che con i dati non
abbiamo dimostrato che H1 risulta essere più ragionevole di H0 e quindi rimane H0 l'ipotesi più supportata
dai dati.
Quindi ripeto : alla fine di ogni test è necessario concludere il test con uno di questi due esiti: o si rifiuta
l'ipotesi nulla o non si rifiuta l'ipotesi nulla. Non possono essere prese altre decisioni alla fine di un test perché
il test confronta due ipotesi e quindi o l’una è quella corretta e l'altra no, oppure viceversa.
Abbiamo detto però che non conosciamo i valori dei parametri, motivo per cui i test vengono normalmente
effettuati, e quindi per prendere questa decisione (rifiuto o non rifiuto dell'ipotesi nulla) bisogna basarsi su
un campione ma il campione purtroppo rappresenta una parte molto piccola della popolazione e quindi nel
prendere questa decisione sulla base di un campione molto piccolo di solito rispetto alla popolazione, è
possibile che la decisione che viene presa alla fine non rappresenti necessariamente la decisione corretta,
cioè noi potremo decidere di rifiutare l'ipotesi nulla ma purtroppo il campione che noi abbiamo estratto era
un campione particolarmente sfortunato con determinate caratteristiche non rappresentative della
popolazione del campione e quindi alla luce di quel campione prendiamo una decisione che purtroppo non
è la decisione corretta, magari rifiutiamo l'ipotesi nulla quando in realtà non avremmo dovuto farlo; oppure
è possibile prendere altre decisioni commettendo altri tipi di errori. 20
Formalizziamo questa situazione affermando che a seguito di un test è possibile prendere una decisione che
non è quella ottimale e lo facciamo introducendo questi ulteriori concetti, ovvero introduciamo il concetto
di ERRORE DI PRIMO TIPO che corrisponde alla situazione in cui noi rifiutiamo l'ipotesi nulla ma purtroppo
questa decisione non è quella corretta perché l'ipotesi nulla è quella che nella popolazione è corretta.
La probabilità di commettere un errore di primo tipo viene chiamata LIVELLO DI SIGNIFICATIVITA' DEL TEST
e viene indicata con la lettera greca Alfa. Alfa è la probabilità di rifiutare erroneamente l'ipotesi nulla. Quindi
noi rifiutiamo erroneamente l'ipotesi nulla, prendendo la decisione sbagliata perché l'ipotesi nulla non
doveva essere rifiutata. La probabilità di finire in questo tipo di situazione viene indicata con Alfa (che non va
confusa con 1- alfa del livello di confidenza, in quanto sono due numeri slegati tra di loro, nel se
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.