Estratto del documento

Quindi il parametro di interesse per noi

è questa media μ della spesa online.

Questa slide contiene l'istogramma

dell'ammontare speso in un anno da

questo ammontare di 10.000 famiglie

americane. Quello che si vede

chiaramente da questo istogramma è

che la distribuzione dell'ammontare

speso in un anno è fortemente

asimmetrica a destra (di fatto quello

che si vede in questo grafico è solo una

barra verticale molto alta, che è questa

barra, la prima barra dove sono

concentrate la stragrande maggioranza

dei valori per il campione che stiamo

considerando; mentre le rimanenti

barre che sono appena visibili

contengono i rimanenti pochi valori per

questa quantità.

Chiaramente in questa situazione ipotizzare che questo campione arrivi da una popolazione in cui

l'ammontare speso è distribuito in modo normale, cioè secondo una campana è molto forzato perché

evidentemente non sembra essere questa la distribuzione che vediamo nel campione e quindi se è vero che

il campione è rappresentativo della popolazione, in teoria tale dovrebbe essere la situazione almeno molto

simile anche per la popolazione.

Per il momento lasciamo in sospeso questa informazione, diamo per scontato che nella popolazione da cui

questi dati sono stati estratti, invece, l'ammontare speso sia distribuito in modo normale.

In base ai valori osservati nel

campione possiamo calcolare che:

• La media dell'ammontare

speso in un anno da questo campione

di famiglie è: 1946,439 dollari;

• Il calcolo della deviazione

standard campionario porta a un

valore di: 8038,61 dollari;

Il primo numero è una stima, una

media campionaria della media della

popolazione; mentre il secondo

numero è una stima della deviazione

standard dell'intera popolazione.

• L’errore standard della media campionaria abbiamo visto che si calcola come deviazione standard

campionaria s/radice della dimensione del campione. Esce un valore di 80,3861. Questo numero è il

numero che noi utilizziamo (errore standard) per quantificare la variabilità campionaria della media

18

campionaria. Più è grande questo numero e maggiore sarà la variabilità del valore della media

campionaria che noi osserveremo ipotizzando di estrarre tanti valori diversi dalla popolazione;

• Calcoliamo ora l'intervallo di confidenza della media μ nota dell'ammontare speso in un anno da tutte

le famiglie americane/da tutta la popolazione delle famiglie americane utilizzando un intervallo di

confidenza del 95%. Insieme all'errore standard della media campionaria, questo numero (80,3861) è

necessario calcolarsi il fattore di affidabilità usando un software anche Excel (la funzione in Excel si

chiama Distrib.t) potreste recuperare il valore del fattore di affidabilità, dove il numero del grado di

libertà n-1 è dato da 10.000 (dimensione del campione) -1, quindi 9.999 e visto che 0,95 è il livello di

confidenza. Quindi 1 – alfa = 0,95 ne consegue che alfa è = 0,05, quindi alfa/2 è = 0,025 e quindi 1 –

alfa/2 è 0,975 (valore che vediamo indicato come secondo indice del valore di affidabilità).

Quindi il calcolo del fattore di affidabilità porta a un risultato di 1,9602. x bar (1946,439) + fattore di

affidabilità (1,9602) che moltiplica l’errore standard (80,3861) si ottiene l’intervallo di confidenza che va da

1789 all’incirca a 2104 dollari all'incirca.

Come si interpreta questo risultato che otteniamo, questo intervallo di confidenza? Questo range di valori

rappresenta il range di valori più probabili al 95% della media dell'ammontare speso online in un anno dalle

famiglie americane/dalla popolazione delle famiglie americane. Quindi ripetiamo: questo intervallo fornisce

il range di valori più probabile al 95% per la media dell'ammontare speso online in un anno dalla popolazione

delle famiglie americane. Questo intervallo è relativamente stretto, il che indica che la stima della media della

popolazione 1946 (la media campionaria) è una stima abbastanza precisa/buona nel senso che l'intervallo di

confidenza calcolato nel modo che abbiamo visto dà origine ad un intervallo che ha un'ampiezza abbastanza

stretta: va da circa 1789 a 2100 e quindi dà un'idea abbastanza precisa di quale potrebbe essere il vero valore

che non conosciamo di questo parametro (la media dell'ammontare speso in un anno online dalle famiglie

americane).

Detto questo passiamo a presentare invece brevemente in che cosa consiste un test statistico e quali sono i

concetti principali relativi a un test statistico e a come si effettua in pratica un test.

Allora abbiamo detto che un test rappresenta un

approccio complementare rispetto agli intervalli di

confidenza e abbiamo anche detto già/ricordato in

che cosa consiste un test. Ovvero un test consiste in

una procedura il cui obiettivo è quello di valutare

quali tra due insiemi slegati/disgiunti del valore del

parametro, quali di questi due insiemi risulta essere

più verosimile alla luce dei dati campionari.

I due insiemi vengono chiamati rispettivamente

IPOTESI NULLA e IPOTESI ALTERNATIVA del test e

sono indicati con la notazione H0 l’ipotesi nulla e H1

l’ipotesi alternativa. Questa è una notazione

universale che viene sempre usata in statistica per

riferirsi alle due ipotesi che vengono confrontate in un test.

Solitamente come ipotesi alternativa viene scelto l'insieme che si vorrebbe dimostrare essere quello più

plausibile/quello più ragionevole, quindi come ipotesi nulla si sceglie l'insieme dei due che si vorrebbe

escludere/scartare.

A titolo di esempio riportiamo un esempio che considereremo più nel dettaglio successivamente, cioè un test

che confronta due diversi insiemi per questo parametro RO che è l'indice di correlazione lineare tra due

variabili in una popolazione/nell'intera popolazione. L'ipotesi nulla è rappresentata dall'assenza di

19

associazione lineare (non sappiamo che quell'associazione è di tipo lineare, ma sappiamo che l'indice di

correlazione lineare misura proprio e solo quel tipo di associazione lineare). Quindi l'ipotesi nulla HO indica

che nella popolazione non esiste associazione/relazione di tipo lineare tra queste due variabili X e Y.

Mentre l'ipotesi alternativa H1 coinvolge valori del parametro che sono disgiunti rispetto ai valori specificati

(che è uno solo) nell'ipotesi nulla. H1 quindi prevede che l'indice di correlazione lineare nella popolazione

assume dei valori che sono diversi da zero, esiste dunque una qualche associazione lineare positiva o negativa

tra le due variabili.

Queste due ipotesi dunque significano:

• H0 non c'è una relazione lineare tra due variabili della popolazione;

• H1 c'è un qualche tipo di relazione lineare tra le due variabili della popolazione.

Sulla base dei dati campionari vogliamo valutare se H0 è più verosimile/più ragionevole rispetto a H1 o

viceversa. Proseguiamo presentano alcuni altri concetti

fondamentali che stanno alla base dei test

prima di passare al caso della media

campionaria e presentare i dettagli del test

relativo alla media campionaria.

Dicevamo, l'idea dei test è quella di valutare

se i dati campionari sono più a supporto e

forniscono prove empiriche a supporto più

dell'ipotesi nulla o più a favore dell'ipotesi

alternativa. Per cui alla fine ogni test deve

condurre per forza a uno solo di questi due possibili risultati.

O alla fine di un test si decide di rifiutare l'ipotesi nulla a favore di quella alternativa perché si ritiene che i

dati campionari forniscano sufficienti prove empiriche per scartare l'ipotesi nulla e quindi confermare

l'ipotesi alternativa come quella più ragionevole ; oppure l'alternativa è che alla fine del test, il test si

concluda con un non rifiuto dell'ipotesi nulla ovvero si concluda affermando che i dati non forniscono prove

empiriche sufficienti per scartare HO in favore di H1 e quindi questo significa in pratica che con i dati non

abbiamo dimostrato che H1 risulta essere più ragionevole di H0 e quindi rimane H0 l'ipotesi più supportata

dai dati.

Quindi ripeto : alla fine di ogni test è necessario concludere il test con uno di questi due esiti: o si rifiuta

l'ipotesi nulla o non si rifiuta l'ipotesi nulla. Non possono essere prese altre decisioni alla fine di un test perché

il test confronta due ipotesi e quindi o l’una è quella corretta e l'altra no, oppure viceversa.

Abbiamo detto però che non conosciamo i valori dei parametri, motivo per cui i test vengono normalmente

effettuati, e quindi per prendere questa decisione (rifiuto o non rifiuto dell'ipotesi nulla) bisogna basarsi su

un campione ma il campione purtroppo rappresenta una parte molto piccola della popolazione e quindi nel

prendere questa decisione sulla base di un campione molto piccolo di solito rispetto alla popolazione, è

possibile che la decisione che viene presa alla fine non rappresenti necessariamente la decisione corretta,

cioè noi potremo decidere di rifiutare l'ipotesi nulla ma purtroppo il campione che noi abbiamo estratto era

un campione particolarmente sfortunato con determinate caratteristiche non rappresentative della

popolazione del campione e quindi alla luce di quel campione prendiamo una decisione che purtroppo non

è la decisione corretta, magari rifiutiamo l'ipotesi nulla quando in realtà non avremmo dovuto farlo; oppure

è possibile prendere altre decisioni commettendo altri tipi di errori. 20

Formalizziamo questa situazione affermando che a seguito di un test è possibile prendere una decisione che

non è quella ottimale e lo facciamo introducendo questi ulteriori concetti, ovvero introduciamo il concetto

di ERRORE DI PRIMO TIPO che corrisponde alla situazione in cui noi rifiutiamo l'ipotesi nulla ma purtroppo

questa decisione non è quella corretta perché l'ipotesi nulla è quella che nella popolazione è corretta.

La probabilità di commettere un errore di primo tipo viene chiamata LIVELLO DI SIGNIFICATIVITA' DEL TEST

e viene indicata con la lettera greca Alfa. Alfa è la probabilità di rifiutare erroneamente l'ipotesi nulla. Quindi

noi rifiutiamo erroneamente l'ipotesi nulla, prendendo la decisione sbagliata perché l'ipotesi nulla non

doveva essere rifiutata. La probabilità di finire in questo tipo di situazione viene indicata con Alfa (che non va

confusa con 1- alfa del livello di confidenza, in quanto sono due numeri slegati tra di loro, nel se

Anteprima
Vedrai una selezione di 12 pagine su 54
Business Data Science  Pag. 1 Business Data Science  Pag. 2
Anteprima di 12 pagg. su 54.
Scarica il documento per vederlo tutto.
Business Data Science  Pag. 6
Anteprima di 12 pagg. su 54.
Scarica il documento per vederlo tutto.
Business Data Science  Pag. 11
Anteprima di 12 pagg. su 54.
Scarica il documento per vederlo tutto.
Business Data Science  Pag. 16
Anteprima di 12 pagg. su 54.
Scarica il documento per vederlo tutto.
Business Data Science  Pag. 21
Anteprima di 12 pagg. su 54.
Scarica il documento per vederlo tutto.
Business Data Science  Pag. 26
Anteprima di 12 pagg. su 54.
Scarica il documento per vederlo tutto.
Business Data Science  Pag. 31
Anteprima di 12 pagg. su 54.
Scarica il documento per vederlo tutto.
Business Data Science  Pag. 36
Anteprima di 12 pagg. su 54.
Scarica il documento per vederlo tutto.
Business Data Science  Pag. 41
Anteprima di 12 pagg. su 54.
Scarica il documento per vederlo tutto.
Business Data Science  Pag. 46
Anteprima di 12 pagg. su 54.
Scarica il documento per vederlo tutto.
Business Data Science  Pag. 51
1 su 54
D/illustrazione/soddisfatti o rimborsati
Acquista con carta o PayPal
Scarica i documenti tutte le volte che vuoi
Dettagli
SSD
Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher ely98love di informazioni apprese con la frequenza delle lezioni di Business data science e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli studi di Torino o del prof Ciccarella Emanuele.
Appunti correlati Invia appunti e guadagna

Domande e risposte

Hai bisogno di aiuto?
Chiedi alla community