Anteprima
Vedrai una selezione di 1 pagina su 5
Lezione business data scienze Pag. 1
1 su 5
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

Per stare dentro al 95% ovvero due deviazioni standard, l’intervallo deve essere

tra -2379.5100 e -742.0624

p-value: probabilità che il test sia vicino all’ipotesi nulla

t: quanto sono distante dall’ipotesi nulla.

Test sulla correlazione lineare tra variabile numerica e 4 variabili

categoriche:

H0: μ1=μ2=…= μk (non dipende da stato civile)

H1: almeno una coppia di medie è diversa

Variabilità nei gruppi:

A, B e C sono i vari gruppi di

categoria

Bassa variabilità- > punti vicini

Alta variabilità -> punti lontani

Si può inferire con più facilità se una

categoria è bassa variabilità.

Variabilità nei gruppi: Tra valor medio della

categoria ed i singoli punti della categoria.

variabilità tra gruppi:

Un’altra variabilità è la prendo valor

medio totale tra le categorie e vedo quanto un singolo

valore di una categoria varia rispetto al valore totale.

Se la dispersione nel singolo gruppo è più grande della

variabilità tra i diversi gruppi faccio fatica a capire se c’è o

meno una correlazione. Between tra i gruppi

Within nei gruppi

Se between è più grande di within

è più facile capire se esiste una relazione, in quanto è più facile capire che sono

tutte popolazioni diverse -> F deve essere “grande” in modo tale da essere

popolazioni differenti.

Degrees of freedom:

Dimensionalità dello spazio in cui l’oggetto vive – vincoli = dimensionalità

dell’oggetto

Tra D e M la variabilità tra gruppi è zero mentre la variabilità nel gruppo è

enorme; quindi, è difficile capire se vi è una relazione (non capisco le due

popolazioni).

p-value è molto piccolo quindi è possibile scartare H0 però F value

(Pr(>F)

grande: ci dice che qualche coppia è possibile separarla

ci sono coppie dove p-value è

basso e la variabile di student (t) è

alta, i vedovi accoppiati con le altre

categorie vengono visti come una

popolazione diversa.

(N(N-1)) / 2 <- numero di possibili coppie

A/B testing

Test per discriminare due possibilità.

Due gruppi -> uno di controllo(A), versione base, ed un gruppo con una

versione modificata(B)

Se i due gruppi sono randomizzati e notiamo differenza tra i due gruppi A e B

possiamo fare delle conclusioni sensate, mentre se i due gruppi non sono

randomizzati è più difficile.

Qualsiasi coppia di valori da confrontare, si può dedurre che A e B sono diversi

se la distanza tra le due percentuali è più grande dell’incertezza che abbiamo

sulle due singole percentuali.

Esempio su slide.

Faccio il test

H0: pB-pA=0

H1: pB-pA≠0

Il p-value che risulta è minore di alfa (5%) quindi scarto H0

PREPARAZIONE DATI

Tre fasi importanti:

cleaning: rimuovere gli errori dai dati, dati che non c’entrano nulla con i

 nostri dati

Dettagli
A.A. 2023-2024
5 pagine
SSD Scienze economiche e statistiche SECS-P/08 Economia e gestione delle imprese

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher alessiagio2000 di informazioni apprese con la frequenza delle lezioni di Business data science e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli studi di Torino o del prof Nervi Federico.