vuoi
o PayPal
tutte le volte che vuoi
Per stare dentro al 95% ovvero due deviazioni standard, l’intervallo deve essere
tra -2379.5100 e -742.0624
p-value: probabilità che il test sia vicino all’ipotesi nulla
t: quanto sono distante dall’ipotesi nulla.
Test sulla correlazione lineare tra variabile numerica e 4 variabili
categoriche:
H0: μ1=μ2=…= μk (non dipende da stato civile)
H1: almeno una coppia di medie è diversa
Variabilità nei gruppi:
A, B e C sono i vari gruppi di
categoria
Bassa variabilità- > punti vicini
Alta variabilità -> punti lontani
Si può inferire con più facilità se una
categoria è bassa variabilità.
Variabilità nei gruppi: Tra valor medio della
categoria ed i singoli punti della categoria.
variabilità tra gruppi:
Un’altra variabilità è la prendo valor
medio totale tra le categorie e vedo quanto un singolo
valore di una categoria varia rispetto al valore totale.
Se la dispersione nel singolo gruppo è più grande della
variabilità tra i diversi gruppi faccio fatica a capire se c’è o
meno una correlazione. Between tra i gruppi
Within nei gruppi
Se between è più grande di within
è più facile capire se esiste una relazione, in quanto è più facile capire che sono
tutte popolazioni diverse -> F deve essere “grande” in modo tale da essere
popolazioni differenti.
Degrees of freedom:
Dimensionalità dello spazio in cui l’oggetto vive – vincoli = dimensionalità
dell’oggetto
Tra D e M la variabilità tra gruppi è zero mentre la variabilità nel gruppo è
enorme; quindi, è difficile capire se vi è una relazione (non capisco le due
popolazioni).
p-value è molto piccolo quindi è possibile scartare H0 però F value
(Pr(>F)
grande: ci dice che qualche coppia è possibile separarla
ci sono coppie dove p-value è
basso e la variabile di student (t) è
alta, i vedovi accoppiati con le altre
categorie vengono visti come una
popolazione diversa.
(N(N-1)) / 2 <- numero di possibili coppie
A/B testing
Test per discriminare due possibilità.
Due gruppi -> uno di controllo(A), versione base, ed un gruppo con una
versione modificata(B)
Se i due gruppi sono randomizzati e notiamo differenza tra i due gruppi A e B
possiamo fare delle conclusioni sensate, mentre se i due gruppi non sono
randomizzati è più difficile.
Qualsiasi coppia di valori da confrontare, si può dedurre che A e B sono diversi
se la distanza tra le due percentuali è più grande dell’incertezza che abbiamo
sulle due singole percentuali.
Esempio su slide.
Faccio il test
H0: pB-pA=0
H1: pB-pA≠0
Il p-value che risulta è minore di alfa (5%) quindi scarto H0
PREPARAZIONE DATI
Tre fasi importanti:
cleaning: rimuovere gli errori dai dati, dati che non c’entrano nulla con i
nostri dati