Statistical learning

Appunti di statistical learning su: Boosting, adaboost, ensemble learning, algoritmi e inferenza, test multipli, p-hacking, FDP, FWER, FDR, Bonferroni, Holm, BH, BY, stima Storey, variable selection (single splits, multiple splits, stability selection)

Esame Statistical learning

Facoltà Scienze statistiche

Dal corso del Prof. Solari Aldo

Università Università degli Studi di Milano - Bicocca

Publisher Pagani21

A.A. 2016-2017

157 pagine

Appunto

Vota 3,0 / 5 (1)

Scarica

Estratto del documento

P(A P(A) P(B) P(A

quindi ∪ ≤

B) +

P(A P(A) P(B)

m E , ..., E

Per eventi m

1 m m

[ X

≤

E )

P P(E

i i

i=1 i=1

abbiamo l’uguaglianza se gli eventi sono disgiunti. 90

sim <- function(n,p){

X <- cbind(1,matrix(runif(n*(p-1)),ncol=(p-1)))

XX <- as.data.frame(X)

beta <- c(1,0,0)

y <- X %*% beta + rnorm(n)

anova(lm(y~1),lm(y~.,XX))$"Pr(>F)"[2]

}

res <- replicate(1000,sim(n=10,p=3))

hist(res,freq=F)

abline(h=1,col=2) Histogram of res

1.2

1.0

0.8

Density 0.6

0.4

0.2

0.0 0.0 0.2 0.4 0.6 0.8 1.0

res

plot(ecdf(res))

curve(punif,0,1,add=T,col=2) 91

ecdf(res)

1.0

0.8

0.6

Fn(x) 0.4

0.2

0.0 0.0 0.2 0.4 0.6 0.8 1.0

Bonferroni α

α̃ =

Rifiutare tutte le ipotesi nulle con p-value inferiore a m

≤

F W ER α

Garantisce senza nessuna assunzione.

Dimostrazione: [

α α α

X

≤ ≤ ≤ · ≤

≤ p m α

p P

P i i 0

m m m

i∈T i∈T

Tre disuguaglianze:

1) Usa la disuguaglianza di Boole. ≤ ≤ ∈ T

t) t i

2) Usa la proprietà dei p-values relativi a ipotesi nulle vere: per .

P(p

≤

m m

3) Usa 0

P-values aggiustati: α.

Rifiutare tutte le ipotesi nulle con p-value aggiustato inferiore a

Il p-value aggiustato per la procedura Bonferroni è: ·

p̃ min(m p ,

= 1)

i i

92 α

α̃

Bonferroni è sempre valido e rifiuta tutte le ipotesi nulle con un p-value inferiore ad = .

p̃ corrisponde al p-value aggiustato e dalla sua forma risulta essere sempre superiore al p-value non aggiustato,

i ·

m p

poichè prende il minimo tra e 1.

Prostate cancer study dataset

• Studio effettuato su = 102 uomini, 50 controls contro 52 cases.

• = 6033 geni.

H i

• : attività del gene è lo stesso in casi e controlli.

• Dopo il codice per importare, possiamo osservare un boxplot dei livelli di espressione dell’i-esimo gene.

prostmat <- Learning/Dataset/prostmat.csv")

read.csv("F:/Statistical

dim(prostmat)

## [1] 101 102

X <- t(prostmat)

Holm = Bonferroni sequenziale

α̃

Iniziare con = m

Ripetere i passi 1) e 2) ≤ α̃

1) Rifiutare tutte le ipotesi con p-value

α̃

2) Aggiornare = m−r

dove è il numero di ipotesi nulle rifiutate finora.

HOLM rifiuta sempre di più che bonferroni, quindi è uniformemente più potente di Bonferroni.

###Holm (procedura step-down) 94

1) Ordinare i p-values dal più piccolo al più grande

≤ ≤ ≤

p p ... p

(1) (2) (m)

e le ipotesi corrispondenti ≤ ≤ ≤

H H ... H

(1) (2) (m)

{1,

j, ..., m}

2) Determinare il più piccolo indice tra 2, tale che

p >

(j) −

m j +1

H i < j

3) Rifiutare tutte le ipotesi tali che

(i)

###Hochberg (procedura step-up) 95

1) Ordinare i p-values dal più piccolo al più grande

≤ ≤ ≤

p p ... p

(1) (2) (m)

{1,

j, ..., m}

2) Determinare il più grande indice tra 2, tale che

≤

p (j) −

m j +1

≤

H i j

3) Rifiutare tutte le ipotesi tali che

(i)

La procedura di Hochberg rifiuta come o più di Holm, ma bisogna assumere che i p-values

{p ∈ T }

, i soddisfano la diseguaglianza di Simes (dipendenza positiva).

i vado verso destra: se sto sotto, continuo. Nel momento in cui vado sopra, mi fermo e rifiuto

Step-down

tutto quello che ho prima.

Nella invece vado da destra a sinistra e se sto sopra, allora continuo. Quando rifiuto, andrò sotto,

step-up

allora mi fermo e rifiuto tutto quello che ho a sinistra. Quindi nella secondo rifiuterò di più.

Relazioni logiche

ANOVA ad una via: 2 2 2

∼ ∼ ∼

Y N , σ Y N , σ Y N , σ

(µ ), (µ ), (µ )

1 1 2 2 3 3

Confronti a coppie: H µ µ H µ µ H µ µ

: = : = : =

12 1 2 13 1 3 23 2 3

Relazioni logiche tra ipotesi nulle:

H H H

Ad esempio, se è falsa, allora e non possono essere contemporaneamente vere.

12 13 23

Shaffer = Holm con relazioni logiche

α̃

Iniziare con = m

Ripetere i passi 1) e 2) ≤ α̃

1) Rifiutare tutte le ipotesi con p-value

αs

α̃

2) Aggiornare =

dove è il numero massimo di ipotesi nulle che possono essere contemporaneamente vere, assumendo che le

ipotesi rifiutate finora siano ipotesi false.

Shaffer è uniformemente più potente di Holm.

Confronti a coppie:

H µ µ p µ µ p µ µ p

: = = 0.01H : = = 0.54H : = = 0.04

12 1 2 12 13 1 3 13 23 2 3 23

α̃

Valore critico

m α

1) = 3, = 5% 0.05 ≈

α̃ H

= 0.0167 e rifiuto 12

3 →

H H H s

2) Se è falsa, allora al massimo una tra e può essere vera = 1

12 13 23

0.05 H

α̃ e rifiuto

= 23

1 →

H H H s

3) Se e sono false, allora può essere vera = 1

12 23 13 0.05

α̃ = ma non rifiuto alcuna ipotesi

Ipotesi nulle dei confronti a coppie

H µ µ H µ µ H µ µ

: = : = : =

12 1 2 13 1 3 23 2 3

Ipotesi nulla globale ∩ ∩

H H H H µ µ µ

= : = =

123 12 13 23 1 2 3

Relazioni logiche

H H , H H

Se è falsa, al massimo una tra e può essere vera.

123 12 13 23

Vediamo graficamente ANOVA ad una via con 3 gruppi

Vado a fare test d’ipotesi sulla congiunta, ad esempio il test se rifiuto, allora vado ad analizzare le singole

F,

ipotesi e almeno una sarà vera.

Osserviamo un altro dataset:

prostz <- Learning/Dataset/prostz.txt", quote="\"", comment.char="")

read.table("F:/Statistical

pvals <- = F)*2

pnorm(abs(prostz$V1),lower.tail

# Histogram col="lightgray", main="", xlab="p-value", freq=F)

hist(pvals,20,

abline(h=1,lty=2) 98

1.5

1.0

Density 0.5

0.0 0.0 0.2 0.4 0.6 0.8 1.0

p−value

#grafico che ordina i p-values

Simulazione (FWER control)

m = length(pvals)

alpha = 0.05

<= alpha)

sum(pvals

## [1] 478

# Bonferroni <= alpha)

sum(p.adjust(pvals,"bonferroni")

## [1] 3

# Holm and Hochberg <= alpha)

sum(p.adjust(pvals,"holm")

## [1] 3 <= alpha)

sum(p.adjust(pvals,"hochberg")

## [1] 3 xlim=c(1,20), ylim = xlab="i", ylab="p-value")

plot(1:m, sort(pvals), c(0,.0001),

alpha/(m- 1:m +1))

lines(1:m, 99

8e−05

p−value 4e−05

0e+00 5 10 15 20

FDR (procedure per il controllo)

Benjamini & Hochberg

1) Ordinare i p-values dal più piccolo al più grande

≤ ≤ ≤

p p ... p

(1) (2) (m)

{1,

j, ..., m}

2) Determinare il più grande indice tra 2, che soddisfa

jα

≤

p (j) m

Diversamente da bonferroni ho un valore critico differente.

≤ α̃ p

3) Rifiutare tutte le ipotesi con p-value = (j)

• La procedura assume che i p-values sono indipendenti o più generalmente con dipendenza positiva

BH

- positive regression dipendence on the subset of p-values of true null hypotheses (PRDS).

≤

F DR α

• Se è vera l’assunzione PRDS, garantisce

BH 0

• è una procedura

BH step-up. 100

101

#wilcoxon.test

#pvals2 <- apply(X,2, function(x) wilcox.test(x=x[1:50],y=x[-c(1:50)])$p.value)

#hist(pvals2,20)

#sum(pvals2 <= alpha)

#sum(p.adjust(pvals2,"BH") <= alpha)

In questo caso rifiutiamo di più, quindi controllo la percentuale di falsi positivi in valore atteso. Mi aspetterò

circa 3 falsi positivi, dato dal seguente calcolo: 61 0.05.

Benjamini & Yekutieli

1) E’ una variante di valida per qualsiasi forma di dipendenza tra i p-values.

BH iα , i ..., m

2) Rende più stringenti i valori critici = 1, moltiplicandoli per

m 1

1 m→∞

m 1

P log(m)

i=1 i

102

#wilcoxon.test

#pvals2 <- apply(X,2, function(x) wilcox.test(x=x[1:50],y=x[-c(1:50)])$p.value)

#hist(pvals2,20)

#sum(pvals2 <= alpha)

#sum(p.adjust(pvals2,"BY") <= alpha)

Qui non funziona molto bene, poichè il metodo è troppo stringente.

Simulazione (FDR control)

<= alpha)

sum(p.adjust(pvals,"BH")

## [1] 21 xlim=c(1,50), ylim = xlab="i", ylab="p-value")

plot(1:m, sort(pvals), c(0,.002),

alpha/(m- 1:m +1))

lines(1:m, alpha*(1:m)/m, col=2)

lines(1:m,

0.0020

p−value 0.0010

0.0000 0 10 20 30 40 50

#Benjamini & Yekutieli <= alpha)

sum(p.adjust(pvals,"BY")

## [1] 2 103

Lezione 10

FDP (stima e confidenza)

Stima FDP di Storey

Impostazione rifiutata:

R {H ≤

p t} R

Supponiamo di rifiutare = : con = #R.

i i 104

Intuizione: m t

≈

Dall’uniformità dei p-values sotto FDP nulla 0

R

Stima di 0 ≥ −

> λ}) m λ),

Idea: (1 così

E(#{p i 0 > λ}

#{p + 1

m̂ =

0 − λ

Stima di FDP (q-value) m̂ t t > λ}

#{p + 1

F DP (t) = = − ≤

R λ t}

1 #{p

Figure 2:

Storey e Benjamini & Hochberg

Relazioni vicine:

Una via alternativa di costruzione di impostazione rifiutata:

BH

m̂

1) Stimare = 1 invece di una stima di Storey.

0 ˆ ≤

t F DP α.

2) Prendere il valore più grande come (t)

Un look alternativo di Storey:

Metodo Storey = controllo adattato FDR.

Un look alternativo di BH:

Stima conservativa di FDP.

Storey e dipendenza

Metodo delle stime dei momenti:

⇒

Solo dipendenzain media Non affetta da una struttura correlata.

Però:

La variabilità della stima può essere grande se i p-values sono correlati.

105

Standard errors non disponibili:

Disponibili solo per p-values indipendenti.

Simulazione (Prostate data)

#dataset già importato in precedenza

# Sorted p-values plot type="l", xlab=&

Anteprima

Vedrai una selezione di 10 pagine su 157