Anteprima
Vedrai una selezione di 6 pagine su 22
Data Mining Pag. 1 Data Mining Pag. 2
Anteprima di 6 pagg. su 22.
Scarica il documento per vederlo tutto.
Data Mining Pag. 6
Anteprima di 6 pagg. su 22.
Scarica il documento per vederlo tutto.
Data Mining Pag. 11
Anteprima di 6 pagg. su 22.
Scarica il documento per vederlo tutto.
Data Mining Pag. 16
Anteprima di 6 pagg. su 22.
Scarica il documento per vederlo tutto.
Data Mining Pag. 21
1 su 22
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

K E(M SE

te

( osservazioni).

45 · n

- LOOCV distorsione molto bassa (utilizzati 1 osservazioni).

n

Varianza ˆ ˆ

- LOOCV ha un’alta varianza perchè è una media di quantità estremamente correlate ( sono

−(i) −(j)

f e f

n

previsti su 2 punti di training comuni).

n

- K-fold CV con = 5 ha varianza minore perchè è una media delle quantità che sono correlate meno.

K

Regressione lineare semplice

La regressione lineare è un semplice approccio all’apprendimento supervisionato. Assume che ci sia dipendenza

lineare tra e i regressori .

Y X , X , ..., X p

1 2

Le vere funzioni di regressione non sono mai lineari.

Assumendo un modello: = + +

Y β β X ε

0 1

dove e sono due costanti non note che rappresentano l’intercetta e lo slope, anche chiamati coefficienti

β β

0 1

o parametri, e è il termine d’errore.

ε

Date le stime di e di , vogliamo ricavare la stima della variabile risposta cioè la previsione di basata

β̂ β̂ ŷ, Y

0 1

sulle stime dei parametri associati ai regressori o predittori.

Osserviamo inoltre i residui che corrispondono alla differenza = i

e y ŷ

i i

Riguardo abbiamo a che fare con lo standard error:

l’accuratezza delle stime dei coefficienti,

- lo standard error di uno stimatore riflette come varia sotto campionamento ripetuto.

- Gli standrd errors possono essere usati per computare intervalli di confidenza. gli intervalli di confidenza al

95% sono definiti come un range di valori che hanno il 95% di probabilità, che il range conterrà il vero valore

sconosciuto dei parametri.

Per quanto riguarda i test d’ipotesi:

- gli standard errors possono essere inoltre utilizzati per performare ipotesi di test sui coefficienti. Il test

d’ipotesi più più comune include il testare l’ipotesi nulla

H0: non ci sono relazioni tra e

X Y

contro l’ipotesi alternativa

H1: ci sono relazioni tra e .

X Y

Abbiamo diversi test che verificano la significatività dei parametri singolarmente (test T) e in modo congiunto

(test F). 6

Regressione lineare multipla

Assumendo un modello: = + + + + +

Y β β X β X ... β X ε

p p

0 1 1 2 2

Interpretiamo come l’effetto medio su di un’aumento di un’unità , considerando tutti gli altri predittori

β Y X

j j

fissi.

stima e previsione per la regressione multipla

- date le stime , possimao prevedere utilizzando la formula

β̂ , β̂ , ..., β̂ p

0 1 = + + +

ŷ β̂ β̂ X ... β̂ X

p p

0 1 1

- Stimiamo come i valori che minimizzano la residual sum of square (RSS).

β , β , ..., β p

0 1

Some important questions

1. Is at least one of the predictors useful in predicting the response?

X , X , ..., X p

1 2

2. Do all the predictors help to explain , or is only a subset of the predictors useful?

Y

3. How well does the model fit the data?

4. Given a set of predictor values, what response value should we predict, and how accurate is our prediction?

In much of the rest of this course, we discuss methods that expand

Generalizzazione dei modelli lineari

the scope of linear models and how they are fit:

- Classification problems: logistic regression, support vector machines

- Non-linearity: kernel smoothing, splines and generalized additive models; nearest neighbor methods.

- Interactions: Tree-based methods, bagging, random forests and boosting (these also capture non-linearities)

-Regularized fitting: Ridge regression and lasso

Selezione delle variabili

ottenere un modello che utilizza solo un sottoinsieme di tutte le variabili. per rendere un modello

Obiettivo:

più semplice.

Anche con finalità di previsione. riduce la variabilità del modello e quindi aumenta la precisione della

previsione. voglio il modello più semplice possibile, eliminando le variabili inutili. Se uso tutte le

rasoio di Occam: x,

uso un modello completo. alcuni però possono essere dei rumori non legati alla e aumentano la variabilità

y

del modello.

voglio la relazione tra e un certo sottoinsieme.

y

Bias-Variance Trade-off

- Including many predictors leads to low bias and high variance

- Including few predictors leads to high bias and low variance

Quale subset utilizzare? che abbia un buon equilibrio? come affrontiamo il problema?

- provo tutti i possibili modelli. 2 modelli.

p

- problema: np-hard, cioè qualcosa che cresce in maniera esponenziale, in termini di computal science, la

complessità diventa enorme, abbiamo dei limiti tecnici.

infatti con 30 variabili abbiamo già più di 1 miliardo di modelli.

best subsets selection

Considero il modello con solo l’intercetta. con che va da 1 a stimo tutti i possibili modelli. fa 8

p

k p, k

modelli di regressione semplice se ho 8 predittori. intercetta + variabile1, interecetta + variabile2 ecc..

7

tra questi 8 scelgo il migliore in termini di somma dei quadrati dei residui . differenza tra osservati

·

n M SE

T r

e previsti al quadrato ecc. . . avrò + 1 modelli compreso quello con solo interecetta.

p

Faccio dal grafico, con 1 predittore e più vado a destra più inserisco i predittori. stima tutti i possibili modelli

e guarda l’errore di training, predendo il migliore cioè i punti rossi. infine seleziona uno tra i possibili puntini

rossi usando le strategie del tipo: AIC, BIC ecc. . .

ovviamente prendo quello che assume valore AIC inferiore o BIC inferiore. RSS ovviamente decresce sempre

(non mi importa). cp nel modello lineare corrispodne all’AIC. Il BIC di solito da un modello più parsimonioso.

il modello che scegliamo deve avere le varie startegie coerenti. se ciò non vale, dato che c’è molta incertezza,

posso prendere una media tra i due (in termini di modello).

5-fold cv with 1-sd rule

prendo quello con minimo, considero estremo superiore (stima dell’errore più 1 volta standard deviation)

= 2 va bene perchè la media sta dentro un certo intervallo.

k

forward stepwise selection

parto dal modello con solo intercetta, nullo. poi con k che va da 0 a 1, considero tutti i modelli con un

p

predittore aggiuntivo. oltre all’intercetta aggiungo un predittore. considero quello con RSS minore.

algoritmo ‘avaro’: è sotto-ottimale rispetto a subsets. ma computazionalmente

differenza con best subset:

efficiente.

con forward non è quello con il minimo RSS mentre best prende il minimo.

forward è applicabile anche a dataset con grandi dimensioni con n < p

backward stepwise selection

fa esattamente il contrario. ha un numero di modelli inferiore da considerare. computazionalmente

differenza:

efficiente. si può usare solo con poichè al primo passo devo stimare un modello completo. se ho più

n > p

predittori che osservazuoni, r mi da errore.

sono entrambi sotto-ottimali rispetto a best subsets. possono portare tutti e tre a modelli differenti. forward

e backward sono un sottogruppo del best subsets.

ci sono esempio una che ad ogni passo calcola AIC. si ferma all’AIC inferiore.

varianti con regola di stop.

problema che ci fermiamo prima dell’ottimo molto probabilmente poichè si ferma prima.

lo stesso nel caso backward con regola di stop. otteniamo un AIC che corrisponde ad un minimo locale e non

globale.

bisogna capire quale è il modello che voglio, cioè il migliore. dato che diversi metodi ci danno soluzioni

diverse, io scelgo nel seguente modo: provo tutti i modelli scelti e decido il migliore.

Classificazione

Abbiamo una risposta di tipo binario. La sua generalizzazione è la multiclasse, con k livelli.

Ricodificando le categorie come 0 e 1, variabile dicotomica (dummy).

Le rgole di classificazione prendono quindi una variabile risposta che assume valore 0 e 1. Nella previsione di

, osserviamo un tasso di errore

Y (Y =

6

P C(X))

8

Le regole di classificazione di Bayes, evidenzia una funzione di regressione

(x) = = = = 1|X =

|X

f E(Y x) P r(Y x)

La regola di Bayes quindi associa 1 alla funzione che risulta essere maggiore di , che si può fare se conosco

12

f(x), cosa che noi non conosciamo e valore 0 altrimenti.

Otteniamo il margine di decisione: 1

: (x) =

{x }

f 2

e la sua ottimalità che corrisponde al rischio di Bayes:

= (X)) =

6 ≤ 6

P r(Y C P r(Y C(X))∀C

in cui abbiamo l’errore irriducibile a sinistra.

La classificazione è considerata più semplice rispetto alla regressione, poichè prende valori superiori ad una

certa soglia ed assume valore 1, mentre per i restanti ha valore 0, generando così una variabile dicotomica.

La regressione prevede i dato osservati attraverso una funzione che risulta essere lineare, interpolando i dati

in modo molto approssimativo. La logistica invece segue di più l’andamento dei dati reali.

Ciò che ci interessa non è stimare bene la vera funzione di regressione (x), ma ci interessa che per i valori

f

maggiori di sia positivo e per i valori inferiori, sia negativo. voglio ottenere quindi un classificatore coerente.

12

esempio credit card.

bilancio è la variabile che discrimina di più, la variabile più importante. vediamo la differenza tra lineare e

logistica. nel primo caso classifico tutti come 0, poichè la retta tende a stare sui valori bassi e in più stima

valori negativi non possibili. la logistica stima in modo migliore. abbiamo un default pari a yes con un

bilancio superiore a 1500 (vedremo poi nell’esempio sul dataset).

Con il modello di analisi discriminante vedremo che non è sempre sbagliato usare il modello lineare, perchè

potrebbe classificare bene.

Regressione logistica

Scriviamo (X) = = 1|X) in breve. il modello logistico utilizza:

P P r(Y p(X) = + + +

log β β X ... β X

p p

0 1 1

1 − p(X)

che può essere riscritto come: β X X

+β +...+β

e p p

0 1 1

1 β X X

+β +...+β

− e p p

0 1 1

esempio arancio e blu

Vogliamo costruire la suddivisione tra i colori che non sia lineare ma che meglio approssima.

Posso usare anche qui il metodo dei k vicini più vicini. nel caso delle slide, prende i 3 più vicini e vado a

vedere quale sia il numero maggiore di vicini della cateoria. (metodo non parametrico come già sapevamo).

Con k=1 rischio di andare in overfitting e con k=100 troppo elevato, ottengo una separazio

Dettagli
Publisher
A.A. 2016-2017
22 pagine
1 download
SSD Scienze matematiche e informatiche INF/01 Informatica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher Pagani21 di informazioni apprese con la frequenza delle lezioni di Data mining M e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Milano - Bicocca o del prof Solari Aldo.