Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
K E(M SE
te
( osservazioni).
45 · n
- LOOCV distorsione molto bassa (utilizzati 1 osservazioni).
−
n
Varianza ˆ ˆ
- LOOCV ha un’alta varianza perchè è una media di quantità estremamente correlate ( sono
−(i) −(j)
f e f
n
previsti su 2 punti di training comuni).
−
n
- K-fold CV con = 5 ha varianza minore perchè è una media delle quantità che sono correlate meno.
K
Regressione lineare semplice
La regressione lineare è un semplice approccio all’apprendimento supervisionato. Assume che ci sia dipendenza
lineare tra e i regressori .
Y X , X , ..., X p
1 2
Le vere funzioni di regressione non sono mai lineari.
Assumendo un modello: = + +
Y β β X ε
0 1
dove e sono due costanti non note che rappresentano l’intercetta e lo slope, anche chiamati coefficienti
β β
0 1
o parametri, e è il termine d’errore.
ε
Date le stime di e di , vogliamo ricavare la stima della variabile risposta cioè la previsione di basata
β̂ β̂ ŷ, Y
0 1
sulle stime dei parametri associati ai regressori o predittori.
Osserviamo inoltre i residui che corrispondono alla differenza = i
−
e y ŷ
i i
Riguardo abbiamo a che fare con lo standard error:
l’accuratezza delle stime dei coefficienti,
- lo standard error di uno stimatore riflette come varia sotto campionamento ripetuto.
- Gli standrd errors possono essere usati per computare intervalli di confidenza. gli intervalli di confidenza al
95% sono definiti come un range di valori che hanno il 95% di probabilità, che il range conterrà il vero valore
sconosciuto dei parametri.
Per quanto riguarda i test d’ipotesi:
- gli standard errors possono essere inoltre utilizzati per performare ipotesi di test sui coefficienti. Il test
d’ipotesi più più comune include il testare l’ipotesi nulla
H0: non ci sono relazioni tra e
X Y
contro l’ipotesi alternativa
H1: ci sono relazioni tra e .
X Y
Abbiamo diversi test che verificano la significatività dei parametri singolarmente (test T) e in modo congiunto
(test F). 6
Regressione lineare multipla
Assumendo un modello: = + + + + +
Y β β X β X ... β X ε
p p
0 1 1 2 2
Interpretiamo come l’effetto medio su di un’aumento di un’unità , considerando tutti gli altri predittori
β Y X
j j
fissi.
stima e previsione per la regressione multipla
- date le stime , possimao prevedere utilizzando la formula
β̂ , β̂ , ..., β̂ p
0 1 = + + +
ŷ β̂ β̂ X ... β̂ X
p p
0 1 1
- Stimiamo come i valori che minimizzano la residual sum of square (RSS).
β , β , ..., β p
0 1
Some important questions
1. Is at least one of the predictors useful in predicting the response?
X , X , ..., X p
1 2
2. Do all the predictors help to explain , or is only a subset of the predictors useful?
Y
3. How well does the model fit the data?
4. Given a set of predictor values, what response value should we predict, and how accurate is our prediction?
In much of the rest of this course, we discuss methods that expand
Generalizzazione dei modelli lineari
the scope of linear models and how they are fit:
- Classification problems: logistic regression, support vector machines
- Non-linearity: kernel smoothing, splines and generalized additive models; nearest neighbor methods.
- Interactions: Tree-based methods, bagging, random forests and boosting (these also capture non-linearities)
-Regularized fitting: Ridge regression and lasso
Selezione delle variabili
ottenere un modello che utilizza solo un sottoinsieme di tutte le variabili. per rendere un modello
Obiettivo:
più semplice.
Anche con finalità di previsione. riduce la variabilità del modello e quindi aumenta la precisione della
previsione. voglio il modello più semplice possibile, eliminando le variabili inutili. Se uso tutte le
rasoio di Occam: x,
uso un modello completo. alcuni però possono essere dei rumori non legati alla e aumentano la variabilità
y
del modello.
voglio la relazione tra e un certo sottoinsieme.
y
Bias-Variance Trade-off
- Including many predictors leads to low bias and high variance
- Including few predictors leads to high bias and low variance
Quale subset utilizzare? che abbia un buon equilibrio? come affrontiamo il problema?
- provo tutti i possibili modelli. 2 modelli.
p
- problema: np-hard, cioè qualcosa che cresce in maniera esponenziale, in termini di computal science, la
complessità diventa enorme, abbiamo dei limiti tecnici.
infatti con 30 variabili abbiamo già più di 1 miliardo di modelli.
best subsets selection
Considero il modello con solo l’intercetta. con che va da 1 a stimo tutti i possibili modelli. fa 8
p
k p, k
modelli di regressione semplice se ho 8 predittori. intercetta + variabile1, interecetta + variabile2 ecc..
7
tra questi 8 scelgo il migliore in termini di somma dei quadrati dei residui . differenza tra osservati
·
n M SE
T r
e previsti al quadrato ecc. . . avrò + 1 modelli compreso quello con solo interecetta.
p
Faccio dal grafico, con 1 predittore e più vado a destra più inserisco i predittori. stima tutti i possibili modelli
e guarda l’errore di training, predendo il migliore cioè i punti rossi. infine seleziona uno tra i possibili puntini
rossi usando le strategie del tipo: AIC, BIC ecc. . .
ovviamente prendo quello che assume valore AIC inferiore o BIC inferiore. RSS ovviamente decresce sempre
(non mi importa). cp nel modello lineare corrispodne all’AIC. Il BIC di solito da un modello più parsimonioso.
il modello che scegliamo deve avere le varie startegie coerenti. se ciò non vale, dato che c’è molta incertezza,
posso prendere una media tra i due (in termini di modello).
5-fold cv with 1-sd rule
prendo quello con minimo, considero estremo superiore (stima dell’errore più 1 volta standard deviation)
= 2 va bene perchè la media sta dentro un certo intervallo.
k
forward stepwise selection
parto dal modello con solo intercetta, nullo. poi con k che va da 0 a 1, considero tutti i modelli con un
−
p
predittore aggiuntivo. oltre all’intercetta aggiungo un predittore. considero quello con RSS minore.
algoritmo ‘avaro’: è sotto-ottimale rispetto a subsets. ma computazionalmente
differenza con best subset:
efficiente.
con forward non è quello con il minimo RSS mentre best prende il minimo.
forward è applicabile anche a dataset con grandi dimensioni con n < p
backward stepwise selection
fa esattamente il contrario. ha un numero di modelli inferiore da considerare. computazionalmente
differenza:
efficiente. si può usare solo con poichè al primo passo devo stimare un modello completo. se ho più
n > p
predittori che osservazuoni, r mi da errore.
sono entrambi sotto-ottimali rispetto a best subsets. possono portare tutti e tre a modelli differenti. forward
e backward sono un sottogruppo del best subsets.
ci sono esempio una che ad ogni passo calcola AIC. si ferma all’AIC inferiore.
varianti con regola di stop.
problema che ci fermiamo prima dell’ottimo molto probabilmente poichè si ferma prima.
lo stesso nel caso backward con regola di stop. otteniamo un AIC che corrisponde ad un minimo locale e non
globale.
bisogna capire quale è il modello che voglio, cioè il migliore. dato che diversi metodi ci danno soluzioni
diverse, io scelgo nel seguente modo: provo tutti i modelli scelti e decido il migliore.
Classificazione
Abbiamo una risposta di tipo binario. La sua generalizzazione è la multiclasse, con k livelli.
Ricodificando le categorie come 0 e 1, variabile dicotomica (dummy).
Le rgole di classificazione prendono quindi una variabile risposta che assume valore 0 e 1. Nella previsione di
, osserviamo un tasso di errore
Y (Y =
6
P C(X))
8
Le regole di classificazione di Bayes, evidenzia una funzione di regressione
(x) = = = = 1|X =
|X
f E(Y x) P r(Y x)
La regola di Bayes quindi associa 1 alla funzione che risulta essere maggiore di , che si può fare se conosco
12
f(x), cosa che noi non conosciamo e valore 0 altrimenti.
Otteniamo il margine di decisione: 1
: (x) =
{x }
f 2
e la sua ottimalità che corrisponde al rischio di Bayes:
= (X)) =
∗
6 ≤ 6
P r(Y C P r(Y C(X))∀C
in cui abbiamo l’errore irriducibile a sinistra.
La classificazione è considerata più semplice rispetto alla regressione, poichè prende valori superiori ad una
certa soglia ed assume valore 1, mentre per i restanti ha valore 0, generando così una variabile dicotomica.
La regressione prevede i dato osservati attraverso una funzione che risulta essere lineare, interpolando i dati
in modo molto approssimativo. La logistica invece segue di più l’andamento dei dati reali.
Ciò che ci interessa non è stimare bene la vera funzione di regressione (x), ma ci interessa che per i valori
f
maggiori di sia positivo e per i valori inferiori, sia negativo. voglio ottenere quindi un classificatore coerente.
12
esempio credit card.
bilancio è la variabile che discrimina di più, la variabile più importante. vediamo la differenza tra lineare e
logistica. nel primo caso classifico tutti come 0, poichè la retta tende a stare sui valori bassi e in più stima
valori negativi non possibili. la logistica stima in modo migliore. abbiamo un default pari a yes con un
bilancio superiore a 1500 (vedremo poi nell’esempio sul dataset).
Con il modello di analisi discriminante vedremo che non è sempre sbagliato usare il modello lineare, perchè
potrebbe classificare bene.
Regressione logistica
Scriviamo (X) = = 1|X) in breve. il modello logistico utilizza:
P P r(Y p(X) = + + +
log β β X ... β X
p p
0 1 1
1 − p(X)
che può essere riscritto come: β X X
+β +...+β
e p p
0 1 1
1 β X X
+β +...+β
− e p p
0 1 1
esempio arancio e blu
Vogliamo costruire la suddivisione tra i colori che non sia lineare ma che meglio approssima.
Posso usare anche qui il metodo dei k vicini più vicini. nel caso delle slide, prende i 3 più vicini e vado a
vedere quale sia il numero maggiore di vicini della cateoria. (metodo non parametrico come già sapevamo).
Con k=1 rischio di andare in overfitting e con k=100 troppo elevato, ottengo una separazio