Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
R
K (z) = 0 for z>1
R
Span = frazione m/n , % di m punti in una finestra di un kernel / numero di osservazioni
• I pesi in LWA si ottengono come segue:
i punti all'esterno della scatola hanno un peso pari a 0 e i punti all'interno della
scatola hanno un peso questa volta i pesi vengono attribuiti appiccicando un kernel
= K[(x − x )/h]
i i 0
attorno al punto focale (punto focale ricodificato come (x – x )/ h ossia standardizzato
i 0
seguendo il Kernel centrato sulla z; infine il valore adattato a x da LWA è:
0
̂(0) = ∑
= ̂/0 è sempre una media condizionata, una funziona di x che meglio fitta y
∈ℎ
Ripeti lo spostamento della finestra per tutti x e unisce i punti (
̂ )
0 0
Cosa avviene in ogni finestra e unendo tutti i pallini si ottiene la figura in basso a destra.
• Definire lo span valore tra 0 e 1(% di punti che in ogni finestra devo considerare
rispetto a tutti i punti). se lo span ha valori bassi vuol dire che andrà a collegare
tantissime stime in tantissime finestre (perché ogni finestra avrà un valore piccolo e
quindi tantissimi punti focali da unire) quindi otterrò una figura poco smooth. Invece
se lo span ha valori alti vuol dire che esaurirà il processo di esaurimento in poche
finestre quindi in poche stime instantanee
• Se lo span = 1 che si fa???
• Miglior modo per migliorare lo smooth in questo caso è stimare un modello
polinomiale dentro ad ogni finestra (LOESS)
3. Local Polynomial Regression (LOESS): regressione non parametrica
Stima attraverso un modello polinomiale(regressione non parametrica di grado 1) dentro ogni finestra (Stima
WLS dentro ogni finestra- la stima WLS l’abbiamo già vista per migliorare l’eteroschedasticità) e si otterrà il
̂
valore sarà il valore previsto di questa regressione dentro il punto focale.
Questa LOESS non è altro che una LWA con
stima WLS. I punti hanno diverso peso, quindi
lo stimatore è WLS dentro ogni finestra.
UGUALE a LWA, ma ora, al passaggio (C) invece
di fare la media ad ogni finestra viene adattata
ai dati un'equazione di regressione polinomiale
2 p
di grado p: y = + x + x +..+ x +
i 0 1 i 1 i p i i
^
p=2, fit quadratico, p=1 lineare allo step C è y /x =
i 0
chiamato LOESS, p=0 è LWA….linea piatta.
y = + x +
LOESS = LWA con stima WLS, fitta questa equazione che deve minimizzare la somma
i 0 1 i i
residua ponderata dei quadrati ( − − )
LOESS= ricaviamo quindi la migliore interpolante tra y e x. Questo non è un caso che è la funzione
di default che tutti i software mostrano quando fanno interpolazione di uno scatter plot, poiché
nelle figure diagnostiche dei modelli abbiamo visto le funzioni di colore rosso, e quelle funzioni rosse
erano delle LOESS ossia le migliori interpolanti tra i valori tra due serie (sull’asse delle x c’era il valore
previsto e sull’asse delle y i residui studentizzati) e se la LOESS è piatta non vi è un particolare pattern
dei residui rispetto al valore previsto, quindi le curve rosse che hanno particolari pattern identificano
qualche problema nei residui che portano poi problemi di eteroschedasticità.
Una volta che il WLS è montato a x 0
f̂(0) ̂ ̂
= ̂/0 = + x
0 1 0
.. ripetendo questo quando la finestra si muove... hai il
Loess soffocato
LOESS=LWA+REG+WLS
→
La figura di destra in ogni finestra il punto focale x è il punto rosso e attribuisce ai punti rossi
0
(che sono nella finestra) dei pesi che sono identificati dal kernel di colore giallo e attraverso questa
WLS fitta, con una regressione lineare, tutti i punti di questa finestra e il valore previsto del punto
focale rappresenta l’unico punto che viene stimato dalla LOESS in quella finestra.
Queste curve rosse sono proprio delle LOESS
applicate alle tre situazioni e quindi essendo la
migliore interpolante non c’è altro modo
migliore di vedere se c’è un pattern dei residui
utilizzando una LOESS.
Le linee ROSSE sono loess che si adattano al
grafico a dispersione!!!! Se sono piatti, buona
diagnostica poiché AL VARIARE DEI FITTED
VALUES i residui studentizzati si mantengono
sullo stesso range.
MODI PER RICAVARE IL VALORE DELLO SPAN:
1.Definire ogni volta il parametro di tuning ottimale, ossia il parametro di tuning da considerare è
lo span: situazioni al crescere dello span che identificano una bassissima smooth nel primo grafico
(poiché span piccolo) fino ad arrivare all’ultimo grafico con un livello di smooth molto più adatto
(poiché span più alto) In questo esempio h = 0.5 o h = 0.7 sembra
fornire un ragionevole compromesso tra
smoothness e fedeltà ai dati
Alto bias = ridurre lo span
Come uso tutto questo per la costruzione di un mdoello robusto?? Immaginiamo di scegliere una
funzione con uno span = 0.5 ma osservo che questa non è una funzione analitica(dal disegno) quindi
la LOESS mi costringe a pensare “esiste una forma funzionale che assomiglia alla figura che ho
ricavato con span = 0.5 (poiché questa è la miglior interpolante tra y ed x)?” la risposta è
probabilmente si, ossia che conosco una funziona analitica simile a questa figura ed è una funziona
logaritmica (quindi questo vuol dire che la relazione tra y ed x non è lineare ma logaritmica. Quindi
la LOESS mi suggerisce di ri-specificare un altro modello in cui la variabile indipendente non appare
più in forma lineare ma in forma logaritmica. Quindi fa si che abbiamo trovato una funzione analitica
(il logaritmo) che meglio approssima la migliore interpolante secondo l’approccio delle smoother!!!
2. (metodo che abbiamo visto anche con BOX-COX) Si trovano tutti i possibili valori di h e ad ogni
valore di h si associa una misura di fit o di adattamento e si sceglie il valore di h che minimizza questa
metrica di errore Cv(h)-cross validation-(questo è il tipico modo di tunare i modelli nel corso di data
mining). 2
∑ (h))
(y − ŷ
i −i
Cv(h) = n
Una misura robusta è un MSE robusto, è robusta perché (come abbiamo suggerito le scorse volte i
valori previsti di y sono valori distorti perché non posso giudicare un modello con una statistica di
errore per quei soggetti che hanno determinati parametri del modello visti nella formula DFITTS)
̂
quindi la previsione per obs robuste sulle i ( ) è ottenuta in una regressione locale al valore focale
−
x , cancellando i dati per obs i (usando le restanti osservazioni n - 1).
0 i
In pratica dobbiamo ottenere molte misure per h differenti: AIC(h), PRESS(h) e scegliere h dove si
ottiene l'errore minimo:
Voglio un modello più robusto nella finestra che sia robusta agli outlier: esiste un integrazione con
una LOESS e una robust regression fittata dentro ad una finestra (ossia dentro una finestra lo
stimatore non è più WLS ma è una robust regression)
Quindi ci stiamo concentrando non più su modelli analitici ma iterativi!!
Uso principale del kernel
Il kernel è tipicamente usato per adattare una densità non parametrica di una densità empirica f(x)
(istogramma). Come? Metti un kernel su ogni punto osservato x , definisci span h, quindi somma i
0
kernel verticalmente, normalizza per avere integrale =1 e hai……la densità del kernel stimata di f(x)…
non parametrica!!!
Regressioni cubiche/ Regressione SPLINES approach
simile a MA smoother (binning), ma invece di una funzione step in ogni intervallo viene applicato un
particolare polinomio di grado 3 con determinate caratteristiche (spline).
NB: La finestra non si muove, quindi si deve lavorare sulle singole finestre!! Questa è la grande
differenza con le precedenti procedura. Per ogni singola finestra si ha un problmea di model fitting,
quindi si fitta la variabile dipendente usando dei modelli di regressione non lineari ma cubici.
Procedura: L'interpolazione regression spline è un particolare metodo di interpolazione. A
differenza dell'interpolazione polinomiale, che utilizza un unico polinomio per approssimare la
funzione y=f(x) su tutto l'intervallo di definizione, l'interpolazione spline è ottenuta suddividendo il
dominio di x in più sotto-intervalli (I =[x ,x ] con K=1,..,N-1) definiti da punti di snodo (Knots)
k k k+1
scegliendo per ciascuno di essi un polinomio di grado d. La funzione con d=3 chiama piecewise cubic
spline.
NB Una Piecewise Cubic spline con 0 knots interpola i dati con un polinomio di grado 3 su tutto il dominio di x
Il problema sarà di rendere continue le funzioni nei punti di snodo (nella figura di sinistra per
ottenere quella di destra)!! Definire i punti di snodo; come? Bisogna tunare un parametro che
rappresenta la complessità di una spline sostanzialmente legato ai gradi di libertà e quindi di fatto i
gradi di libertà sono funzione di quanti sono i punti di snodo.
Cubic spline (parameters) Cubic spline: a tratti sotto il vincolo
che la curva adattata deve essere
1.continuo al nodo 2.continua
prima e derivate seconde al nodo.
**In
(condizioni regolari).
generale, una spline cubica
con nodi K utilizza un totale
*regression with Spline cubica a tratti sotto di 4 + K parametri/gradi di
2 3 il vincolo che la curva libertà (df).
an intercept and x, x , x adattata deve essere
a) continua al nodo
Una spline lineare ha meno df ed è meno complessa.
opzione da tenere in considerazione ma non è al meglio smooth, quindi in generale si tiene in
considerazione che si deve trovare una cubic spline in ogni sotto-finestra.
Quindi df essendo una funzione dei nodi è un tipo di parametro di complessità di fitting adatta. Più
df, più complessa (più nodi) è la spline.
Passaggio delle cubic spline alle natural cubic spline
Sfortunatamente, le spline cubiche possono avere un'elevata varianza agli estremi dell'intervallo x
(grandi bande di confidenza nella regione di confine di x), a causa della scarsità di punti. Una spline
cubica naturale è una spline cubica con tre vincoli al contorno aggiuntivi: Questi vincoli aggiuntivi
significano che le spline naturali generalmente producono stime più stabili ai confini (due vincoli) +
uno sull'intercetta. In generale la df di una spline
cubica naturale con K nodi=
(4 + K - 3) = K+1
Si aggiungono ulteriori vincoli agli estremi, ossia vincolare le stime in modo che siano stabili per
punti consecutivi agli es