Appunti Statistica computazionale

Appunti di Statistica computazionale su: 1.Interpretazione di Modelli lineari complessi (Anova, Ancova, GLM) con interazioni, trasformate2. Robust methods (Bootstrap, Jacknife, Robust …

Esame Data mining e machine learning

Facoltà Scienze statistiche

Dal corso del Prof. Lovaglio Pietro Giorgio

Università Università degli Studi di Milano - Bicocca

Publisher aurora.musitelli.am56

A.A. 2021-2022

120 pagine

Schemi e mappe concettuali

Vota

Scarica

Estratto del documento

R

K (z) = 0 for z>1

R

Span = frazione m/n , % di m punti in una finestra di un kernel / numero di osservazioni

• I pesi in LWA si ottengono come segue:

i punti all'esterno della scatola hanno un peso pari a 0 e i punti all'interno della

scatola hanno un peso questa volta i pesi vengono attribuiti appiccicando un kernel

= K[(x − x )/h]

i i 0

attorno al punto focale (punto focale ricodificato come (x – x )/ h ossia standardizzato

i 0

seguendo il Kernel centrato sulla z; infine il valore adattato a x da LWA è:

̂(0) = ∑

= ̂/0 è sempre una media condizionata, una funziona di x che meglio fitta y

∈ℎ

Ripeti lo spostamento della finestra per tutti x e unisce i punti (

̂ )

0 0

Cosa avviene in ogni finestra e unendo tutti i pallini si ottiene la figura in basso a destra.

• Definire lo span valore tra 0 e 1(% di punti che in ogni finestra devo considerare

rispetto a tutti i punti). se lo span ha valori bassi vuol dire che andrà a collegare

tantissime stime in tantissime finestre (perché ogni finestra avrà un valore piccolo e

quindi tantissimi punti focali da unire) quindi otterrò una figura poco smooth. Invece

se lo span ha valori alti vuol dire che esaurirà il processo di esaurimento in poche

finestre quindi in poche stime instantanee

• Se lo span = 1 che si fa???

• Miglior modo per migliorare lo smooth in questo caso è stimare un modello

polinomiale dentro ad ogni finestra (LOESS)

3. Local Polynomial Regression (LOESS): regressione non parametrica

Stima attraverso un modello polinomiale(regressione non parametrica di grado 1) dentro ogni finestra (Stima

WLS dentro ogni finestra- la stima WLS l’abbiamo già vista per migliorare l’eteroschedasticità) e si otterrà il

valore sarà il valore previsto di questa regressione dentro il punto focale.

Questa LOESS non è altro che una LWA con

stima WLS. I punti hanno diverso peso, quindi

lo stimatore è WLS dentro ogni finestra.

UGUALE a LWA, ma ora, al passaggio (C) invece

di fare la media ad ogni finestra viene adattata

ai dati un'equazione di regressione polinomiale

2 p

    

di grado p: y = + x + x +..+ x +

i 0 1 i 1 i p i i

p=2, fit quadratico, p=1 lineare allo step C è y /x =

i 0

chiamato LOESS, p=0 è LWA….linea piatta.   

y = + x +

LOESS = LWA con stima WLS, fitta questa equazione che deve minimizzare la somma

i 0 1 i i



residua ponderata dei quadrati   ( −  −   )

     

LOESS= ricaviamo quindi la migliore interpolante tra y e x. Questo non è un caso che è la funzione

di default che tutti i software mostrano quando fanno interpolazione di uno scatter plot, poiché

nelle figure diagnostiche dei modelli abbiamo visto le funzioni di colore rosso, e quelle funzioni rosse

erano delle LOESS ossia le migliori interpolanti tra i valori tra due serie (sull’asse delle x c’era il valore

previsto e sull’asse delle y i residui studentizzati) e se la LOESS è piatta non vi è un particolare pattern

dei residui rispetto al valore previsto, quindi le curve rosse che hanno particolari pattern identificano

qualche problema nei residui che portano poi problemi di eteroschedasticità.

Una volta che il WLS è montato a x 0

 

f̂(0) ̂ ̂

= ̂/0 = + x

0 1 0

.. ripetendo questo quando la finestra si muove... hai il

Loess soffocato

LOESS=LWA+REG+WLS

→

La figura di destra in ogni finestra il punto focale x è il punto rosso e attribuisce ai punti rossi

(che sono nella finestra) dei pesi che sono identificati dal kernel di colore giallo e attraverso questa

WLS fitta, con una regressione lineare, tutti i punti di questa finestra e il valore previsto del punto

focale rappresenta l’unico punto che viene stimato dalla LOESS in quella finestra.

Queste curve rosse sono proprio delle LOESS

applicate alle tre situazioni e quindi essendo la

migliore interpolante non c’è altro modo

migliore di vedere se c’è un pattern dei residui

utilizzando una LOESS.

Le linee ROSSE sono loess che si adattano al

grafico a dispersione!!!! Se sono piatti, buona

diagnostica poiché AL VARIARE DEI FITTED

VALUES i residui studentizzati si mantengono

sullo stesso range.

MODI PER RICAVARE IL VALORE DELLO SPAN:

1.Definire ogni volta il parametro di tuning ottimale, ossia il parametro di tuning da considerare è

lo span: situazioni al crescere dello span che identificano una bassissima smooth nel primo grafico

(poiché span piccolo) fino ad arrivare all’ultimo grafico con un livello di smooth molto più adatto

(poiché span più alto) In questo esempio h = 0.5 o h = 0.7 sembra

fornire un ragionevole compromesso tra

smoothness e fedeltà ai dati

Alto bias = ridurre lo span

Come uso tutto questo per la costruzione di un mdoello robusto?? Immaginiamo di scegliere una

funzione con uno span = 0.5 ma osservo che questa non è una funzione analitica(dal disegno) quindi

la LOESS mi costringe a pensare “esiste una forma funzionale che assomiglia alla figura che ho

ricavato con span = 0.5 (poiché questa è la miglior interpolante tra y ed x)?” la risposta è

probabilmente si, ossia che conosco una funziona analitica simile a questa figura ed è una funziona

logaritmica (quindi questo vuol dire che la relazione tra y ed x non è lineare ma logaritmica. Quindi

la LOESS mi suggerisce di ri-specificare un altro modello in cui la variabile indipendente non appare

più in forma lineare ma in forma logaritmica. Quindi fa si che abbiamo trovato una funzione analitica

(il logaritmo) che meglio approssima la migliore interpolante secondo l’approccio delle smoother!!!

2. (metodo che abbiamo visto anche con BOX-COX) Si trovano tutti i possibili valori di h e ad ogni

valore di h si associa una misura di fit o di adattamento e si sceglie il valore di h che minimizza questa

metrica di errore Cv(h)-cross validation-(questo è il tipico modo di tunare i modelli nel corso di data

mining). 2

∑ (h))

(y − ŷ

i −i

Cv(h) = n

Una misura robusta è un MSE robusto, è robusta perché (come abbiamo suggerito le scorse volte i

valori previsti di y sono valori distorti perché non posso giudicare un modello con una statistica di

errore per quei soggetti che hanno determinati parametri del modello visti nella formula DFITTS)

quindi la previsione per obs robuste sulle i ( ) è ottenuta in una regressione locale al valore focale

−

x , cancellando i dati per obs i (usando le restanti osservazioni n - 1).

0 i

In pratica dobbiamo ottenere molte misure per h differenti: AIC(h), PRESS(h) e scegliere h dove si

ottiene l'errore minimo:

Voglio un modello più robusto nella finestra che sia robusta agli outlier: esiste un integrazione con

una LOESS e una robust regression fittata dentro ad una finestra (ossia dentro una finestra lo

stimatore non è più WLS ma è una robust regression)

Quindi ci stiamo concentrando non più su modelli analitici ma iterativi!!

Uso principale del kernel

Il kernel è tipicamente usato per adattare una densità non parametrica di una densità empirica f(x)

(istogramma). Come? Metti un kernel su ogni punto osservato x , definisci span h, quindi somma i

kernel verticalmente, normalizza per avere integrale =1 e hai……la densità del kernel stimata di f(x)…

non parametrica!!!

Regressioni cubiche/ Regressione SPLINES approach

simile a MA smoother (binning), ma invece di una funzione step in ogni intervallo viene applicato un

particolare polinomio di grado 3 con determinate caratteristiche (spline).

NB: La finestra non si muove, quindi si deve lavorare sulle singole finestre!! Questa è la grande

differenza con le precedenti procedura. Per ogni singola finestra si ha un problmea di model fitting,

quindi si fitta la variabile dipendente usando dei modelli di regressione non lineari ma cubici.

Procedura: L'interpolazione regression spline è un particolare metodo di interpolazione. A

differenza dell'interpolazione polinomiale, che utilizza un unico polinomio per approssimare la

funzione y=f(x) su tutto l'intervallo di definizione, l'interpolazione spline è ottenuta suddividendo il

dominio di x in più sotto-intervalli (I =[x ,x ] con K=1,..,N-1) definiti da punti di snodo (Knots)

k k k+1

scegliendo per ciascuno di essi un polinomio di grado d. La funzione con d=3 chiama piecewise cubic

spline.

NB Una Piecewise Cubic spline con 0 knots interpola i dati con un polinomio di grado 3 su tutto il dominio di x

Il problema sarà di rendere continue le funzioni nei punti di snodo (nella figura di sinistra per

ottenere quella di destra)!! Definire i punti di snodo; come? Bisogna tunare un parametro che

rappresenta la complessità di una spline sostanzialmente legato ai gradi di libertà e quindi di fatto i

gradi di libertà sono funzione di quanti sono i punti di snodo.

Cubic spline (parameters) Cubic spline: a tratti sotto il vincolo

che la curva adattata deve essere

1.continuo al nodo 2.continua

prima e derivate seconde al nodo.

**In

(condizioni regolari).

generale, una spline cubica

con nodi K utilizza un totale

*regression with Spline cubica a tratti sotto di 4 + K parametri/gradi di

2 3 il vincolo che la curva libertà (df).

an intercept and x, x , x adattata deve essere

a) continua al nodo

Una spline lineare ha meno df ed è meno complessa.

opzione da tenere in considerazione ma non è al meglio smooth, quindi in generale si tiene in

considerazione che si deve trovare una cubic spline in ogni sotto-finestra.

Quindi df essendo una funzione dei nodi è un tipo di parametro di complessità di fitting adatta. Più

df, più complessa (più nodi) è la spline.

Passaggio delle cubic spline alle natural cubic spline

Sfortunatamente, le spline cubiche possono avere un'elevata varianza agli estremi dell'intervallo x

(grandi bande di confidenza nella regione di confine di x), a causa della scarsità di punti. Una spline

cubica naturale è una spline cubica con tre vincoli al contorno aggiuntivi: Questi vincoli aggiuntivi

significano che le spline naturali generalmente producono stime più stabili ai confini (due vincoli) +

uno sull'intercetta. In generale la df di una spline

cubica naturale con K nodi=

(4 + K - 3) = K+1

Si aggiungono ulteriori vincoli agli estremi, ossia vincolare le stime in modo che siano stabili per

punti consecutivi agli es

Anteprima

Vedrai una selezione di 20 pagine su 120