Data mining

Appunti i quali integrano sia le slide sia le lezioni del professore Lovaglio riguardanti esclusivamente il modulo di Data mining. E' necessario utilizzare solo questi per passare l'esame in quanto includono tutto ciò che verrà richiesto all'orale.

Esame Data mining e machine learning

Facoltà Scienze statistiche

Dal corso del Prof. Lovaglio Pietro Giorgio

Università Università degli Studi di Milano - Bicocca

Publisher gabrielet0903

A.A. 2024-2025

23 pagine

Appunti esame

Vota 4,0 / 5 (2)

Scarica

Estratto del documento

R

- è presenta un’alta correlazione negativa o positiva nella matrice di varianze e

covarianze

Quali sono le diagnostiche utilizzabili? 2

)=1−R ( / )

- Indice di tolleranza: , indica la parte di

Tol( x x x , ... , x , x , ..., x

−1

j j 1 j j+1 p

x che non viene spiegata dalle altre variabili indipendenti. Se è uguale ad uno, le

variabili sono ortogonali, alternativamente siamo in presenza di perfetta

)>0.3

Tol( x

multicollinearità. In generale, si accetta un j

1−¿ 2 (x / )

- R x , ... , x , x , ... , x

Variance inflation factor: ( )=1/Tol( )=1 /¿

Vif x x j 1 j−1 j+1 p

j j

) ( )<

Vif x 5

In generale, si accetta un j

- Usare direttamente la model selection, la quale risolverà in automatico la

multicollinearità (con il rischio che la model selection possa scartare una variabile

particolarmente importante per il dataset se perfettamente collineare con un’altra)

Gli stessi problemi di multicollinearità possono presentarsi anche fra due variabili

categoriche, in questo caso è doveroso calcolare gli indici chi-quadro normalizzati, ed

eliminare una delle due variabili se l’indice supera 0.8

Se il modello presenta ancora dei problemi è possibile che ci sia una correlazione fra una

variabile continua e una categorica (molto raro)

Linearità

Affinché gli stimatori siano corretti, consistenti ed efficienti, si richiede una relazione lineare

^ =

y y Xb

fra e .

Quindi, la linearità rappresenta un’ipotesi con grande rilevanza nell’ambito della

modellistica, ed esistono diverse diagnostiche per valutarla. In primo luogo si osservano gli

scatterplot residuals vs fitted values e residuals vs variabili dipendenti in modo da osservare

se questi abbiano un andamento lineare, tuttavia esistono strumenti empirici come le

diagnostiche di linearità.

Se osserviamo che l’ipotesi di linearità non è soddisfatta è necessario attuare una

trasformazione sulla variabile target in modo che la sua versione trasformata sia lineare con

Una delle trasformazioni più importanti per linearità è quella di Box-Cox, i quali hanno

dimostrato che quando un modello lascia un grande residuo (mse grande) questo dipende

fortemente da un modello che non rispetta la linearità. Di conseguenza hanno proposto una

procedura di massima verosimiglianza per stimare un parametro che minimizzi MSE (o

massimizzi la log-likelihood) così che la variabile target trasformata con sia lineare con

i valori predetti, risolvendo uno dei problemi maggiori del metodo OLS.

( λ) λ λ ≠ 0

= /

y y λ

¿ ( ) λ=0

log y se

Trasformate logaritmiche

Le trasformate logaritmiche sono un’altra soluzione particolarmente comune per risolvere la

non linearità, in particolare osserviamo tre tipi di modelli:

y=β β ln( x)+ε

1. linear-log: 1 2

)=β +

ln( y β ln(x)+ ε

2. log-log: 1 2

)=β + +ε

ln( y β x

3. linear-log: 1 2

oltre a far diventare i modelli lineari anche nelle variabili, un altro vantaggio delle

trasformate logaritmiche è la facile interpretazione, infatti il log implica una variazione

percentuale sulla variabile corrispondente ad una variazione sulla seconda variabile nella sua

unità di misura. Inoltre si osserva come il modello log-lineare è suggerito anche nella

trasformata di Box-Cox.

Se la trasformata logaritmica viene applicata sulla variabile dipendente, vi è un cambiamento

nella interpretazione della variabile dummy, il coefficiente rappresenta sempre la variazione

percentuale rispetto al livello di riferimento ma bisogna eseguire prima una correzione. Infatti

)−1

exp(β

il divario percentuale sarà dato da 2

Altre trasformazioni per le covariate

- Se le covariate sono binarie non è possibile attuare nessuna trasformazione

- Se le variabili sono categoriche è possibile aggregare i loro livelli tramite la tecnica

dell’optimal grouping. Esiste pacchetto che automatizza la procedura e fornisce il

miglior raggruppamento fra quelli disponibili tale che la nuova variabile a più livelli

abbia un potere esplicativo migliore della variabile originale, con significatività più

alta (massimizziamo la devianza spiegata dell’ANOVA)

- se sono quantitative utilizziamo le tecniche di data transformation come le

trasformazioni analitiche, la regressione non parametrica e il binning tra covariate.

Trasformazioni analitiche:

In generale, fino ad adesso abbiamo trattato i cosiddetti modelli lineari, i quali si riferiscono

al fatto che la linearità sia nei parametri e nelle variabili, tuttavia, è possibile utilizzare

modelli non lineari nelle variabili chiamati modelli lineare generalizzati (sottoclasse dei

modelli lineari). L’importante è quindi mantenere la linearità dei parametri.

12 22

+ + + + + +

Ad esempio: y=β x β x β β x x β x β x ε

0 1 1 2 2 3 1 2 4 5

( (

y=GLM x)=LM z)+ ε

Grazie ai modelli GLM è possibile fittare al meglio i dati siccome la funzione non è obbligata

a seguire un andamento lineare su tutto il grafico ma può essere migliorata tramite curvature

(alzando gli esponenti delle variabili)

Binning tra covariate:

Si tratta di una tecnica per ridurre la variabile quantitativa x a una variabile ordinale per

catturare la non-linearità nella relazione tra x e y, e per ridurre l’asimmetria della x.

Esistono due modi per implementare il binning:

1. il metodo del conteggio equivalente (equal count), secondo il quale vengono creati

intervalli bin in base al numero di osservazioni presenti. Il numero dei bin viene

specificato dall’utente

2. il metodo degli intervalli uguali (equal interval) secondo il quale l’intero range della

variabile viene diviso in bins la cui dimensione e numerosità viene specificata

dall’utente

Regressione non parametrica

L’obiettivo è trovare forma funzionale più adatta alle variabili continue, un modello additivo,

per poi e riscriverle come un modello lineare. β x

In altre parole, si rimpiazzano i semplici termini dell’equazione lineare con

j j

f x

(x )

f dove è una funzione non parametrica, smooth, del predittore . Quindi,

j j j j

nei modelli additivi, una funzione non specificata (parametrica) viene stimata per ogni

(x )

predittore in modo tale da ottenere la migliore predizione di sulla variabile

j j

dipendente.

A questo fine vengono implementate due metodologie: LOESS e SPLINES

LOESS

Come già ribadito, l’obiettivo è trovare una funzione che meglio si adatti ai dati per ogni

predittore (una retta è troppo rigida). Un primo strumento applicabile sarebbe la cosiddetta

moving average, la quale viene implementata come segue:

1. si divide l’asse x in dei intervalli di ampiezza h, e si evidenzia per ogni intervalli il

punto centrale (chiamato anche punto focale) 0

2. per ogni finestra centrata nel punto focale si procede con il computo della media per

osservare il valore previsto della x in ogni intervallino

3. si uniscono le medie in modo da ottenere un modello analitico che meglio interpola lo

scatterplot

Gli intervalli vengono determinati in vari modi, o si prende in considerazione intervalli di

lunghezza uguale oppure è possibile anche costruire intervalli con equal frequenties, con lo

stesso numero di osservazioni (metodologia del binning).

Tuttavia, mantenere l’intervallo fisso rappresenta una limitazione per il computo di una

funzione smooth, di conseguenza è stata implementata una miglioria: la sliding window

(finestra che si muove). Con questo metodo, l’intervallo non è fisso e vengono uniti i punti

focali calcolati mentre la finestra è in movimento (la velocità non è costante ma dipende dalla

concentrazione dei punti) in modo da trovare un’interpolazione smooth e fedele. Questa

tecnica è chiamata local averaging.

Per fare in modo che l’algoritmo giri bisogna introdurre un parametro di tuning (parametro il

quale definisce la complessità di una particolare tecnica), in questo caso è rappresentato dallo

span, vale a dire percentuale di punti in una finestra. Una volta fissato lo span, la finestra si

sposta in avanti finché non acquisisce tanti punti da riprodurlo.

Per computare una stima più robusta è utile differenziare i pesi attorno al punto focale; più le

osservazioni più sono vicine più peso avranno e decrescono al allontanarsi fino ad arrivare al

peso 0. Bisogna trovare un sistema per attribuire pesi automatici, si introduce così il kernel; il

x x

peso è la densità simmetrica kernel in rispetto a (punto focale) con ampiezza h.

i 0

(local weighted averaging). Si attua infine un’ulteriore miglioria in modo da ricavare la local

polynomial regression (LOESS). Vengono implementati tutti gli algoritmi sopracitati ma,

invece di unire le medie di ogni intervalli calcolate con i pesi mentra la finestra si muove,

viene calcolata una regressione polinomiale in ogni intervallo di ampiezza h (spezzate rosse

negli output di R). Quindi, ipotizzando il movimento della finestra, fitto una linear regression

per prevedere il punto focale, non viene utilizzato il metodo OLS poiché vengono attribuiti

pesi diversi in base al kernel, utilizziamo quindi il metodo WLS.

Come si sceglie lo span? (parametro di tuning)

Utilizziamo un metodo euristico: quando h cresce la complessità diminuisce, con span

piccolo il modello è molto variabile. Di conseguenza si sceglie o visivamente fornendo un

compromesso tra smothness e fedeltà ai dati oppure scegliere h che minimizza un errore

robust error CV(h) valore previsto della loess togliendo i-esima osservazione (valore previsto

non distorto di y cappuccio con i) della finestra chiamata anche PRESS

(se h, lo span è uguale a 1, la loess è uguale alla linear regression con metodo WLS, i pesi

non spariscono)

− (h)¿

y y −i

i ¿

❑

∑ ¿

❑

(h)=¿

Kernel

Il kernel è tipicamente utilizzato per adattare una densità non parametrica di una densità

(x)

empirica , migliore funzione che fitta l'istogramma. Come?

Si prende per ogni valore osservato un punto focale e si aggancia il suo kernel normale,

successivamente si sommano le densità verticalmente per riprodurre in modo non

parametrico l’istogramma, l’area sotto la nuova fun

Anteprima

Vedrai una selezione di 6 pagine su 23

Anteprima di 6 pagg. su 23.
Scarica il documento per vederlo tutto.

Scarica

Anteprima di 6 pagg. su 23.
Scarica il documento per vederlo tutto.

Scarica

Anteprima di 6 pagg. su 23.
Scarica il documento per vederlo tutto.

Scarica

Anteprima di 6 pagg. su 23.
Scarica il documento per vederlo tutto.

Scarica

Acquista con carta o PayPal

Scarica i documenti tutte le volte che vuoi

Dettagli

SSD

Scienze matematiche e informatiche INF/01 Informatica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher gabrielet0903 di informazioni apprese con la frequenza delle lezioni di Data mining e machine learning e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Milano - Bicocca o del prof Lovaglio Pietro Giorgio.

Appunti correlati