Machine learning

Appunti i quali integrano sia le slide sia le lezioni del prof Lovaglio sul modulo di Data mining e machine learning. Sono sufficienti questi appunti per passare l'esame oltre all'elaborato. …

Esame Data mining e machine learning

Facoltà Scienze statistiche

Dal corso del Prof. Lovaglio Pietro Giorgio

Università Università degli Studi di Milano - Bicocca

Publisher gabrielet0903

A.A. 2024-2025

31 pagine

Appunti esame

Vota 4,0 / 5 (2)

Scarica

Estratto del documento

TP FN

1+ −δ

δ TN FP

solicit) )> (ignore)

EP(solicit EP

avranno anche . Avremo quindi dure regole equivalenti:

(0)

EP(1)> EP

- Se allora predict = 1

∗¿

p 1 i −δ

- Se allora predict = 1

TP FN

1+ −δ

δ TN FP

Qual è il criterio di assessment in presenza di profitti e costi? come confronto i modelli?

Utilizziamo il criterio del profitto atteso calcolato.Per confrontare i modelli utilizziamo il total

computed profit, vale a dire il profitto totale computato, il quale ha la stessa formula del

expected profit ma non è calcolato sulla matrice di confusione bensì sulla matrice di

decisione ricavata utilizzando il criterio del max EP. Questa matrice non è più attesa in base

ad una posterior 0,5 ma è calcolata sulla base della soglia ottimale bayesiana.

Quindi, il costo totale o il profitto totale sia atteso sia computed di M sono indicatori di bontà

classificativa che possono portare a conclusioni diverse dalle misure di classificazione legate

alle sole unità statistiche (accuratezza, sensitivity ecc).

Se ho un target NON binario tutte le medie sopravvivono, profitti e costi calcolati e attesi

sono sempre ricavabili, perdo sensitivity, specitivity ecc, vale a dire le metriche

asimmetriche.

Albero classificativo

Gli alberi decisionali rappresentano una tecnica di apprendimento automatizzato per la

risoluzione di problemi di classificazione e di previsione. Utilizzano tecniche statistiche per

analizzare la relazione tra una variabile dipendente (binaria, continua, categoriale) ed altre

variabili indipendenti.

Abbiamo già introdotto gli alberi decisionali precedentemente, il loro scopo è quello di

classificare e prevedere tramite il criterio dello split ottimale, secondo il quale, i soggetti in un

gruppo finale devono essere massimamente omogenei in termini di distribuzione del target,

mentre la distribuzione del target deve essere massimamente disomogenea nei gruppi finali

(criterio discriminante). Bisogna quindi definire la migliore divisione, una regola per definire

l’arresto dell’algoritmo, stimare l’EPE e il rischio di classificazione o di previsione ad esso

associato.

Ogni nodo quindi (chiamato anche cut-off o split) può essere binario, e generare due figli, o

multiway, e generare >2 figli. Normalmente si preferiscono gli split binary, in quanto il

multiway segmenterebbe i dati in maniera troppo veloce. Il criterio per scegliere il migliore

split fra tutti gli split disponibili è quello sopracitato: individuare lo split che ottenga gruppi

massimamente omogenei al loro interno e massimamente disomogenei al loro esterno,

inoltre, bisogna prendere in considerazione gli indici di disordine o impurità di ciascun nodo.

Si parte da una situazione sfavorevole (massima incertezza) e in base ad un solo split si è in

grado di suddividere in due diversi gruppi tramite una covariata x (split ideale). Quindi, a

partire dalla massima eterogeneità del target nel padre ottengo la massima purezza nei figli.

Misura di variabilità: indice di eterogeneità di Gini, misura impurità in ciascun nodo e come le

frequenze di un certo campione si distribuiscono tra le modalità del target.

❑

∑ 2 (t ) (Gini(t ))=( −1)/J

Gini( t)=1− f Min(Gini(t))=0 Max J

❑

equidistribuzione

Bisogna misurare la bontà di uno splitting misurando impurità media dei figli (quanto impuri

sono i figli rispetto al padre) oppure il decremento di impurità dello split s (differenza impurità

padre e figli). n n

1 2

(s (t )+ )

Gini , t)= Ginit Gini(t media impurità dei figli dello split s dal nodo

split 1 2

N N

padre (t )− )

Δ Gini(s , t)=Gini(t)− p Ginit p Gini(t decremento di impurità dello split s dal

1 1 2 2

nodo padre t

Lo split migliore sarà quindi lo split s* (per tutti i possibili cutoff e covariate) che massimizzi il

decremento dell’impurità dal nodo padre t (quindi massimizzi il delta Gini, approccio usato

da CART)

La situazione ottimale sarebbe quella di perfetta separazione in quanto si riuscirebbe a

segmentare utilizzando un solo split e l’albero avrebbe accuratezza pari ad 1 (difficile da

avere). Si itera quindi il processo, massimizzando per ogni step il delta Gini, dove ogni nodo

figlio sarà il nuovo nodo padre di partenza fino ad un criterio di arresto.

Quando siamo di fronte ad un target continuo, non è più possibile utilizzare l’indice di Gini, si

prende in considerazione quindi la varianza come misura di impurità di un nodo. Sfruttiamo il

teorema di scomposizione della varianza e specifichiamo come varianza nei gruppi la misura

da minimizzare in modo da ottenere lo split ottimale. Analogamente, il decremento di

impurità chiamato precedentemente delta Gini sarà uguale alla varianza tra i gruppi.

Caret quindi utilizza il miglior cutoff che massimizza la varianza tra i gruppi o minimizza la

varianza nei gruppi. E’ possibile ottenere l’indice di bontà di adattamento per l’albero.

R

Altri metodi oltre a Cart come C4.5 hanno un criterio di splitting basato sull’entropia (misura

dell’indice di Gini su scala log), recepiscono anche la misura di impurità di un target

qualitativo in un nodo.

Ogni nodo avrà un : media del target dove il soggetto finisce, di conseguenza sarà

❑

possibile calcolare tutte le metriche utili come ASE e correlazione.

Un terzo tipo di approccio per lo split viene utilizzato dall’algoritmo chaid il cui obiettivo è

sempre quello di ricavare dei figli più puri del padre tramite una segmentazione. I criteri di

split non si basano più sull’impurità media dei figli, ma questi ultimi vengono rappresentati

tramite una tabella di frequenza 2x2; esiste una situazione teorica di indipendenza statistica

la quale si verifica se due nodi sono praticamente identici. Si utilizza quindi una statistica chi-

quadrata come metodo di ripartizione e si privilegeranno gli split che la massimizzano.

Altri software usano il p value associato al chi-quadrato. Inoltre, altre metodologie come

logworth ampliano il range del metodo chaid permettendo di confrontare la bontà degli split

−log( p value)

tramite utilizzo di .

Come si arresta un albero?

La ripartizione binaria di un insieme di unità statistiche si arresta naturalmente nella

situazione ideale dove i nodi terminali contengono solo individui appartenenti ad una sola

classe della variabile dipendente. L’albero completo potrebbe avere tanti nodi finali quante

sono le unità statistiche. La regola di arresto serve per fermare l’albero in un punto efficace

con alto potere discriminatorio. Esistono due possibilità: PRE pruning e POST pruning.

Pre-pruning: questa tecnica definisce alcune regole prima che l’albero venga generato, ad

esempio la dimensione della foglia (numerosità dei nodi finali), la massima profondità

dell’albero oppure la dimensione massima del padre per ottenere uno split successivo. Va

da sé che la metodologia pre-pruning sia particolarmente limitante in quanto definisce

caratteristiche fondamentali dell’albero prima ancora che questo venga generato.

Post-pruning: consente all’albero decisionale di crescere in profondità e, una volta ricavato,

si potano le foglie che non portano vantaggio alla classificazione scegliendo l’albero che

minimizza una metrica cross validata, coincide quindi con i parametri di tuning. Si sceglie

quindi l’albero più ampio possibile e poi si pota in base alla minimizzazione dell’ASE cross-

validato.

Introduciamo un’altra metrica utile per definire bontà dello split vale a dire error rate.

Ad ogni split è associata una tabella di confusione (regola basata sui maggiore pivot). Si può

prendere come primo split quello che minimizza error rate (Incrocio target osservato e

previsto). Per fare post-pruning, e quindi tunare l’albero, Cart sceglie l’albero ottimale che

minimizza error rate cross-validato.

Un secondo criterio di potatura utilizza il metodo di regolarizzazione shrinkage, viene quindi

introdotto un parametro aggiuntivo alpha moltiplicato per il numero massimo di nodi finali

che rappresenta il massimo budget possibile.

− ¿ +α ∨T ∨¿

y y

i R m ¿

❑

∑ ¿

❑ ❑

∑ ¿

RSS= ❑

L’obiettivo è minimizzare RSS aggiustata per un massimo budget e tunare il parametro

alpha.

Al variare di alpha, chiamato anche CP, fornisce determinate metriche come il numero di

nodi finali, relative error (metrica che sto minimizzando sul training), xerror (metrica che sto

minimizzando sul cross-validation), xstd (standard error rapporto devianza residua di ogni

albero e del target senza split)

Bisogna quindi scegliere l’albero a cui è associato un error rate cross-validato più basso o

minimizza overfitting (seconda colonna). Cart minimizza one standard error, invece di

ragionare sul valore puntuale dell’errore, lavora sull’intervallo di confidenza. prende xerror

come valore centrale dell’intervallo e calcola intervallo di confidenza al 68% tramite standard

error xstd.

(prendiamo xerror più piccolo, aggiungiamo il suo xstd e prendiamo l’albero più piccolo con

xerror minore di questa somma.)

Si può calcolare l’importanza di una variabile in un albero decisionale?

All’interno dell’albero decisionale, solamente le variabili che generano degli split hanno

un’importanza maggiore di 0, la quale sarà data dalla somma delle riduzioni di Gini (quindi la

somma dei delta Gini) per tutti gli split generati da x nell’albero completo. Infine l’importanza

relativa di una variabile è data dal rapporto fra il cumulativo dei delta Gini e la variabile di

importanza relativa massima.

L’albero decisionale non richiede nessun tipo di preprocessing, quindi non ha bisogno di

normalizzazioni, covariate simmetriche, imputazione di dati mancanti o model selection,

viene considerato un model selector particolarmente flessibile.

Anche la collinearità non rappresenta un problema per l’albero il quale è inoltre veloce nella

fase di training e validation, tuttavia è doveroso prestare attenzione alle variabili surrogate.

Se definiscono variabili surrogate le covariate che non vengono estratte dall’albero (quindi

hanno importanza pari a 0), ma che se venissero estratte avrebbero la stessa capacità

esplicativa di altre covariate estratte. Il concetto di collinearità si sposta quindi al concetto di

stessa capacità discriminati

Anteprima

Vedrai una selezione di 8 pagine su 31