Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
TP FN
1+ −δ
δ TN FP
solicit) )> (ignore)
EP(solicit EP
avranno anche . Avremo quindi dure regole equivalenti:
(0)
EP(1)> EP
- Se allora predict = 1
1
∗¿
p 1 i −δ
δ
- Se allora predict = 1
TP FN
1+ −δ
δ TN FP
Qual è il criterio di assessment in presenza di profitti e costi? come confronto i modelli?
Utilizziamo il criterio del profitto atteso calcolato.Per confrontare i modelli utilizziamo il total
computed profit, vale a dire il profitto totale computato, il quale ha la stessa formula del
expected profit ma non è calcolato sulla matrice di confusione bensì sulla matrice di
decisione ricavata utilizzando il criterio del max EP. Questa matrice non è più attesa in base
ad una posterior 0,5 ma è calcolata sulla base della soglia ottimale bayesiana.
Quindi, il costo totale o il profitto totale sia atteso sia computed di M sono indicatori di bontà
classificativa che possono portare a conclusioni diverse dalle misure di classificazione legate
alle sole unità statistiche (accuratezza, sensitivity ecc).
Se ho un target NON binario tutte le medie sopravvivono, profitti e costi calcolati e attesi
sono sempre ricavabili, perdo sensitivity, specitivity ecc, vale a dire le metriche
asimmetriche.
Albero classificativo
Gli alberi decisionali rappresentano una tecnica di apprendimento automatizzato per la
risoluzione di problemi di classificazione e di previsione. Utilizzano tecniche statistiche per
analizzare la relazione tra una variabile dipendente (binaria, continua, categoriale) ed altre
variabili indipendenti.
Abbiamo già introdotto gli alberi decisionali precedentemente, il loro scopo è quello di
classificare e prevedere tramite il criterio dello split ottimale, secondo il quale, i soggetti in un
gruppo finale devono essere massimamente omogenei in termini di distribuzione del target,
mentre la distribuzione del target deve essere massimamente disomogenea nei gruppi finali
(criterio discriminante). Bisogna quindi definire la migliore divisione, una regola per definire
l’arresto dell’algoritmo, stimare l’EPE e il rischio di classificazione o di previsione ad esso
associato.
Ogni nodo quindi (chiamato anche cut-off o split) può essere binario, e generare due figli, o
multiway, e generare >2 figli. Normalmente si preferiscono gli split binary, in quanto il
multiway segmenterebbe i dati in maniera troppo veloce. Il criterio per scegliere il migliore
split fra tutti gli split disponibili è quello sopracitato: individuare lo split che ottenga gruppi
massimamente omogenei al loro interno e massimamente disomogenei al loro esterno,
inoltre, bisogna prendere in considerazione gli indici di disordine o impurità di ciascun nodo.
Si parte da una situazione sfavorevole (massima incertezza) e in base ad un solo split si è in
grado di suddividere in due diversi gruppi tramite una covariata x (split ideale). Quindi, a
partire dalla massima eterogeneità del target nel padre ottengo la massima purezza nei figli.
Misura di variabilità: indice di eterogeneità di Gini, misura impurità in ciascun nodo e come le
frequenze di un certo campione si distribuiscono tra le modalità del target.
❑
∑ 2 (t ) (Gini(t ))=( −1)/J
Gini( t)=1− f Min(Gini(t))=0 Max J
❑
equidistribuzione
Bisogna misurare la bontà di uno splitting misurando impurità media dei figli (quanto impuri
sono i figli rispetto al padre) oppure il decremento di impurità dello split s (differenza impurità
padre e figli). n n
1 2
(s (t )+ )
Gini , t)= Ginit Gini(t media impurità dei figli dello split s dal nodo
split 1 2
N N
padre (t )− )
Δ Gini(s , t)=Gini(t)− p Ginit p Gini(t decremento di impurità dello split s dal
1 1 2 2
nodo padre t
Lo split migliore sarà quindi lo split s* (per tutti i possibili cutoff e covariate) che massimizzi il
decremento dell’impurità dal nodo padre t (quindi massimizzi il delta Gini, approccio usato
da CART)
La situazione ottimale sarebbe quella di perfetta separazione in quanto si riuscirebbe a
segmentare utilizzando un solo split e l’albero avrebbe accuratezza pari ad 1 (difficile da
avere). Si itera quindi il processo, massimizzando per ogni step il delta Gini, dove ogni nodo
figlio sarà il nuovo nodo padre di partenza fino ad un criterio di arresto.
Quando siamo di fronte ad un target continuo, non è più possibile utilizzare l’indice di Gini, si
prende in considerazione quindi la varianza come misura di impurità di un nodo. Sfruttiamo il
teorema di scomposizione della varianza e specifichiamo come varianza nei gruppi la misura
da minimizzare in modo da ottenere lo split ottimale. Analogamente, il decremento di
impurità chiamato precedentemente delta Gini sarà uguale alla varianza tra i gruppi.
Caret quindi utilizza il miglior cutoff che massimizza la varianza tra i gruppi o minimizza la
2
varianza nei gruppi. E’ possibile ottenere l’indice di bontà di adattamento per l’albero.
R
Altri metodi oltre a Cart come C4.5 hanno un criterio di splitting basato sull’entropia (misura
dell’indice di Gini su scala log), recepiscono anche la misura di impurità di un target
qualitativo in un nodo.
^
y
Ogni nodo avrà un : media del target dove il soggetto finisce, di conseguenza sarà
❑
i
possibile calcolare tutte le metriche utili come ASE e correlazione.
Un terzo tipo di approccio per lo split viene utilizzato dall’algoritmo chaid il cui obiettivo è
sempre quello di ricavare dei figli più puri del padre tramite una segmentazione. I criteri di
split non si basano più sull’impurità media dei figli, ma questi ultimi vengono rappresentati
tramite una tabella di frequenza 2x2; esiste una situazione teorica di indipendenza statistica
la quale si verifica se due nodi sono praticamente identici. Si utilizza quindi una statistica chi-
quadrata come metodo di ripartizione e si privilegeranno gli split che la massimizzano.
Altri software usano il p value associato al chi-quadrato. Inoltre, altre metodologie come
logworth ampliano il range del metodo chaid permettendo di confrontare la bontà degli split
−log( p value)
tramite utilizzo di .
Come si arresta un albero?
La ripartizione binaria di un insieme di unità statistiche si arresta naturalmente nella
situazione ideale dove i nodi terminali contengono solo individui appartenenti ad una sola
classe della variabile dipendente. L’albero completo potrebbe avere tanti nodi finali quante
sono le unità statistiche. La regola di arresto serve per fermare l’albero in un punto efficace
con alto potere discriminatorio. Esistono due possibilità: PRE pruning e POST pruning.
Pre-pruning: questa tecnica definisce alcune regole prima che l’albero venga generato, ad
esempio la dimensione della foglia (numerosità dei nodi finali), la massima profondità
dell’albero oppure la dimensione massima del padre per ottenere uno split successivo. Va
da sé che la metodologia pre-pruning sia particolarmente limitante in quanto definisce
caratteristiche fondamentali dell’albero prima ancora che questo venga generato.
Post-pruning: consente all’albero decisionale di crescere in profondità e, una volta ricavato,
si potano le foglie che non portano vantaggio alla classificazione scegliendo l’albero che
minimizza una metrica cross validata, coincide quindi con i parametri di tuning. Si sceglie
quindi l’albero più ampio possibile e poi si pota in base alla minimizzazione dell’ASE cross-
validato.
Introduciamo un’altra metrica utile per definire bontà dello split vale a dire error rate.
Ad ogni split è associata una tabella di confusione (regola basata sui maggiore pivot). Si può
prendere come primo split quello che minimizza error rate (Incrocio target osservato e
previsto). Per fare post-pruning, e quindi tunare l’albero, Cart sceglie l’albero ottimale che
minimizza error rate cross-validato.
Un secondo criterio di potatura utilizza il metodo di regolarizzazione shrinkage, viene quindi
introdotto un parametro aggiuntivo alpha moltiplicato per il numero massimo di nodi finali
che rappresenta il massimo budget possibile.
2
^
− ¿ +α ∨T ∨¿
y y
i R m ¿
❑
∑ ¿
❑ ❑
∑ ¿
RSS= ❑
L’obiettivo è minimizzare RSS aggiustata per un massimo budget e tunare il parametro
alpha.
Al variare di alpha, chiamato anche CP, fornisce determinate metriche come il numero di
nodi finali, relative error (metrica che sto minimizzando sul training), xerror (metrica che sto
minimizzando sul cross-validation), xstd (standard error rapporto devianza residua di ogni
albero e del target senza split)
Bisogna quindi scegliere l’albero a cui è associato un error rate cross-validato più basso o
minimizza overfitting (seconda colonna). Cart minimizza one standard error, invece di
ragionare sul valore puntuale dell’errore, lavora sull’intervallo di confidenza. prende xerror
come valore centrale dell’intervallo e calcola intervallo di confidenza al 68% tramite standard
error xstd.
(prendiamo xerror più piccolo, aggiungiamo il suo xstd e prendiamo l’albero più piccolo con
xerror minore di questa somma.)
Si può calcolare l’importanza di una variabile in un albero decisionale?
All’interno dell’albero decisionale, solamente le variabili che generano degli split hanno
un’importanza maggiore di 0, la quale sarà data dalla somma delle riduzioni di Gini (quindi la
somma dei delta Gini) per tutti gli split generati da x nell’albero completo. Infine l’importanza
relativa di una variabile è data dal rapporto fra il cumulativo dei delta Gini e la variabile di
importanza relativa massima.
L’albero decisionale non richiede nessun tipo di preprocessing, quindi non ha bisogno di
normalizzazioni, covariate simmetriche, imputazione di dati mancanti o model selection,
viene considerato un model selector particolarmente flessibile.
Anche la collinearità non rappresenta un problema per l’albero il quale è inoltre veloce nella
fase di training e validation, tuttavia è doveroso prestare attenzione alle variabili surrogate.
Se definiscono variabili surrogate le covariate che non vengono estratte dall’albero (quindi
hanno importanza pari a 0), ma che se venissero estratte avrebbero la stessa capacità
esplicativa di altre covariate estratte. Il concetto di collinearità si sposta quindi al concetto di
stessa capacità discriminati