Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
STEP 3) VALUTARE LE PRESTAZIONI DI CLASSIFICAZIONE DI UN MODELLO
SELEZIONATO
step 3) Model evaluation: Come valutare le prestazioni classificative di un modello M
selezionato? Ipotizziamo che stiamo valutando allo step 3 il modello migliore (modello M
selezionato al passo 2) vediamo quali misure di bontà classificativa esistono. (Definire quali sono le
misure di classificazione nell’ipotesi di aver trovato un modello migliore, ossia quali sono le metriche
per vedere se un modello ci soddisfa)
CRITERI di performance classificativa di un modello M scelto:
→Criterio 1: unità classificate
→Criterio 2: costi/profitti della classificazione
→CRITERIO 1: unità classificate
Confusione Matrice di validazione: N osservazioni
Proporre varie metriche basate sulle unità, ossia considerano come ingredienti i conteggi delle celle
della tabella.
a: soggetti “yes” correttamente classificati vengono chiamati “veri positivi”
d: soggetti “no” correttamente classificati vengono chiamati “veri negativi”
b: soggetti della classe “yes” missclassificati come “no” vengono chiamati “falsi negativi” (sono
falsamente negativi, quindi erano positivi nei dati storici)
c: soggetti della classe “no” missclassificati come “yes” vengono chiamati “falsi positivi”
→Misure di valutazione delle prestazioni (tipologie di metriche che valgono per tutti i target)
1)Accuratezza: % di corretta classificazione dei soggetti. Misura di bontà classificativa simmetrica
in cui hanno lo stesso peso i veri positivi e i veri negativi Error Rate:
Il complemento a 1 dell’accuratezza è rappresentato dall’
NB: una stima del tasso di errore di classificazione previsto
Ossia il tasso di errata classificazione (in realtà c’è un po' di confusione che l’error rate sia il
complemento a 1 dell’accuratezza infatti si definisce il tasso d’errore di ciascun elemento del target
pesato per le prior-le % di classe “yes” e di classe “no” della popolazione).
Quindi uso le probabilità p * ottenute dal modello M sul validation (e una soglia per ricavare il target
i
previsto), ottengo la matrice di confusione e le misure associate:
Nel caso di crossvalidation, si ricavano le p * crossvalidate e si valutano le misure di accuratezza-
i
errore della matrice di confusione crossvalidata. Tutte queste metriche sono valutate sul dataset
di validation-nel momento in cui si può suddividere il dataset in training e validation- (poiché solo
su dati che non hanno mai contribuito a creare il modello queste metriche sono non distorte perché
le prob. a posteriori che abbiamo ricavato su dati di validation sono non distorte). Mentre se il
dataset non è possibile da dividere in training e in validation si utilizza solo la cross validation come
strategia e quindi saranno tutte metriche cross validate.
2)Valore di k: corregge l’accuratezza che abbiamo appena definito in una accuratezza casuale;
misura la concordanza tra l’obiettivo osservato e stimato (Accuratezza) controllando l’accuratezza
casuale (Precisione attesa, E l’accuratezza attesa per accordo casuale). Quindi l’idea è quella di
A
creare dalla tabella di classificazione originaria la tabella teorica di indipendenza statistica e su
questa ricalcolare l’accuratezza. Tabella sotto statistica Indipendenza;
Prodotto dei marginali/N della prima
tabella
→Altre misure di bontà classificativa/errore di un modello M (Valide solo per Target
binario)
True positive rate= % di corretti classificati nella classe 1→ossia capacità del modello di classificare
correttamente soggetti di classe 1
True negative rate= ossia capacità del modello di classificare correttamente i soggetti di classe 0
Bisogna valutare non solo l’accuratezza ma anche i due eventi di interesse che sono la sensitivity e
la specificity. Perché l’accuratezza può derivare da qualsiasi combinazione di sensitivity e la
specificity (ricordarsi quale evento nei software fissano di default come primary outcome)
[La precision e la sensitivity sono inversamente correlate: al crescere della sensitivity la precision
diminuisce e al crescere della precision la sensitivity diminuisce]
→ALTRE MISURE PRECISION E F (percentuale di colonna, ci si interessa sulla precisione sul
1
totale di soggetti ad esempio classificati come “yes” quanti sono veramente “yes”)
TUTTE QUESTE METRICHE NON SONO UNIVERSALI/ASSOLUTE ma dipendono dalla soglia scelta t
che ha convertito una posterior in un target previsto (ossia per passare dalla prob. prevista al target
previsto). →CRITERIO 2: costi/profitti della classificazione
Ogni decisione (come il modello classifica i soggetti), comporta dei profitti e costi (profitti negativi).
Sulla diagonale: Profit (>0) di classificare target j (true) come target j
Fuori diagonale: Profit (<0, Cost) di classificare target i (true) come j
Misure di bontà classificativa usando profit matrix
Misure di bontà classificativa usando cost matrix
Perdita totale vs accuratezza per il modello M
Trade off tra metriche di tipo monetario e metriche di unità statistiche
Che effetti ha la specificazione di una matrice C di costi-profitti sui modelli
classificativi?
1.C può diventare un criterio per la scelta delle covariate e regola classificativa associata
2.Target previsto
3.Metrica da usare nel confronta modelli
1.C criterio di scelta delle covariate
La minimizzazione di costo totale o massimizzazione del profitto totale diventano criteri di model
selection di un modello M
Scegli il modello che massimizza il profitto atteso (expected profit) con cross-validation…perchè?
Vedi slide dopo
(nell’esempio dei pesci): Il costo di classificare erroneamente il salmone come branzino è che il
cliente finale troverà occasionalmente un gustoso pezzo di salmone quando acquista il branzino. Il
costo di classificare erroneamente il branzino come salmone è un cliente finale arrabbiato quando
trova un pezzo di branzino acquistato al prezzo del salmone.
La cosa peggiore è classificare erroneamente come (spacciare al consumatore pesce
ordinario come se fosse il salmone) 2.Target previsto
Una matrice profitto/costo C modifica la regola per la classificazione, che non si basa più sui
posteriori, ma su un nuovo indice denominato “Expected PROFIT individual” (EPi)
→
Expected Profit (EPi) analogo per ogni unità statistica dei profitti attesi totale ricavato su tutti
i soggetti dopo aver stimato un modello classificativo.
Oltre a misure sintetiche, come costo/profitto totale atteso, esistono valori di costo/profitto
individuali, es. profitti attesi legati alle due decisioni per soggetto i
EP (yes): profitto atteso della decisone yes, significa qual è il profitto che mi aspetto se classificassi
i
il soggetto i-esimo come yes quindi dovrò andare a sommare i profitto ma ponderandoli per le
probabilità che l’algoritmo classificativo mi assegni alla classe 1 o alla classe 0.
EP (no): profitto atteso della decisone no, significa qual è il profitto che mi aspetto se classificassi il
i
soggetto i-esimo come no quindi dovrò andare a sommare i profitto ma ponderandoli per le
probabilità che l’algoritmo classificativo mi assegni alla classe 1 o alla classe 0.
La decisione tra la classe target si basa sull'Epi massimo
Soggetto che ho classificato come "sì" se EPi (sì) > EPi (No)
Questo approccio viene chiamato: Decisione basata sul profitto massimo di ogni decisione
Esempio:
Altri possibili casi: y binario e tre possibili decisioni
La matrice di costi/profitto non deve essere per forza simmetrica ossia non deve rispecchiare
sempre il numero degli elementi nel target perchè si possono ipotizzare diversi scenari.
Un catalogo inviato tramite posta espressa a
un acquirente si traduce in un profitto di $ 18
(prezzo 22, poiché il costo di spedizione per
un catalogo inviato tramite posta espressa è
di $ 4) o un altro catalogo meno costoso che
costa 13 $
(12$ di profitto) per posta ordinaria (1$ di
costo)
La decisione di inviare quale (e come)
catalogo sarebbe basata sul massimo dei
profitti attesi di tre possibili decisioni
Ricaverò una regola decisionale sulla base del profitto atteso individuale, quindi indipendentemente
se i soggetti nello storico hanno acquistato o meno io potrò andare a ricavare sia su dati di training
e dati di validation una regola classificativa che si basa su questi 3 scenari. Questi 3 scenari
descrivono quale sarebbe il profitto totale di ciascun soggetto ricavato sulla base di quanto è
probabile che i soggetti siano di classe 1 o di classe 0.
La decisione di classificare il target in base al massimo dei profitti attesi di
possibili decisioni corrisponde a una soglia precisa per le probabilità a posteriori
Soglia di decisione ottimale bayesiana p (soglia sulla posterior che ci assicura il massimo profitto
di ogni decisione):
ESEMPIO: Lettera campagna fondi
Se invii una richiesta e l'individuo non risponde, il costo perso è di $ 0,68 (il prezzo della spedizione).
Tuttavia, se l'individuo risponde, in base ai dati precedenti, ti aspetti di ricevere una donazione di $
15,54 in media (meno $ 0,68 di spese di spedizione, prevedi un profitto di $ 14,86)
Soglia di decisione ottimale bayesiana
Formula più importante: optimal decision threshold (soglia che per qualsiasi situazione fa
commettere un basso errore dal punto di vista dei profitti attesi -ossia ci assicura massimo profitto
di ogni decisione dal punto di vista individuale-). Indipendentemente dai nostri dati sappiamo che
questa è la soglia ottimale per classificare nuovi dati
3.Metrica da usare nell’assessment confronta modelli (Step2)
Metrica che si utilizza è il profitto totale calcolato: Computed profit della classificazione. La formula
si applica non più alla matrice di confusione ma ad una nuova matrice chiamata “matrice di
decisione” ricavata usando la regola basata sui profitti attesi individuali:
Average (computed/calcolato) profit del modello M
Perché l’average computed profit (loss) di un modello M sarà anche il migliore strumento di
confronto modelli in presenza di matrice di profitti (costi). Ipotizziamo per un modello in MINER di
scegliere /fittare un modello massimizzando il profitto medio
Quindi…
Il costo totale o il profitto totale (atteso o computed) di M è un indicatore di bontà classificativa che
può portare a conclusioni diverse dalle misure di classificazione legate alle sole unità statistiche
(accuratezza, sensitivity, etc….) che viene uti