Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
Valutazione delle prestazioni di classificazione
NO SINO NegativoClasse Vero negativo Falso negativo stimatostimata SI PositivoFalso positivo Vero positivo stimatoNegativo reale Positivo reale
- Accuratezza: (vero positivo + vero negativo)/totale casi; la miglior accuratezza è 1, la peggiore è 0.
- Errata classificazione: (falso positivo + falso negativo)/totale casi; il miglior tasso di errore è 0, mentre il peggiore è 1.
Il contesto del problema determina quale di queste misure devono essere maggiormente tenute in considerazione.
- Positivo reale: falso negativo + vero positivo
- Negativo reale: vero negativo + falso positivo
- Sensibilità: vero positivo/positivo reale
- Specificità: vero negativo/negativo reale
- Positivo stimato: falso positivo + vero positivo
- Negativo stimato: vero negativo + falso negativo
- Valori positivi previsti: vero positivo/positivo stimato
- Valori negativi previsti: vero negativo/negativo stimato
Curva di...
ROC All'aumentare della sensibilità del ricevitore, aumentava anche il numero di falsi positivi; la specificità diminuiva. La logica alla base è che se un test non ha capacità diagnostica, sarebbe altrettanto probabile che produca un falso positivo o un vero positivo, che è lo stesso di sensibilità = 1 specificità. I dati vengono ordinati per valori di stima crescenti dall'angolo in basso a sinistra all'angolo in alto a destra. Ogni punto del grafico corrisponde ad una specifica percentuale dei dati ordinati. Se il modello non fornisce alcun contributo aggiunto avremmo i dati ordinati sulla diagonale principale (veri positivi = falsi positivi). Tanto più la curva del modello si discosta dalla bisettrice tanto migliore sarà il suo contributo rispetto ad un modello casuale. Consideriamo i primi 10% dei casi ordinati in modo decrescente rispetto alla probabilità di essere 1, cogliamo circa il 65% deglieventi e sono il 10% di falsi positivi. Il tradeoff tra la cattura dei casi evento e non evento può essere al di sotto della curva: un modello osservato direttamente dall'area debole ha un indice <0.6, mentre un modello forte ha un indice > 0.7.
RLift
Un ulteriore indicatore della bontà del modello è la curva di lift. Una volta ottenuto il modello si ordina in modo decrescente il database rispetto alla probabilità di esito positivo previsto e, data una certa percentuale di casi, si valuta quale percentuale di esiti positivi si hanno. Supponiamo una situazione in cui un fenomeno si presenta nel 10% dei casi (esiti positivi), considerando il primo 20% dei casi nel modello di test abbiamo il 30% di esiti positivi, questo "migliora" significa che considerando il 20% dei (probabilità di esito positivo più alta) abbiamo una capacità di trovare esiti positivi maggiore di 3 volte (30/10=3) rispetto ad un qualunque campione scelto a
caso. Non esiste un valore assoluto di lift, dipende tutto dal lift massimo che un modello può raggiungere (il lift massimo al 20% che un modello può raggiungere quando il fenomeno ha una frequenza del 10% è 5 (100/20)). Avendo una tabella, per capire quanta percentuale delle osservazioni (es. 50%) comprende un tot % delle osservazioni in target si guarda il decile (in questo caso il quinto) e il rispettivo valore di "gain". Per capire di quanto maggiormente un certo lift permette di cogliere una tot proporzione del target rispetto a un'estrazione casuale si guarda la colonna "Cumulative Lift". Criterio AIC – AIC = 2k 2Ln(L) dove k è il numero di parametri del modello (semplicità del modello) e L è il massimo della funzione di verosimiglianza del modello (bontà del modello). Data una serie di modelli è da preferire quello con valore AIC minore. Si tratta di un criterio non assoluto ma relativo, quindi hasenso solo in caso di confronto tra due o più modelli. Non si può utilizzare il modello di AIC su un modello non parametrico (non si può costruire un modello AIC su un albero).
Test T "parametrici" valutare l'affidabilità dei coefficienti stimati, e la capacità del modello di generalizzare i risultati è significativamente connessa all'attendibilità dei coefficienti che lo caratterizzano. Il test T permette di valutare il grado di significatività del coefficiente stimato, l'ipotesi nulla è che il coefficiente sia 0, se si può rifiutare tale ipotesi, quindi se il valore p del test è inferiore alla soglia di significatività "affidabile" prefissata (solitamente 0.05) si può ritenere la stima del coefficiente.
Eventi rari Un fenomeno è raro quando si presenta con l'1/2% dei casi. Come ultima analisi
Prima di procedere, è opportuno analizzare la distribuzione di frequenza della variabile dipendente per verificare che l'evento che si vuole prevedere non accada con una frequenza troppo bassa, altrimenti il modello rischia di non essere sufficientemente "robusto". Nel caso in cui la frequenza dell'evento oggetto dell'analisi risultasse troppo bassa, è necessario operare un sovracampionamento o più in generale un bilanciamento del campione. In presenza di un evento raro, una pratica comune dei modelli predittivi consiste nel considerare un campione del dataset originale avente una percentuale degli eventi diversa dalla popolazione iniziale. Il vantaggio di questa analisi è la capacità predittiva maggiore con un minor numero di casi: l'ammontare informativo di un dataset per target binari non è dato dal numero totale di casi, ma dal numero di casi della classe più rara. L'analisi presenta però anche
degli svantaggi: occorre ricalibrare i grafici e le statistiche di valutazione in quanto molti grafici e statistiche di valutazione si basano sul campione utilizzato e i risultati potrebbero essere forvianti nel caso la proporzione dell'evento sia diversa da quella nella popolazione; inoltre occorre correggere la distorsione nelle stime predittive: nel caso di diversa proporzione i valori di stima sono distorti in quanto calibrati sul campione della popolazione originale. Nel caso in cui la frequenza dell'evento oggetto dell'analisi risultasse troppo bassa è necessario operare un sovra-campionamento o più in generale un bilanciamento del campione.
Matrice dei costi
Assumendo che falsi positivi e falsi negativi abbiano lo stesso impatto, la soglia di classificazione sarà 50%, tutti i casi con probabilità maggiore di 0,5 di essere 1 saranno "previsti" dal modello come 1.
I modelli predittivi si suddividono in tre famiglie:
Apprendimento supervisionato: questo algoritmo consiste in una variabile target che deve essere prevista da un determinato insieme di predittori (variabili indipendenti). Usando questi set di variabili, generiamo una funzione che "lega" gli input alla variabile target. Il processo continua finché il modello non raggiunge un livello di accuratezza desiderato sui dati forniti. Alcuni esempi di algoritmi di apprendimento supervisionato sono regressione, albero decisionale, Random Forest, KNN, reti neurali, ecc.
Apprendimento non supervisionato: in questo algoritmo non abbiamo alcuna variabile di destinazione o di risultato da prevedere/stimare. Viene utilizzato per raggruppare la popolazione in gruppi diversi. Ad esempio, è ampiamente utilizzato per segmentare i clienti in gruppi diversi omogenei rispetto al loro comportamento in fase di acquisto/scelta. Alcuni esempi di algoritmi di apprendimento non supervisionato sono l'algoritmo Apriori e K-means.
Apprendimento di rinforzo: utilizzando questo algoritmo, la macchina è addestrata a imparare decisioni specifiche. La macchina interagisce con un ambiente dinamico e riceve feedback in base alle sue azioni. L'obiettivo è massimizzare una ricompensa cumulativa nel tempo. Questo tipo di apprendimento è spesso utilizzato in giochi e robotica.
è esposta ad un ambiente in cui si addestra internamente continuando a utilizzare prove ed errori. Questa macchina apprende dall'esperienza passata e cerca di acquisire le migliori conoscenze possibili per prendere decisioni aziendali accurate processo decisionale di Markov. Regressione logistica L'analisi di regressione è una tecnica per la modellizzazione e l'analisi dei dati. Vediamo un insieme di dati "approssimati". Nell'immagine (fit) da un modello, l'obiettivo è trovare un modello che minimizzi la differenza tra i valori stimati (rossi) e i valori reali. I modelli di regressione sono interpolanti: cercano di costruire l'andamento sottostante a un fenomeno. In generale, i modelli regressivi misurano la relazione tra una variabile dipendente e un insieme di variabili indipendenti. I principali vantaggi legati ai modelli di regressione sono: - poter identificare la relazione significativa tra variabile dipendente e variabile indipendente; - quantificare,Pesare, valutare l'impatto delle variabili indipendenti sulla variabile dipendente. La regressione è un modello parametrico: da un lato abbiamo delle informazioni che ci permettono di identificare la relazione tra la variabile dipendente e la indipendente, e allo stesso tempo i parametri ci dicono l'impatto, ossia quanto la singola variabile indipendente influenza la dipendente.
Esistono diversi tipi di modelli regressivi in funzione di:
- Numero di variabili indipendenti: regressione univariata o multivariata a seconda che abbiamo una sola variabile indipendente o più;
- Tipo di variabile dipendente: può essere discreta o continua;
- Curva della regressione: lineare.
Nel suo modello standard, Regressione Lineare, si tratta di analizzare una combinazione lineare di più variabili indipendenti legata alla variabile dipendente. L'intercetta (α) definisce il centro del range (media) della previsione e i parametri quantificano la
La crescita/decrescita della variabile target dipende dal cambiamento nelle variabili indipendenti. La stima dei parametri e dell'intercetta viene effettuata minimizzando l'errore quadratico, che rappresenta la differenza tra il valore previsto e il valore target. Si assume che la variabile dipendente sia continua, anche se nel migliore dei casi va da 0 a 1.
La regressione stima i valori della variabile dipendente attraverso un'equazione che tiene conto delle variabili indipendenti. La stima dei parametri e dell'intercetta viene effettuata minimizzando l'errore quadratico. Nel caso della regressione logistica, la variabile dipendente descrive l'appartenenza ad un gruppo, quindi è una variabile discreta.
L'obiettivo non è più il valore atteso (stimato) come nella regressione lineare, ma la probabilità che un determinato soggetto (osservazione) appartenga a un gruppo.