Data Mining

Appunti di Data Mining basati su appunti personali del publisher presi alle lezioni del prof. Famino, dell’università degli Studi Cattolica del Sacro Cuore - Milano Unicatt, facoltà di economia, Corso di laurea in economia e legislazione d'impresa. Scarica il file in formato PDF!

Esame Laboratorio informatico per le decisioni aziendali

Facoltà Economia

Dal corso del Prof. Famino Massimo

Università Università Cattolica del "Sacro Cuore"

Publisher elisaabruni

A.A. 2021-2022

158 pagine

Appunto

Vota

Scarica

Estratto del documento

Classificazione

Abbiamo già parlato a sufficienza. Facciamo direttamente qualche esempio: qui abbiamo una descrizione di quello che si intende per propensione all'abbandono e ai profili di utilizzo fraudolenti. Tutte le volte che abbiamo un data set di informazioni su una popolazione di individui e in questo caso sono le singole transazioni fatte con carte di credito e gli attributi descrittivi sono: canale, ora della transazione, importo etc e un attributo che è in grado di indirizzare l'attività di analisi "quella transazione è fraudolenta o regolare?" posso sviluppare delle attività di classificazione. Una volta che ho messo una griglia che mi dice guarda che le transazioni hanno queste caratteristiche sono fraudolenti allora posso pensare di usare questo modello per intercettare all'atto dell'esecuzione prima di rilasciare l'autorizzazione, le transazioni fraudolenti. È una tecnica che non dà tanto.valore aggiunto di per sé quindi è usata con moderazione nel contesto di impresa perché non è esaustiva perché dà alcune indicazioni su una modalità di interpretare una popolazione di individui ma di per sé non fornisce degli elementi su cui posso agire su cui posso innescare delle azioni. Quindi è limitatamente utilizzata perché poi è oneroso l'utilizzo in chiave produttiva dell'esito di una cluster. Fare una cluster analysis significa prendere tutti gli attributi descrittori dei clienti di tipo socio demografico, di rapporto e anagrafico e capire quali sono i gruppi di affinità all'interno della popolazione. Quanto è costato fare questa analisi? E ora cosa me ne faccio di questa? Posso etichettare un cliente, ma se ci possono fare qualcosa nel senso che scopriamo che i clienti appartenenti ad un certo cluster sono quelli più propensi a fare un qualche cosa che interessa alla

banca allora sì ma per scoprirlo devo lavorare ex post cioè una volta che ho usato il data mining poi dopo devo fare altre analisi quindi è un po' limitata.

CLUSTERING DI DOCUMENTI: è interessante però detto così è un banale ma parleremo di fare raggruppamenti sofisticati però nell'ambito della documentazione perché normalmente come si fa in modo più banale la suddivisione in gruppi omogenei di documenti? Si fa tramite parole chiavi ossia indicizzo il documento con una serie di parole chiave che stanno all'inizio del paper e questo mi serve per attribuire il documento a delle categorie. Altra cosa è fare un'analisi semantica del contenuto ossia comprendere il contenuto del testo ed unirlo sulla base del contenuto per esteso. Le parole chiave sono frutto dell'interpretazione del ricercatore e necessariamente ha un peso a distorcere la realtà del contenuto in funzione dei suoi obiettivi.

Altra cosa è l'analisi semantica che richiede di usare degli approcci di text analytics, ossia avere degli strumenti in grado di capire il testo del documento.

Le regole associative sono associazioni tra gruppi di osservazioni basati sui valori degli attributi predittori e vengono utilizzate per fare l'analisi dei carrelli della spesa e attività di web mining. Questo perché non è interessante solo ricercare associazioni tra prodotti contenuti in un carrello, ma è interessante anche cercare informazioni tra pagine visitate all'interno di una navigazione di un sito web.

Queste tecniche si usano per fare questo tipo di analisi. Questa è più complicata perché mentre la possibilità di acquistare prodotti all'interno del punto di vendita non è limitata nel senso che chi si occupa di logistica di un punto vendita cerca, attraverso la disposizione dei prodotti, di indurre certi percorsi, di fatto la navigazione è libera.

All'interno di un sito web non è mai libero, è sempre pilotato; se il sito ha 100 pagine, non c'è mai la possibilità di andare da una qualsiasi di 100 pagine a tutte le altre 99. Quindi l'attività di associazione nell'ambito della navigazione deve tener conto anche del fatto che alcune associazioni non ci sono perché non sono possibili e non perché nessuno ha fatto quell'associazione. Due parole sul processo di data mining: abbiamo detto come si articola il processo di data mining. Finalizzando le cose, cerco di evidenziare e poi vedremo un processo di data mining ben formalizzato e ben documentato che ci dà una linea guida su come affrontare un'attività di data mining. Focalizziamo alcuni aspetti importanti: la prima cosa è porsi una domanda ben chiara e specifica. La formulazione del problema di data mining è fondamentale perché si tratta di un'attività.

multidisciplinareche richiede la presenza di una serie di figure che sono certamente un esperto deldominio applicativo (se vogliamo sviluppare un’analisi di propensione all’abbandono efare un’analisi di propensione all’acquisto allora dovremo implicare il soggetto che sioccupa di relazione con la clientela). Poi però abbiamo quell’insieme di giure cheindichiamo come esperti di analisi dei dati (matematici, statistici) che ci aiutano asviluppare il modello. L’analisi di data mining risponde ad un’esigenza aziendale ecome un qualsiasi progetto se quell’esigenza non è ben descritta il rischio è quello diarrivare con una risposta non efficiente alla domanda originaria. Quindi la domandaben formulata è fondamentale.Poi c’è tutta la parte di raccolta dei dati e su questa ci ritorneremo ma è la partefondamentale dell’attività di data mining: capire dove sono i dati di cui penso di averbisogno,

come sono fatti i dati, e come sono strutturati ossia quali info contengono. Una volta capito i dati, formulo una serie di ipotesi sulle caratteristiche dei dati che potrebbero interessarmi e inizio ad estrarre i dati e produrre dei data set. Produrrò un data set originario ed enorme contenente l'intera popolazione e gli attributi descrittori di quella popolazione. Poi comincio a lavorare su queste info e cerco di selezionare gli attributi più rilevanti oppure se non ho ancora una sufficiente conoscenza dell'esito dell'analisi comincio almeno a semplificare il data set cercando di capire quali attributi sono ridondanti. Alla fine semplifico, faccio dei campionamenti e semplifico e ottengo quello che si chiama "analitico base table" l'analisi che è il database preparato per l'attività di data mining. A questo punto applico un algoritmo, sviluppo un modello, analizzo il modello e questa attività non è univoca nelsenso che ho detto applico un algoritmo ma in realtà applico n algoritmi è, sviluppo n modelli, confronto i modelli tra di loro e cerco di capire se questi modelli reggeranno bene nel contesto produttivo, faccio una serie di cose e quando sono sicuro utilizzo questi modelli per rispondere alle esigenze documentate nella domanda iniziale. È un'attività che presenta molti cicli ricorsivi al suo interno piuttosto oneroso. La metodologia standard di mercato che descrive passo passo come si fa l'attività di data mining la descrive come un processo ciclico costituito da una serie di fasi descritte in figura:

Business understanding: è la formulazione del problema ossia la comprensione del problema di business. Quale problema deve indirizzare questa attività di data mining?
Fase della comprensione del patrimonio di dati che ho a disposizione per raffrontare il problema. Spesso il problema è che non abbiamo tutti i dati necessari per rispondere alla domanda di business.

dati all'interno del data set di cui abbiamo bisogno perché i dati li ricaviamo in qualche modo dal sistema informativo aziendale ma ad esempio questo non contiene i dati di 7 anni fa per esempio che sono stati depositati su qualche sistema di archiviazione.

3) Data preparation: preparazione del data set che verrà usato per l'attività di modellizzazione cioè prendere gli algoritmi e attraverso questo sviluppare un modello interpretativo ed esplicativo dei dati.

4) Parte di valutazione: un modello ha sempre due diversi tipi di qualità: qualità statistica del modello e la qualità del modello nel contesto applicativo. Mi interessa sapere quanto un modello sbaglio a classificare certi dati.

Esempio completo: prendiamo un modello di scoring per valutare il merito creditizio, io prendo i miei dati relativi ai clienti passati e grazie all'algoritmo sviluppo dei modelli che mi consentono di classificare i clienti che ad esempio hanno un

basso meritocreditizio quindi quelli più rischiosi. L'algoritmo di data mining che uso mi darà alcuni indicatori di qualità statistica per esempio un indicatore di confidenza statistica cioè prendo il totale degli individui che sono correttamente classificati nella loro classe rispetto a quelli che l'algoritmo ha classificato in quella classe. 80/100= 0,8 è la confidenza statistica. Benissimo, uno statistico direbbe che la qualità non è elevatissima ma considerato che nel contesto reale è difficile avere modelli più elevati possiamo accettarlo. Ma questo è un indicatore di qualità, il modello sbaglia a classificare il 20% della nostra popolazione. Prendo questa info e vado dal mio capo che si occupa del rischio di credito il quale mi chiede "il modello sbaglia di più a classificare i clienti con alto merito creditizio o con basso?" perché un conto è dare un finanziamento ad unsoggetto altamente rischioso, sbaglio di primo tipo, e un conto è dare un finanziamento ad un basso rischio di credito che per errore è stato messo all'interno dei clienti ad alto rischio di credito. Allora mi devi dire quali sono gli impatti nel contesto operativo degli errori di classificazione perché se rimaniamo in laboratorio 0,8 è 0,8 e non ha lo stesso significato nel contesto applicativo quindi ci sono sempre due verità. La verità statistica e la verità che emerge nel contesto applicativo e tutti i modelli devono essere valutati in entrambe le verità. WEKA Da cosa è fatto? Da una serie di applicazioni, ognuna delle quali dotata di una serie di funzioni che andremo a vedere, e da una serie di strumenti. Gli strumenti accessibili attraverso il menu principale non ci interessano tanto, ma ne cito solo uno che è il package manager (sotto TOOLS), ma sono algoritmi aggiuntivi e filtri aggiuntivi che non sono disponibili in.Weka standard, servono ad arricchire le funzioni di Weka. Le applicazioni di Weka sono: - Simple CLI: è

Anteprima

Vedrai una selezione di 10 pagine su 158