Estratto del documento

Introduzione al data mining

Partiamo da un concetto generale di data mining, facciamo un excursus, poi vedremo successivamente come si colloca il data mining in uno scenario che si va facendo sempre più articolato in relazione all'utilizzo di strumenti analitici.

Nella parte di statistica ci siamo sostanzialmente occupati dell'applicazione di modelli matematico-statistici a quantità di dati abbastanza limitate sia per finalità di tipo interpretativo, sia anche per finalità di tipo predittivo, ovvero ci siamo occupati di analisi di serie storiche perché nel contesto aziendale ci consente di ricavare delle visioni/dei trend di andamento di un fenomeno nel passato che serve in chiave interpretativa per spiegare che cosa è avvenuto in passato ma al posto stesso questa conoscenza la si utilizza definendo bene il contesto di utilizzo in chiave predittiva, per cercare di capire come potrebbe svilupparsi quello stesso fenomeno nel futuro.

Machine learning e statistical learning

Quello che caratterizza un pochino di più la differenza tra l’approccio machine learning e l'approccio statistical learning (che non ha più tanto senso adesso mantenere come differenziazione perché le diverse aree si stanno fondendo in un unicum) è che quando si parla di machine learning, ovvero di data mining, ci si riferisce all'analisi di grandi quantità di dati, quindi siamo nel contesto dei big data (anche se non è esattamente così per le applicazioni che vedremo noi).

Parliamo di grandi quantità di dati e qui ci investiamo su un trend aziendale che tutti noi abbiamo visto nel corso di questi anni: le aziende si sono dotate di tecnologie, o si stanno dotando di tecnologie volenti o non volenti, che consentono loro di acquisire, di raccogliere, grandi quantità di dati sia di provenienza interna generati dai sistemi informativi aziendali, dai sistemi operazionali o transazionali, sia di provenienza esterna.

Dati di provenienza esterna

Una volta quando dicevamo ci riferivamo sostanzialmente a dati provenienti da information provider di varia natura che fornivano informazioni ad esempio di merito creditizio se sono un intermediario finanziario, sulla clientela utile all'atto della concessione di un credito, di un finanziamento oppure informazioni provenienti da info provider che fanno analisi di mercato e che mi offrivano spaccati del mercato o ancora informazioni di cardinatura socio-demografica o anche comportamentale sulla mia clientela - oggi a questi si aggiungono tutti i dati provenienti da quella infinità di dispositivi che genericamente chiamiamo sensori o “cose” (l'internet delle cose) che generano dati che possono essere proficuamente utilizzati in contesti ad esempio per sviluppare una migliore conoscenza della clientela di fenomeni correlati al business aziendale.

Tecniche di analisi tradizionale

Su grandi quantità di dati le tecniche di analisi tradizionale sono inapplicabili:

  • Innanzitutto perché molte delle informazioni che sono presenti in queste grandi masse di dati non sono direttamente evidenti - non per niente il tema della ricerca e modellizzazione di fenomeni all'interno dei dati ha preso il nome di data mining che evoca l'attività del minatore che va nella miniera a ricercare il filone perché qui ci occupiamo di estrazione di conoscenza nascosta dai dati, non di conoscenza trasparente, ovvero già modellizzata.
  • Se io sono responsabile vendite e ho una necessità di fare un report che rappresenta l'andamento delle vendite, quindi devo modellizzare il fenomeno vendite, non ho bisogno di uno strumento di data mining, so che la rappresentazione del fenomeno vendite si sviluppa attraverso una reportistica di tipo multidimensionale che vede come direttrici dell'analisi, quindi come elementi caratterizzanti del modello di rappresentazione, le dimensioni tipiche delle vendite ovvero il prodotto, i clienti, la dimensione temporale; il modello ce l'ho già in testa, non ho bisogno di uno strumento di data mining.
  • Quando parliamo di data mining parliamo di conoscenza nascosta in queste grandi masse di dati grezzi.
  • Secondo perché le analisi condotte, pilotate dall’essere umano, richiedono molto tempo per cavare informazioni o conoscenza utile, per mettere il decisore nelle condizioni di agire a partire dalla conoscenza acquisita di un fenomeno.

Anche in ragione della eterogeneità delle informazioni perché un conto è quando i repository di dati per l'attività analitica venivano realizzati a partire dalle informazioni presenti nel sistema informativo aziendale - i data warehouse di tipo tradizionale dove bene o male le fonti dei dati producevano dati tra loro omogenei da un punto di vista della loro rappresentazione formale (stiamo parlando della sintassi, non della semantica, non del significato; da un punto di vista sintattico i dati erano rappresentati in modo uniforme) - quando noi parliamo di dati acquisiti da fonti esterne, di dati che provengono dal mondo, dall’universo dell'internet of things, parliamo di dati eterogenei, molti dei quali sono del tutto destrutturati, cioè non sono rappresentabili come un record di tipo tradizionale in cui l'individuo di una popolazione statistica rappresentato dal record è descritto da una serie di attributi molto strutturati - un codice, un nome, un cognome, un indirizzo, una quantità di prodotto acquistato, un valore di prodotto acquistato… i dati che fluiscono dal mondo dei social, dall'universo digitale dell'internet of things, contengono conversazioni, contengono immagini, contengono filmati, contengono una molteplicità di dati in forma non strutturata, quindi dati anche eterogenei.

Conseguenze dell'eterogeneità dei dati

La conseguenza di tutto questo è che una larga parte dei dati che le aziende raccolgono perché si sono predisposte per raccoglierli restano inutilizzati e cresce il gap tra capacità di raccolta – dove le tecnologie hanno messo a disposizione delle imprese delle infrastrutture di costo assolutamente contenuto che sono in grado di ospitare grandi quantità di dati e anche tecnologie che consentono (tipo i data lake) di memorizzare dati in forma strutturata e anche destrutturata, esiste quindi la capacità di raccogliere queste informazioni - e la capacità di analizzare che manca.

Oggi ogni due giorni nell’universo digitale si producono tanti dati quanti l'umanità ha prodotto a partire dalla sua nascita fino al 2003 – pensiamo al trend di incremento della produzione di informazioni che possono essere raccolte dalle imprese, di quanti dati parliamo? L'unità di misura è Zettabytes, stiamo parlando di dimensioni 1021 dei dati.

47.223.664.828.696.500.000.000 questa è la quantità di dati esistente a fine dell'anno scorso, 1.821.392.605.241.960.000.000 questa è la quantità di dati che verranno generati ogni anno nel 2024. Questo dà un'idea della quantità di dati.

Capacità di analisi dei dati

Poi guardiamo questa torta qui sotto: che dice sì ma di tutti questi dati quanti le aziende sono in grado di analizzare? siamo lo zero 5% e questa quota parte sta in realtà - se guardiamo indietro negli ultimi anni - sta diminuendo. Quindi stanno crescono i dati e il gap di cui parlavamo prima, diminuisce la capacità.

Questo è il fattore di successo delle tecniche che consentono in modo per lo più automatico, o con scarso intervento umano, di estrarre da queste grandi moli di dati informazioni e conoscenza a supporto dei processi decisionali.

Definizione di data mining

Detto questo diamoci una definizione di data mining; quindi stiamo operando all'interno di questo scenario - facciamo solamente un passaggio in più per contestualizzare bene il mondo dei dati su cui ci riferiremo noi e il mondo dei dati in generale, perché oggi si parla di big data e all'interno di big data facciamo cadere tutto; ora le analisi di data mining di tipo tradizionale, quelle di cui sostanzialmente ci occupiamo noi meno della parte di text analytics che vedremo in conclusione, trattano dati di tipo strutturato - esattamente quei dati rappresentati in forma di record a cui ci riferivamo prima, quindi siamo in un contesto specifico all'interno del mondo dei big data, tutto quello che diremo in questo modulo si applica a dati strutturati, quelli presenti nei repository aziendali in forma strutturata.

Detto questo è anche da dire che molte delle tecniche, degli algoritmi, di data mining che noi applicheremo a dati di natura strutturata - vedremo poi come sono strutturati i dati per analisi di data mining - di fatto sono applicabili con pochi adattamenti, poche variazioni, anche a dati di tipo non strutturato - le famose immagini, i famosi filmati… - cioè a dire se noi utilizziamo una tecnica di analisi, una rete neurale, per fare un'analisi di classificazione e vogliamo sviluppare un profilo di propensione all'acquisto della clientela, lavoriamo sul dati strutturati, i clienti sono rappresentabili in forma di record con un certo numero di attributi descrittivi molto strutturati, ecco quella stessa tecnologia, la rete neurale, si può però applicare anche a dati di tipo assolutamente non strutturato ad esempio per fare riconoscimento di immagini - le tecniche di face detection diciamo in parte utilizzano le reti neurali e in parte utilizzano altri strumenti, altri algoritmi che si chiamano support vector machine - ma adesso ci interessa poco la differenziazione, quello che conta è che noi le vediamo in un contesto strutturato ma molte di quelle tecniche si utilizzano anche in contesti non strutturati come per esempio l'analisi delle immagini finalizzata a diversi scopi.

È bene sapere che all'interno di questo laboratorio noi ci occupiamo sostanzialmente di analisi di dati di tipo strutturale di grandi, grandissime, dimensioni che non consentirebbero l'adozione di approcci troppo manuali o approcci troppo tradizionali di reporting.

Ci sono tante definizioni di data mining, noi utilizzeremo prevalentemente questa: “esplorazione e analisi, per mezzo di sistemi automatici e semi-automatici, di un insieme di dati di grandi dimensioni, per individuare eventuali schemi (i famosi pattern di cui si parla quando ci si riferisce al machine learning, pattern recognition) ed estrarre informazioni e conoscenza utili nei processi decisionali” e in subordino la seconda definizione “estrazione in forma complessa di informazioni implicite, precedentemente sconosciute e potenzialmente utili dai dati”.

Attività di data mining

L’attività di data mining consiste da un lato nella ricerca dell’esistenza di queste regolarità - se esiste una regolarità vuol dire che c'è un fenomeno rilevante, se all'interno della repository che contiene i dati relativi alla mia clientela per una certa tipologia di prodotto ci sono tanti individui della popolazione che hanno manifestato alta propensione all'acquisto di una certa tipologia di prodotti, quindi regolarità, c'è un soggetto con certe caratteristiche che ha manifestato propensione all'acquisto (significa che in passato ha acquistato una certa tipologia di prodotto) e poi ce n'è un altro con caratteristiche simili e poi ce n'è anche un altro con caratteristiche in un certo qual modo simile, se una certa cosa, una certa caratteristica, si presenta con regolarità allora significa che all'interno dei dati esiste la possibilità di descrivere il fenomeno, nei miei dati relativi ai clienti esiste la possibilità di descrivere, di ricavare il profilo di un cliente, che ha un'elevata propensione all'acquisto di un certo prodotto.

Quindi, la prima parte dell’attività di data mining cominciamo a capire che è la ricerca di queste regolarità, la seconda è ma come descriviamo il profilo del cliente e la della modellizzazione del fenomeno, come descriviamo il fenomeno - esistono diverse modalità per descrivere un fenomeno, alcune afferenti al mondo della statistica (modelli statistici di descrizione di un fenomeno), altre afferenti ad un mondo un pochino più empirico (modelli di natura euristica).

La finalità è quella di sviluppare conoscenza a supporto dei processi decisionali, poi ci diremo un pochino di cose.

L’attività di data mining è sì ricerca di regolarità, sì capacità di descrivere in una modalità utilizzabile (actionable direbbero gli anglosassoni) le regolarità che abbiamo identificato, ma fa parte del data mining anche l'attività a valle dello sviluppo del modello che è l'assunzione di decisioni a partire dalla conoscenza e il meccanismo di retroazione - quanto efficaci sono state le decisioni che ho assunto? Perché se non sono state efficaci vuol dire che ho sbagliato qualche cosa, che ho cercato la cosa giusta ma ho descritto la cosa sbagliata, qualche cosa devo fare. Ecco tutto questo è il ciclo di data mining.

Una definizione alternativa che però può essere utile per comprendere le caratteristiche del data mining è quella che ci dice che è una estrazione in forma complessa di informazioni implicite, è quello che dicevamo prima, di informazioni che non sono visibili, che non sono trasparenti all'interno dei dati, precedentemente sconosciute e potenzialmente utili dai dati - ci ritorniamo.

Data mining e machine learning

Però - ma anche qui giusto per inquadrare visto che l'obiettivo di oggi era anche quello di inquadrare che cosa si intende per data mining all'interno di tutto un mondo sempre più vasto degli strumenti analitici - cos’è data mining e cos’è machine learning? Esiste una differenza tra le due cose o sono sinonimi?

In realtà sono abbastanza sinonimi dal punto di vista del prof, però bene dire che quando si parla di machine learning ci si riferisce oggi ad una disciplina che è collocata nell'ambito dell'intelligenza artificiale e che sostanzialmente si occupa dello sviluppo di sistemi automatici di apprendimento induttivo - esattamente quel processo che ha brevemente illustrato prima ovvero andare dai dati, capire se ci sono delle regolarità.

È induttivo perché di natura empirica; ho dei dati vado, guardo, cerco delle regolarità, se esistono queste regolarità vuol dire che molto probabilmente esiste un fenomeno, se esiste un fenomeno cerco descriverlo.

Parliamo di sistemi automatici quando parliamo di machine learning, intendiamo quegli strumenti che consentono di operare in modo completamente automatizzato, senza l'intervento dell'essere umano o con un intervento limitato che si focalizzano sullo sviluppo di capacità predittive piuttosto che sulla interpretazione di fenomeni; quindi quando parliamo di machine learning stiamo parlando di finalità mirate a prevedere l'accadimento di fenomeni o a descrivere fenomeni che potrebbero accadere in futuro cercando di capire le determinanti di quei fenomeni in modo da poter agire, influire, sul loro accadimento - stiamo escludendo la parte di interpretazione.

Quindi se vogliamo l'unica differenza che c'è la data mining come l'abbiamo definito prima e machine learning è che quest’ultimo si concentra su tecniche automatizzate finalizzate a sviluppare modelli predittivi di fenomeni.

Intelligenza artificiale

Ha messo alcune slide che adesso non discutiamo che contestualizzano che cosa si intende con intelligenza artificiale, adesso detto molto brevemente; intelligenza artificiale che cos'è? Hai detto della differenza tra data mining e machine learning, che machine learning è una branca dell’intelligenza artificiale, adesso ci devi dire che cos'è l'intelligenza artificiale.

L’intelligenza artificiale detto che in generale è lo studio di sistemi che sono in grado in qualche modo di replicare le attività, le capacità del cervello umano, sono sistemi che consentono di apprendere esattamente come farebbe il cervello umano e consentono di automatizzare le attività, o molte delle attività, conseguenti all'apprendimento, la conoscenza, che è stata generata attraverso l'attività di apprendimento.

Intelligenza è perché si sviluppa anche una certa capacità di agire a partire dalla conoscenza sviluppata, mentre quando parliamo di data mining e di machine learning ci riferiamo allo sviluppo di conoscenza che poi viene utilizzata dal decision maker, dall'essere umano per assumere decisioni.

Per la parte di componente di intelligenza artificiale c'è anche una componente di capacità di assunzione di decisioni - se poi l’applichiamo, l’intelligenza artificiale innestata ad esempio su componenti elettronici meccanici di tipo robotizzato sviluppiamo anche la capacità di operare fisicamente in conseguenza della conoscenza che abbiamo sviluppato.

Discipline correlate

Esistono tra le molteplici discipline dei rapporti; machine learning, data mining, artificial intelligence li abbiamo definiti, statistics l'abbiamo visto nel corso di statistica, esiste una branca di questo insieme di strumenti analitici che è legata al text analytics ed è il processamento e la comprensione del linguaggio del linguaggio naturale, il deep learning non è nient'altro che l'applicazione di reti neurali per fare attività di intelligenza artificiale, il neurocomputing è esattamente la stessa cosa ovvero è la capacità di emulare il comportamento del cervello umano, la computer vision è sempre legato a questi aspetti ovvero sono gli studi finalizzati a generare strumenti che sono in grado di simulare, di replicare, le capacità della vista umana, quindi di sviluppare a partire da immagini bidimensionali o una capacità di visione di tipo tridimensionale che poi è il presupposto per l'applicazione di altre tecniche di intelligenza artificiale e automazione per esempio le auto a guida autonoma.

Anteprima
Vedrai una selezione di 10 pagine su 158
Data Mining Pag. 1 Data Mining Pag. 2
Anteprima di 10 pagg. su 158.
Scarica il documento per vederlo tutto.
Data Mining Pag. 6
Anteprima di 10 pagg. su 158.
Scarica il documento per vederlo tutto.
Data Mining Pag. 11
Anteprima di 10 pagg. su 158.
Scarica il documento per vederlo tutto.
Data Mining Pag. 16
Anteprima di 10 pagg. su 158.
Scarica il documento per vederlo tutto.
Data Mining Pag. 21
Anteprima di 10 pagg. su 158.
Scarica il documento per vederlo tutto.
Data Mining Pag. 26
Anteprima di 10 pagg. su 158.
Scarica il documento per vederlo tutto.
Data Mining Pag. 31
Anteprima di 10 pagg. su 158.
Scarica il documento per vederlo tutto.
Data Mining Pag. 36
Anteprima di 10 pagg. su 158.
Scarica il documento per vederlo tutto.
Data Mining Pag. 41
1 su 158
D/illustrazione/soddisfatti o rimborsati
Acquista con carta o PayPal
Scarica i documenti tutte le volte che vuoi
Dettagli
SSD
Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher elisaabruni di informazioni apprese con la frequenza delle lezioni di Laboratorio informatico per le decisioni aziendali e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università Cattolica del "Sacro Cuore" o del prof Famino Massimo.
Appunti correlati Invia appunti e guadagna

Domande e risposte

Hai bisogno di aiuto?
Chiedi alla community