Business intelligence M
6 CFU
Stefano Rizzi
Prof. – Data Warehouse
Fabio Grandi
Prof. – Data Mining
Appunti di
Simone Benassi
INDICE
Data Warehouse – Prof. Stefano Rizzi
1. La Business Intelligence – BI ....................................................................................... 1
2. Il Data Warehousing ..................................................................................................... 4
Il modello relazionale (ripasso) ................................................................................. 4
Le interrogazioni ....................................................................................................... 9
Le architetture ........................................................................................................... 13
ETL – Extraction, Transformation and Loading ....................................................... 18
Il modello multidimensionale ................................................................................... 20
Il cubo delle vendite ............................................................................................. 21
Le gerarchie .......................................................................................................... 22
Tecniche di analisi dei dati ........................................................................................ 23
3. Il ciclo di vita del Data Warehouse .............................................................................. 26
La progettazione del Data Mart ................................................................................ 28
1) Analisi e riconciliazione delle sorgenti operazionali ............................................ 30
2) Analisi dei requisiti ............................................................................................... 33
3) Progettazione concettuale ..................................................................................... 34
Dimensional Fact Model (DFM) ............................................................................... 35
A) Definizione dei fatti ........................................................................................ 39
B.1) Costruzione dell’albero degli attributi ......................................................... 40
B.2) Editing dell’albero ........................................................................................ 40
B.3) Definizione delle dimensioni ....................................................................... 41
B.4) Definizione delle misure .............................................................................. 41
B.5) Creazione dello schema di fatto ................................................................... 41
4) Carico di lavoro e volume dati .............................................................................. 42
5) Progettazione logica .............................................................................................. 42
Le viste ...................................................................................................................... 48
6) Progettazione dell’alimentazione .......................................................................... 51
Appunti dell’A.A. 2012/2013
Business intelligence M – Indice moduli – Simone Benassi
i
4. L’analisi what-if ............................................................................................................ 54
5. Business Performance Management – BPM .............................................................. 55
6. La BI 2.0 ......................................................................................................................... 56
E s e r c i z i ............................................................................................................................. 58
c r o n i m i
A .......................................................................................................................... 65
D e f i n i z i o n i ...................................................................................................................... 66
Data Mining – Prof. Fabio Grandi
1. Introduzione al Data Mining ........................................................................................ 1
2. Scoperta di regole associative ....................................................................................... 6
Algoritmo Apriori ..................................................................................................... 7
3. Clustering ....................................................................................................................... 13
A) Algoritmo K-means ............................................................................................. 14
B) Metodi di clustering gerarchici ............................................................................ 17
C) Metodi di clustering basati sulla densità .............................................................. 20
E) Metodi gerarchici basati su modelli statistici ....................................................... 21
4. I dati ............................................................................................................................... 22
Similarità e Dissimilarità .......................................................................................... 26
5. Classificazione con alberi di decisione ........................................................................ 29
Alberi decisionali ...................................................................................................... 30
Bit .............................................................................................................................. 31
Apprendere attraverso alberi decisionali ................................................................... 35
Algoritmi di apprendimento ................................................................................................ 37
Appunti dell’A.A. 2012/2013
Business intelligence M – Indice moduli – Simone Benassi
ii
6. Altri metodi di classificazione ...................................................................................... 42
Metodi basati su regole di classificazione ................................................................. 42
Classificazione Bayesiana ......................................................................................... 46
Classificatore Bayesiano semplice (Naive) .......................................................... 46
Modelli bayesiani per la classificazione di documenti ........................................ 47
Bayes Naive Multinomiale ................................................................................... 47
Bayesian Belief Network (BBN) ......................................................................... 48
Altri metodi ............................................................................................................... 49
Classificatore basato su istanze (Classificatori Nearest Neighbor) ..................... 49
Conceptual Clustering .......................................................................................... 49
Classificazione mediante backpropagation (Reti neurali) ................................... 50
Support Vector Machines (SVM) ........................................................................ 55
Predizione di valori numerici .................................................................................... 56
7. Valutazione dei risultati del mining ............................................................................ 57
Valutazione del clustering ......................................................................................... 60
8. Data Mining Standards ................................................................................................ 61
9. Serie storiche ................................................................................................................. 63
10. Rilevazione di anomalie .............................................................................................. 64
A c r o n i m i .......................................................................................................................... 67
D e f i n i z i o n i ...................................................................................................................... 68
Appunti dell’A.A. 2012/2013
Business intelligence M – Indice moduli – Simone Benassi
iii
Business Intelligence M
Data Warehouse – 3 CFU
Stefano Rizzi
Prof. Negozio
BigWare
15 Prodotto
Vite
Data
1. LA BUSINESS INTELLIGENCE – BI
La funzione svolta dalle basi di dati in azienda è stata fino a qualche anno fa solo quella di
dati operazionali,
memorizzare ossia dati generati da operazioni svolte all’interno dei processi
gestionali: i dati operazionali sono generati dalle attività di routine, quotidiane dell’azienda.
L’informatica era vista come una scienza di supporto che permetteva di rendere più rapide ed
economiche le operazioni di gestione delle informazioni ma che non creava di per sé ricchezza.
sistemi informatici
Il ruolo dei è radicalmente cambiato dai primi anni ’70 ad oggi: i sistemi
informatici si sono trasformati da semplici strumenti per migliorare l’efficienza dei processi
gestionali a elementi centrali dell’organizzazione aziendale in grado addirittura di rivoluzionare la
struttura degli stessi processi aziendali.
Il duplice ruolo dell’informatica
Tecnologia di supporto Disciplina organizzativa
alla gestione del che influenza i processi,
sistema informativo i servizi e la struttura
aziendale
L’aumento esponenziale dei dati operazionali ha reso il calcolatore l’unico supporto adatto ai
processi decisionali: il ruolo dell’informatica è passato da passivo strumento per la memorizzazione
delle operazioni a fattore decisivo per l’individuazione di elementi critici dell’organizzazione e di
potenziali aree di business.
Oggi il top management deve prendere importanti decisioni che si traducono in ingenti
investimenti: per prendere decisioni difficili è necessario avere informazioni il più possibile corrette
che a loro volta sono estrapolate da una grande quantità di dati.
portafoglio applicativo
Il è costituito da:
Portafoglio direzionale
Portafoglio istituzionale Portafoglio operativo
industrializzazione
Amministrazione vendita
Approvvigionamento Fabbricazione Post-vendita
e
Distribuzione
Gestione delle risorse umane e
Progettazione
Altri processi di supporto CIM CRM
ERP
Business Intelligence M – DW – modulo 1 La Business Intelligence – Simone Benassi 1
Sistema informativo aziendale rappresenta tutto il patrimonio informativo dell’azienda che può
à essere informatizzato o meno.
Sistema informatico aziendale rappresenta l’insieme delle applicazioni informatiche
à dell’azienda.
DB
Sistema informativo Sistema informatico
DBMS
Parte del sistema informativo gestita
in maniera informatizzata
DB Data Base rappresenta l’insieme dei dati di interesse per l’azienda memorizzati e gestiti
à à nel sistema informatico e organizzati in modo strutturato.
DBMS Data Base Management System programma in grado di gestire un DB.
à à
Quindi un sistema informativo ≠ DB ≠ DBMS.
definizioni:
Altre
ERP Enterprise Resource Planning software che automatizza i processi del portafoglio
à à istituzionale e operativo (amministrazione, gestione delle
risorse umane, altri processi di supporto, progettazione e
industrializzazione, approvvigionamento, fabbricazione).
Il più famoso ERP è SAP.
Molte organizzazioni sono fallite nel tentativo di adottare
un ERP poiché farlo significa riorganizzare tutti i processi
aziendali in tempi relativamente lunghi.
Un ERP è molto flessibile e può essere adattato al
è SAP che si adatta
business dell’azienda (“Non
all’azienda, bensì l’azienda che si adatta a SAP”).
CRM Customer Relationship Managament software che automatizza i processi di gestione
à à delle relazioni con il cliente (distribuzione e
vendita, post-vendita).
Business Intelligence M – DW – modulo 1 La Business Intelligence – Simone Benassi 2
portafoglio direzionale
Il è l’insieme delle applicazioni utilizzate dai manager aziendali per:
Analizzare lo stato dell’azienda;
Prendere decisioni rapide;
Prendere le decisioni migliori.
piattaforma per la Business Intelligence.
Può essere anche chiamato
Business Intelligence
La è un insieme di strumenti e procedure che consentono all’azienda di
trasformare i propri dati di business in informazioni utili al processo decisionale, da rendere
disponibili alla persona giusta e nel formato idoneo.
Le informazioni così ottenute sono utilizzate dai decisori aziendali per definire e supportare le
strategie di business, così da prendere decisioni consapevoli e informate con l’obiettivo di trarre
vantaggi competitivi, migliorare le prestazioni operative e la profittabilità e, più in generale, creare
valore per l’azienda. off-the-shell”,
Il software per la BI non è un “software come lo è Word.
Per consentire ai manager aziendali analisi potenti e flessibili è necessario definire un’apposita
infrastruttura hardware e software di supporto, costituita da:
Hardware dedicato;
Infrastruttura di rete;
DBMS;
Software di back-end; Livelli al quale l’utente si rivolge per
formulare interrogazioni e ricevere risposte.
Software di front-end.
D
B Rete
Back-end Front-end
DB M
S
Come detto in precedenza il ruolo chiave della piattaforma di BI è trasformare i dati di business
(tanti, “sporchi”) in informazioni (poche, “pulite”) fruibili a diversi livelli di dettaglio e quindi in
conoscenza per prendere le migliori decisioni possibili.
Dati Informazioni Conoscenza Decisioni
à à à
Business Intelligence M – DW – modulo 1 La Business Intelligence – Simone Benassi 3
piramide della BI
La è così composta:
Decisioni
Analisi What-if
Data Mining Conoscenza
Esplorazioni delle informazioni Informazioni
Analisi OLAP
Applicazioni gestionali Dati
ciclo decisionale in BI
Il è costituito da quattro fasi:
Analisi
1. identificare e formulare il problema e ottenere dai dati informazioni rilevanti;
à
Comprensione
2. comprendere il problema e trasformare le informazioni in conoscenza;
à
Decisione
3. tradurre la conoscenza in decisioni e quindi in azioni;
à
Misura
4. misurare le prestazioni conseguenti alle azioni intraprese.
à
fattori abilitanti per la BI,
I ossia i fattori necessari per realizzare tutto ciò, sono:
Tecnologie:
o Potenza di calcolo;
o Tecniche avanzate di visualizzazione;
o Capacità di memorizzazione di una grande mole di dati; DSS e DW
o Connettività di rete;
o Interoperatività software.
Metodologie analitiche;
Risorse umane:
o Cultura aziendale;
o Creatività;
o Agilità mentale;
o Disponibilità al cambiamento.
DSS Decision Support System
à
DW Data Warehouse
à Business Intelligence M – DW – modulo 1 La Business Intelligence – Simone Benassi 4
2. IL DATA WAREHOUSING
L’obiettivo del Data Warehousing è trasformare i dati in informazioni: le informazioni
costituiscono la materia prima che viene trasformata dai sistemi informativi, come i semilavorati
vengono trasformati dai sistemi di produzione.
Dati ≠ Informazioni
Spesso la disponibilità di troppi dati rende arduo, se non impossibile, estrapolare le informazioni
davvero importanti per prendere le decisioni.
dati operazionali
I sono creati, gestiti ed elaborati dai livelli base del portafoglio direzionale: si
tratta una grandissima quantità di dati, troppo dettagliati e spesso con molti errori o “buchi” (dati
mancanti). informazioni
Ai manager aziendali, per prendere importanti decisioni, servono corrette, a diversi
livelli di dettaglio e sintetiche.
Un tempo la trasformazione dei dati in informazioni era realizzata a mano: tanto più i dati sono
numerosi, tanto minore è il loro valore (numerosità e valore dei dati sono inversamente
proporzionali).
Report riassunto di un fenomeno di business, su cui si basano le decisioni strategiche.
à
CIO Chief Information Officer manager responsabile della parte informatica dell’azienda.
à à Data Warehouse
Oggi un manager aziendale può interrogare direttamente il (DW), che gli fornisce
le informazioni necessarie per prendere le decisioni.
Il DW è un raccoglitore di informazioni che integra e riorganizza i dati provenienti da sorgenti di
varia natura e li rende disponibili per analisi e valutazioni finalizzate alla pianificazione e al
processo decisionale.
Modello relazionale (ripasso)
modello di rappresentazione dei dati
Ogni DBMS si appoggia su un che rappresenta
un’astrazione dei dati stessi (non si può ragionare con i bit, 0 e 1).
In letteratura esistono quattro modelli di rappresentazione dei dati, ma solo uno compre il 99% del
modello relazionale.
marcato: il
RDBMS Relationship Data Base Management System DBMS basati sul modello relazionale
à à
relazione.
Il concetto di base è la
Cos’è una relazione fra due insiemi?
A = {a, b, c}
B = {1, 2}
A x B = {a1, b1, c1, a2, b2, c2}
x prodotto cartesiano (non è commutativo, le coppie sono ordinate)
à Business Intelligence M – DW – modulo 2 Il Data Warehousing – Simone Benassi 5
Una relazione è un s
-
Appunti modulo 2 Business intelligence e big data m - BD
-
Domande in preparazione all'esame di Business intelligence e big data m
-
Domande esame finale Business intelligence e big data m
-
Lezioni, Business Analytics