Statistica Aziendale
Pagani Davide
8 febbraio 2017
Indice
1 Introduzione 2
1.1 Data Warehouse . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Open Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3 Big Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4 Segnale o rumore . . . . . . . . . . . . . . . . . . . . . . . . . 7
2 Tecniche di Data Mining 10
2.1 Cluster Analysis: Algoritmo K-means . . . . . . . . . . . . . . 11
2.2 Alberi decisionali . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2.1 Misurare la Diversità di una popolazione . . . . . . . . 16
2.2.2 Tree Building . . . . . . . . . . . . . . . . . . . . . . . 19
2.2.3 Tree Pruning . . . . . . . . . . . . . . . . . . . . . . . 20
3 Six Sigma 23
4 Report, OLAP, Data Mining, CRM 33
1
1 Introduzione
”Per alcune aziende, la gara in cui sono attualmente impegna-
te somiglia sempre meno al calcio e ad altri giochi tradizionali e
sempre più a quello del croquet di Alice nel Paese delle Meravi-
glie: una partita che costringe il giocatore a fronteggiare continui
mutamenti. Nella partita fantastica di Alice niente rimane stabile
a lungo, perché tutto è vivo e tutto cambia intorno al giocatore:
una situazione fin troppo reale per molti manager.”
”Se davvero il nuovo gioco del business somiglia al croquet di
Alice, per vincere occorrono un’azione veloce, manovre creative,
flessibilità, legami con i dipendenti e i clienti più stretti di quelli
che caratterizzano la burocrazia aziendale tradizionale. Occorre
un management più agile e sciolto che colga le opportunità senza
impastoiarsi in strutture ingombranti o inprocedure lente che ne
ostacolino l’azione.”
1.1 Data Warehouse
Il Data Warehouse è una base di dati:
- Utilizzata principalmente per il supporto alle decisioni direzionali.
- Integrata (aziendale e non dipartimentale).
- Orientata ai dati (non alle applicazioni.
- Storici (con un ampio orizzonte temporale, e indicazione, di solito, di ele-
menti di tempo).
- Non volatile (i dati sono caricati e acceduti fuori linea).
- Mantenuta separatamente dalle basi di dati operazionali.
L’obiettivo del Data Warehouse è quello du supportare i processi di cam-
biamento delle organizzazioni con ”strumenti di analisi” che consentano di
focalizzare gli obiettivi e dimensionare i passi da fare.
Il punto di vista direzionale:
- Il business si sta spostando dal prodotto al cliente.
- La conoscenza del cliente è un bene misurabile per l’azienda.
- Sono richiesti flessibilità e responsabilità.
- Aumenta la richiesta per informazioni valide e tempestive.
Un piano di business deve perciò essere visto come l’intraprendere una sfida
per portare una nuova visione del business.
2
Quali sono le motivazioni ”corrette” alla realizzazione di un Da-
ta Warehouse?
- Necessità di analizzare dati da più sistemi.
- Necessità di effettuare analisi complesse/da più punti di osservazione (di-
mensioni).
- Necessità di disporre di profondità storica.
- Necessità di disporre di una qualità dei dati coerente con le analisi da ef-
fettuare.
- Necessità di tempi di risposta brevi nella produzione delle informazioni de-
cisionali.
Come sono strutturati i dati?
La costruzione di un Data Warehouse prende in considerazione piccoli sot-
toinsiemi di dati. Gli schemi costruiti vengono detti data mart, organizzati
secondo: Schema a stella (parto da unità contenute, aperte attra-
verso codici) o schema a fiocco di neve (apertura successiva di
eventuali codici della stella, evoluzione dello schema a stella ed è
strutturato gerarchicamente).
Al fine di essere estratto, il data mart deve possedere concetti rilevanti:
- Fatto: un concetto sul quale centrare l’analisi.
- Misura: una proprietà atomica di un fatto da analizzare.
- Dimensione: descrive una prospettiva lungo la quale effettuare l’analisi.
Data Warehouse: rappresentazione multidimensionale dei dati.
I data warehouse sono complessi da realizzare e richiedono il coinvolgimento
di molti personaggi chiave dell’azienda nella fase di pianificazione per avere
successo.
I produttori hanno iniziato a fornire prodotti per ridurre questa complessità,
ma l’attenzione sinora è stata rivolta all’interfacciamento dei sistemi opera-
zionali, mentre il problema dell’amministrazione del Data Warehouse è stato
sottovalutato.
Data Mart: selezione specifica del data warehouse secondo alcune dimen-
sioni fissate.
I data mart si stanno presentando come una alternativa più facile rispetto a
realizzare un data warehouse.
Il numero di case produttrici di soluzioni per ”data mart” sta aumentando.
Molte organizzazioni sono spinte dagli utenti a implementare data mart ed
evitare lo sforzo di costruire un data warehouse.
I data mart possono fornire soluzioni specifiche per le aree di business, ma
un approccio cosı̀ guidato da esigenze contingenti appare come un passo in-
3
dietro.
A volte si vuol far credere che la differenza tra data mart e Data Warehouse
sia data solo dalle dimensioni della base dati (più o meno di 50GB), ma la
differenza vera è che i data mart sono focalizzati sui requisiti di un’applica-
zione particolare. Un data mart è meno complesso di un Data Warehouse
solo in quanto sono molto più circoscritte le richieste del bussiness a cui deve
rispondere. Ma le problematiche di acquisizione dei dati sono le stesse di un
Data Warehouse.
Tracciato record: insieme dei campi di ogni variabile (devono essere con-
frontabili).
Sfericità dati: serve sui prodotti non brevi, poichè spesso molti sono subito
obsoleti ed hanno serie storiche ad orizzonte temporale ridotto.
1.2 Open Data
E’ un movimento che promuove la LIBERA distribuzione e il LIBERO
riuso dei dati pubblici senza alcuna restrizione.
Requisiti degli open data:
- ACCESSIBILI (preferibilmente via internet), senza limitazioni basate sul-
l’identità o sull’intenzione dell’utente.
- In formato DIGITALE e LEGGIBILE dalla macchina per l’interpreta-
bilità con altri dati.
- LIBERI da RESTRIZIONI sull’uso o sulla redistribuzione nelle loro
condizioni di licenza.
- Dati gratuiti e in formato gestibile da tutti.
- Vincoli? Restituire lavoro svolto e non venderli.
- Soddisfano la trasparenza, ovvero tutti i dati collezionati devono essere vi-
sibili, in particolare nella pubblica amministrazione.
- Tra raw (grezzi) e linked (strutturati) sono preferibili i primiche danno più
libertà di azione, ma la disaggregazione va ridotta per rispettare la privacy.
- Non sempre è garantita la disponibilità in maniera uniforme periodo per
→
periodo difficile sviluppo App.
A volte Open Data possono essere imprecisi o sbagliati e quindi può es-
sere utile valutare ciò linkandoli con altri Open Data, non fidandosi di un
solo dato. 4
RAW OPEN DATA: Dati grezzi, atomici, non elaborati, disorganizzati
e disaggregati. I dati organizzati e interpretati sono più facili da compren-
dere e da ricordare, ma nascondono i dati di partenza rendendo difficile la
verifica o la rianalisi. Una buona pratica dell’Open Data è quella di rendere
pubblici i ”Raw data” e non solo i dati già elaborati.
LINKED DATA: esigenza di ottenere dati non solo accessibili (Open) e
non solo connessi tra loro in maniera organizzata (Linked), ma dati accessibili
liberamente in formati standard che permettono la maggiore riutilizzabilità
possibile (Open Linked Data).
1.3 Big Data
Obiettivo:
Offrire le basi teoriche ed applicate per operare con i Big Data nelle aree
marketing, comunicazione, commerciale, digital delle aziende.
Scenario attuale:
⇒
- Mainframe pochi e poco diffusi.
⇒
- PC tanti e tanto diffusi.
⇒
- Web nessuna modifica.
⇒
- Digitale tanti e poco diffusa.
⇒
- Social Big Data e poco diffusa.
Definizione di Big Data:
- Processa il volume crescente in maniera costo-efficiente.
- Risponde alla crescita della velocità.
- Colleziona e analizza l’ampliamento varietà.
- Stabilisce veridicità delle grandi risorse di dati.
⇓
21
⇒
- Volume Zettabyte (10 )
⇒
- Velocità Tempo reale
⇒
- Varietà Strutturati e non strutturati
⇒
- Valore Da dimostrare
⇒
- Veridicità Contenuta
⇒
- Validità Limitata
⇒
- Visualizzazione Contenuta
Quando parliamo dei Big Data, parliamo di una grande quantità/mole di
5
dati che cresce anche in varietà e complessità (testo, numerico, immagine,
...). Quindi ho un grande volume di dati difficile da trattare univocamente.
Integrazione diverse fonti di dati:
- Record Linkage: Identificare record riferiti allo stesso individuo ma collo-
cati in file diversi, attraverso chiavi comuni non perfettamente corrispondenti.
Input: due data set che osservano gruppi di unità sovrapposti.
Problema: mancanza di un codice identificativo univoco e privo di errori.
Soluzione: uso di un set di variabili in grado (congiuntamente) di indivi-
duare i record.
Attenzione: le variabili possono avere ”problemi”!
Obiettivo: maggior numero di agganci giusti, minor numero di agganci sba-
gliati.
Un possibile problema potrebbero essere unità sovrapposte, ma viene risolto
usando un set di variabili chiave per identificare un individuo correttamente.
Record Linkage: Esistono diverse procedure di record linkage:
- Deterministico: si stabiliscono a priori delle regole che, se rispettate,
definiscono i match. Il controllo dei possibili errori può essere svolto solo
manualmente (clerical review).
- Probabilistico: si definisce un modello che genera i dati osservati. Si
stabilisce una regola di decisione che ha l’obiettivo di essere ”ottima”, in un
senso da specificare. Si stimano gli elementi utili all’applicazione della regola
di decisione. Vengono definite delle probabilità di errore.
Quello deterministico si basa sulla concordanza di un numero sufficiente di
variabili comuni.
Quello probabilistico lavora sul confronto delle coppie , stabilisce abbina-
menti con punteggi basati su criteri flessibili ma, si tiene conto dei livelli di
disaccordo nei dati e punteggi e soglie dipendono dal problema in esame.
Abbinati Non abbinati Tot
Abbinati n n n
1,1 1,2 1,·
Non abbinati n n n
2,1 2,2 2,·
Tot n n n
·,1 ·,2 ·,·
6 n
1,2
- FMR: n 1,·
n 2,1
- FNMR: n 2,·
n 1,1
- Sensibilità: n ·,1
n 2,2
- Specificità: n ·,2
(False-Match (FMR) and False-Non match (FNMR)).
Esempio di tecnica statistica di trattamento dei Big Da
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.