Estratto del documento

Statistica Aziendale

Pagani Davide

8 febbraio 2017

Indice

1 Introduzione 2

1.1 Data Warehouse . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.2 Open Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.3 Big Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.4 Segnale o rumore . . . . . . . . . . . . . . . . . . . . . . . . . 7

2 Tecniche di Data Mining 10

2.1 Cluster Analysis: Algoritmo K-means . . . . . . . . . . . . . . 11

2.2 Alberi decisionali . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.2.1 Misurare la Diversità di una popolazione . . . . . . . . 16

2.2.2 Tree Building . . . . . . . . . . . . . . . . . . . . . . . 19

2.2.3 Tree Pruning . . . . . . . . . . . . . . . . . . . . . . . 20

3 Six Sigma 23

4 Report, OLAP, Data Mining, CRM 33

1

1 Introduzione

”Per alcune aziende, la gara in cui sono attualmente impegna-

te somiglia sempre meno al calcio e ad altri giochi tradizionali e

sempre più a quello del croquet di Alice nel Paese delle Meravi-

glie: una partita che costringe il giocatore a fronteggiare continui

mutamenti. Nella partita fantastica di Alice niente rimane stabile

a lungo, perché tutto è vivo e tutto cambia intorno al giocatore:

una situazione fin troppo reale per molti manager.”

”Se davvero il nuovo gioco del business somiglia al croquet di

Alice, per vincere occorrono un’azione veloce, manovre creative,

flessibilità, legami con i dipendenti e i clienti più stretti di quelli

che caratterizzano la burocrazia aziendale tradizionale. Occorre

un management più agile e sciolto che colga le opportunità senza

impastoiarsi in strutture ingombranti o inprocedure lente che ne

ostacolino l’azione.”

1.1 Data Warehouse

Il Data Warehouse è una base di dati:

- Utilizzata principalmente per il supporto alle decisioni direzionali.

- Integrata (aziendale e non dipartimentale).

- Orientata ai dati (non alle applicazioni.

- Storici (con un ampio orizzonte temporale, e indicazione, di solito, di ele-

menti di tempo).

- Non volatile (i dati sono caricati e acceduti fuori linea).

- Mantenuta separatamente dalle basi di dati operazionali.

L’obiettivo del Data Warehouse è quello du supportare i processi di cam-

biamento delle organizzazioni con ”strumenti di analisi” che consentano di

focalizzare gli obiettivi e dimensionare i passi da fare.

Il punto di vista direzionale:

- Il business si sta spostando dal prodotto al cliente.

- La conoscenza del cliente è un bene misurabile per l’azienda.

- Sono richiesti flessibilità e responsabilità.

- Aumenta la richiesta per informazioni valide e tempestive.

Un piano di business deve perciò essere visto come l’intraprendere una sfida

per portare una nuova visione del business.

2

Quali sono le motivazioni ”corrette” alla realizzazione di un Da-

ta Warehouse?

- Necessità di analizzare dati da più sistemi.

- Necessità di effettuare analisi complesse/da più punti di osservazione (di-

mensioni).

- Necessità di disporre di profondità storica.

- Necessità di disporre di una qualità dei dati coerente con le analisi da ef-

fettuare.

- Necessità di tempi di risposta brevi nella produzione delle informazioni de-

cisionali.

Come sono strutturati i dati?

La costruzione di un Data Warehouse prende in considerazione piccoli sot-

toinsiemi di dati. Gli schemi costruiti vengono detti data mart, organizzati

secondo: Schema a stella (parto da unità contenute, aperte attra-

verso codici) o schema a fiocco di neve (apertura successiva di

eventuali codici della stella, evoluzione dello schema a stella ed è

strutturato gerarchicamente).

Al fine di essere estratto, il data mart deve possedere concetti rilevanti:

- Fatto: un concetto sul quale centrare l’analisi.

- Misura: una proprietà atomica di un fatto da analizzare.

- Dimensione: descrive una prospettiva lungo la quale effettuare l’analisi.

Data Warehouse: rappresentazione multidimensionale dei dati.

I data warehouse sono complessi da realizzare e richiedono il coinvolgimento

di molti personaggi chiave dell’azienda nella fase di pianificazione per avere

successo.

I produttori hanno iniziato a fornire prodotti per ridurre questa complessità,

ma l’attenzione sinora è stata rivolta all’interfacciamento dei sistemi opera-

zionali, mentre il problema dell’amministrazione del Data Warehouse è stato

sottovalutato.

Data Mart: selezione specifica del data warehouse secondo alcune dimen-

sioni fissate.

I data mart si stanno presentando come una alternativa più facile rispetto a

realizzare un data warehouse.

Il numero di case produttrici di soluzioni per ”data mart” sta aumentando.

Molte organizzazioni sono spinte dagli utenti a implementare data mart ed

evitare lo sforzo di costruire un data warehouse.

I data mart possono fornire soluzioni specifiche per le aree di business, ma

un approccio cosı̀ guidato da esigenze contingenti appare come un passo in-

3

dietro.

A volte si vuol far credere che la differenza tra data mart e Data Warehouse

sia data solo dalle dimensioni della base dati (più o meno di 50GB), ma la

differenza vera è che i data mart sono focalizzati sui requisiti di un’applica-

zione particolare. Un data mart è meno complesso di un Data Warehouse

solo in quanto sono molto più circoscritte le richieste del bussiness a cui deve

rispondere. Ma le problematiche di acquisizione dei dati sono le stesse di un

Data Warehouse.

Tracciato record: insieme dei campi di ogni variabile (devono essere con-

frontabili).

Sfericità dati: serve sui prodotti non brevi, poichè spesso molti sono subito

obsoleti ed hanno serie storiche ad orizzonte temporale ridotto.

1.2 Open Data

E’ un movimento che promuove la LIBERA distribuzione e il LIBERO

riuso dei dati pubblici senza alcuna restrizione.

Requisiti degli open data:

- ACCESSIBILI (preferibilmente via internet), senza limitazioni basate sul-

l’identità o sull’intenzione dell’utente.

- In formato DIGITALE e LEGGIBILE dalla macchina per l’interpreta-

bilità con altri dati.

- LIBERI da RESTRIZIONI sull’uso o sulla redistribuzione nelle loro

condizioni di licenza.

- Dati gratuiti e in formato gestibile da tutti.

- Vincoli? Restituire lavoro svolto e non venderli.

- Soddisfano la trasparenza, ovvero tutti i dati collezionati devono essere vi-

sibili, in particolare nella pubblica amministrazione.

- Tra raw (grezzi) e linked (strutturati) sono preferibili i primiche danno più

libertà di azione, ma la disaggregazione va ridotta per rispettare la privacy.

- Non sempre è garantita la disponibilità in maniera uniforme periodo per

periodo difficile sviluppo App.

A volte Open Data possono essere imprecisi o sbagliati e quindi può es-

sere utile valutare ciò linkandoli con altri Open Data, non fidandosi di un

solo dato. 4

RAW OPEN DATA: Dati grezzi, atomici, non elaborati, disorganizzati

e disaggregati. I dati organizzati e interpretati sono più facili da compren-

dere e da ricordare, ma nascondono i dati di partenza rendendo difficile la

verifica o la rianalisi. Una buona pratica dell’Open Data è quella di rendere

pubblici i ”Raw data” e non solo i dati già elaborati.

LINKED DATA: esigenza di ottenere dati non solo accessibili (Open) e

non solo connessi tra loro in maniera organizzata (Linked), ma dati accessibili

liberamente in formati standard che permettono la maggiore riutilizzabilità

possibile (Open Linked Data).

1.3 Big Data

Obiettivo:

Offrire le basi teoriche ed applicate per operare con i Big Data nelle aree

marketing, comunicazione, commerciale, digital delle aziende.

Scenario attuale:

- Mainframe pochi e poco diffusi.

- PC tanti e tanto diffusi.

- Web nessuna modifica.

- Digitale tanti e poco diffusa.

- Social Big Data e poco diffusa.

Definizione di Big Data:

- Processa il volume crescente in maniera costo-efficiente.

- Risponde alla crescita della velocità.

- Colleziona e analizza l’ampliamento varietà.

- Stabilisce veridicità delle grandi risorse di dati.

21

- Volume Zettabyte (10 )

- Velocità Tempo reale

- Varietà Strutturati e non strutturati

- Valore Da dimostrare

- Veridicità Contenuta

- Validità Limitata

- Visualizzazione Contenuta

Quando parliamo dei Big Data, parliamo di una grande quantità/mole di

5

dati che cresce anche in varietà e complessità (testo, numerico, immagine,

...). Quindi ho un grande volume di dati difficile da trattare univocamente.

Integrazione diverse fonti di dati:

- Record Linkage: Identificare record riferiti allo stesso individuo ma collo-

cati in file diversi, attraverso chiavi comuni non perfettamente corrispondenti.

Input: due data set che osservano gruppi di unità sovrapposti.

Problema: mancanza di un codice identificativo univoco e privo di errori.

Soluzione: uso di un set di variabili in grado (congiuntamente) di indivi-

duare i record.

Attenzione: le variabili possono avere ”problemi”!

Obiettivo: maggior numero di agganci giusti, minor numero di agganci sba-

gliati.

Un possibile problema potrebbero essere unità sovrapposte, ma viene risolto

usando un set di variabili chiave per identificare un individuo correttamente.

Record Linkage: Esistono diverse procedure di record linkage:

- Deterministico: si stabiliscono a priori delle regole che, se rispettate,

definiscono i match. Il controllo dei possibili errori può essere svolto solo

manualmente (clerical review).

- Probabilistico: si definisce un modello che genera i dati osservati. Si

stabilisce una regola di decisione che ha l’obiettivo di essere ”ottima”, in un

senso da specificare. Si stimano gli elementi utili all’applicazione della regola

di decisione. Vengono definite delle probabilità di errore.

Quello deterministico si basa sulla concordanza di un numero sufficiente di

variabili comuni.

Quello probabilistico lavora sul confronto delle coppie , stabilisce abbina-

menti con punteggi basati su criteri flessibili ma, si tiene conto dei livelli di

disaccordo nei dati e punteggi e soglie dipendono dal problema in esame.

Abbinati Non abbinati Tot

Abbinati n n n

1,1 1,2 1,·

Non abbinati n n n

2,1 2,2 2,·

Tot n n n

·,1 ·,2 ·,·

6 n

1,2

- FMR: n 1,·

n 2,1

- FNMR: n 2,·

n 1,1

- Sensibilità: n ·,1

n 2,2

- Specificità: n ·,2

(False-Match (FMR) and False-Non match (FNMR)).

Esempio di tecnica statistica di trattamento dei Big Da

Anteprima
Vedrai una selezione di 10 pagine su 41
Statistica Aziendale M Pag. 1 Statistica Aziendale M Pag. 2
Anteprima di 10 pagg. su 41.
Scarica il documento per vederlo tutto.
Statistica Aziendale M Pag. 6
Anteprima di 10 pagg. su 41.
Scarica il documento per vederlo tutto.
Statistica Aziendale M Pag. 11
Anteprima di 10 pagg. su 41.
Scarica il documento per vederlo tutto.
Statistica Aziendale M Pag. 16
Anteprima di 10 pagg. su 41.
Scarica il documento per vederlo tutto.
Statistica Aziendale M Pag. 21
Anteprima di 10 pagg. su 41.
Scarica il documento per vederlo tutto.
Statistica Aziendale M Pag. 26
Anteprima di 10 pagg. su 41.
Scarica il documento per vederlo tutto.
Statistica Aziendale M Pag. 31
Anteprima di 10 pagg. su 41.
Scarica il documento per vederlo tutto.
Statistica Aziendale M Pag. 36
Anteprima di 10 pagg. su 41.
Scarica il documento per vederlo tutto.
Statistica Aziendale M Pag. 41
1 su 41
D/illustrazione/soddisfatti o rimborsati
Acquista con carta o PayPal
Scarica i documenti tutte le volte che vuoi
Dettagli
SSD
Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher Pagani21 di informazioni apprese con la frequenza delle lezioni di Statistica aziendale M e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Milano - Bicocca o del prof Mariani Paolo.
Appunti correlati Invia appunti e guadagna

Domande e risposte

Hai bisogno di aiuto?
Chiedi alla community