Statistica Aziendale M

Appunti di statistica aziendale M su: Data warehouse, Big data, tecniche di data mining, six sigma, OLAP basati su appunti personali del publisher presi alle lezioni del prof. Mariani dell’università degli Studi di Milano Bicocca - Unimib. Scarica il file in formato PDF!

Esame Statistica aziendale M

Facoltà Scienze statistiche

Dal corso del Prof. Mariani Paolo

Università Università degli Studi di Milano - Bicocca

Publisher Pagani21

A.A. 2016-2017

41 pagine

2 download

Appunto

Vota 4,0 / 5 (1)

Scarica

Estratto del documento

La procedura di partizionamento (Partition) si arresta quando non si identifi-

ca alcuna segmentazione che possa ridurre in maniera significativa la diversità

di un dato nodo.

Il criterio di segmentazione (o criterio di split) della procedura Partition, vale

solo per attributi numerici o categorici (ricordiamoci che gli alberi vengono

usati solo per classificazione e regressione), ed è dato dalla partizione che

presenta il massimo scarto di diversità. Per trovare tale partizione bisogna,

per ogni attributo, trovare la migliore partizione (che ugualmente sarà quella

che massimizza lo scarto di diversità), e poi scegliere tra queste la migliore

in assoluto.

Per trovare la migliore partizione su un attributo dato, occorre

procedere a seconda del tipo di attributo:

• ≤

Per ogni attributo numerico si usa uno split binario della forma A v dove

v è un numero reale. Il primo passo per valutare le suddivisioni per attri-

buto numerico consiste nell’ordinare i dati di training sulla base del valore

dell’attributo.

Siano v , v , ..., v i valori ordinati di un attributo numerico A. Dal momento

1 2 n 19

che ogni valore tra v e v suddivide l’insieme dei dati di training negli stessi

i i+1 −

due sotto insiemi, abbiamo da esaminare solo n 1 possibili splits. Tipica-

−v

mente si considera il punto medio di ogni intervallo v come split point.

i i+1

−

Esaminando gli n 1 splits, si sceglie quello che presenta il massimo scarto di

diversità. Il costo della valutazione delle suddivisioni per attributo numerico

è dominato dal costo di ordinamento dei valori.

• Per attributi categorici, invece, dato l’insieme S(A) dei possibili valori di

∈

un attributo categorico A, lo split test che si usa è della forma A S dove

0 ⊂

S S. Dal momento che il numero di possibili sottoinsiemi per un attribu-

to con n possibili valori è 2 , la ricerca del miglior sottoinsieme può essere

onerosa.

Esistono algoritmi che usano anche attributi multipli per il partizionamento.

2.2.3 Tree Pruning

L’albero costruito nella fase Tree Building classifica perfettamente il set di

training. Questo implica, però, che sono stati creati, in tale fase, rami (quin-

di regole di decisione) che rappresentano regole specifiche per il training set,

ma non regole generali valide anche per i dati mai visti.

Per evitare questo problema, detto di overfitting (ipermodellamento o sovra-

adattamento), e ottenere un modello generale applicabile efficacemente ad al-

tri dati, occorre potare l’albero: occorre cioè rimuovere dall’albero, tutti

i rami che possono condurre a errori nella classificazione dei dati

futuri, e lasciare solo il sotto-albero che presenta il minimo errore stimato.

Ma che cosa si intende per errore di un albero?

Ad ogni foglia i dell’albero è possibile associare un errore ε dato dalla frazione

dei dati classificati correttamente: n i

ε =

i ti

n ti

dove n è il numero di dati classificati correttamente dalla foglia i, mentre n

è il numero totale dei dati presenti nella foglia i.

L’errore associato a tutto l’albero è invece la somma degli errori di tutte

le foglie, pesati però con la probabilità che un nuovo record ha di finire su

ciascuna foglia i (ossia di trovare nell’albero un dato di tipo i simile a lui,

classificare il dato di ingresso di tipo i e commettere un errore ε ):

X i ·

) ε (i = 1, ..., n)

E = ( i

N

Esistono due approcci principali alla stima dell’errore di un albero (o sotto-

albero): uno impiega i dati del training set originale, l’altro usa un set di

dati pre-classificati (detto test set) indipendente dal training set.

L’approccio migliore quando i dati a disposizione sono tanti (quindi quando

possiamo costruirci un buon test set), è il secondo: procedere allo sfoltimento

sulla base delle prestazioni dell’albero sul test set. Con un singolo test set si

pota l’albero fino al sotto-albero che minimizza l’errore sul set di test (vedi

figura seguente). 21

I decision tree sono relativamente veloci, confrontati con altri metodi

di classificazione e regressione, e sono di semplice interpretazione. Questa

proprietà ne indica il campo di applicazione nel Data Mining: ven-

gono impiegati quando lo scopo che ci si prefigge è la generazione

di regole (di classificazione o regressione) chiare e semplici.

3 Six Sigma

L’azienda deve migliorare nei sistemi e processi, non nel singolo.

Com’è l’organizzazione aziendale?

Permette il controllo gerarchico, la separazione dei ruoli e la strutturazione

per funzioni. 23

Se l’organizzazione la guida il cliente?

Le funzioni sono unite dai processi: velocità, integrazione di funzioni, focus

sulle aree critiche del processo e cliente guida.

Che cosa è six sigma?

Una modalità di organizzazione e gestione dei processi, attraverso criteri og-

gettivi e misurabili, che mira ad implementare le strategie aziendali e, in

ultima istanza, il business.

Quali sono gli obiettivi di six sigma?

- Consentire all’azienda di raggiungere i propri obiettivi strategici.

- Acquisire competitività.

- Incrementare la redditività.

- Stimolare la gestione continua dei processi e eliminare gli ostacoli alla fun-

zionalità.

- Fornire capacità produttiva che favorisca la crescita del business.

- agire da catalizzatore per stimolare cambiamenti delle società.

Che cosa contraddistingue six sigma?

- E’ guidata dal top management.

- E’ in linea con gli obiettivi aziendali strategici.

- Offre una capacità di applicazione universale nel mondo del business.

- I progetti vengono selezionati in base ad aspetti aziendali chiave e non ven-

gono adottati in assenza di un impatto tangibile sui profitti.

- Il miglioramento di processo è guidato dal cliente.

- L’investimento è importante, ma i ritorni sono di gran lunga superiori.

- I benefici sono evidenti e facilmente riconducibili agli autori.

L’idea di six sigma è non accontentarsi e migliorare l’efficienza. Per esempio:

⇒

- Se mi accontento del 99% posso perdere 20000 articoli spediti via posta.

⇒

- Se applico six sigma ne perdo solamente 35.

Six sigma ascolta le voci di clienti, impiegati, processo.

La scala sigma fornisce una misura comune per il confronto.

Esempio 1. Come calcolo six sigma?

Considero 500 fatture prodotte. ⇒

Ci sono 3 opportunità di difetti per fattura vengono fatti 57 errori (ritar-

do, ammontare errato, indirizzo sbagliato).

Per calcolare six sigma: →

1) Numero di unità processate N = 500 →

2) Numero totale dei difetti (inclusi i difetti di seguito corretti) D = 57

→

3) Numero di opportunità di difetti per unità O = 3

4) Calcolare i difetti per milione opportunità ·

· 1000000 57

1000000 D = = 38000

DP M O = ·

(N O) 1500

5) Cercate il Sigma del processo nella Tavola ridotta delle conversioni

→

SIGMA 3.3

Fino a six sigma= 6 posso fare miglioramenti enormi e comparandoli so

su quale processo intervenire prima.

L’approccio mentale di six sigma:

- L’orientamento al cliente (specifiche del cliente).

- L’orientamento al processo (indicatori principali).

- L’orientamento statistico (varianza). - L’orientamento causale [y = f (x , x , x , ..., x )]

1 2 3 n

- L’orientamento sperimentale (verifica delle ipotesi basata sui dati).

- L’orientamento al controllo.

- L’orientamento a risultati ambiziosi.

- Linguaggio e modo di pensare comuni per quanto riguarda la soluzione dei

problemi.

- L’orientamento alla responsabilità. 27

Comprende gli elementi di interdipendenza:

- Dati di input: X.

- Processo di X.

- Dati di output: Y. Y = f (X , ..., X )

1 N

Per conseguire risultati che migliorino il processo, è necessario focalizzare la

nostra analisi sui dati di X.

Dashboard Aziendale: utilizza variabili sintetiche per avere un’idea se

le cose funzionano oppure no.

⇒ ⇒

Critici per il business efficienza misure dei processi core (produtti-

vità, scarti, tempo di ciclo, scorte).

⇒ ⇒

Critici per il cliente efficacia (Performance del prodotto, performan-

ce del servizio o del packaging, Facilità nel fare business).

−

La dashboard è solitamente concentrata su 7 12 misure (variabili sinte-

tiche), al di sotto del Fatturato, Margine Operativo Lordo, Reddito Netto.

Approccio al miglioramento:

- Quali sono i risultati di cui ti preoccupi di più o che stai cercando di solle-

citare?

- Prendi uno di questi risultati. Quali misure (una o più) utilizzi per giudi-

care l’avanzamento?

- Quali peculiari numeri o deviazioni % utilizzi per decidere se stai operando

veramente bene, se sei in linea con quanto previsto, o se ci sono problemi?

- Come usare il bastone e come la carota? Come motivare/punire il perso-

nale?

Due concetti fondamentali per il processo:

- Stabilità: La variabilità del processo è entro i limiti di controllo?

- Capacità: La variabilità del processo è entro le aspettative del cliente?

Varianza: ”Se dovessi riassumere il mio messaggio al management in poche

parole, direi che tutti hanno a che fare con la riduzione della varianza”.

• Ogni lavoro è ”processabile” (poiché consiste in una serie di attività).

• La varianza esiste in ogni processo.

• Il lavoro degli esperti six sigma consiste nel ridurre la varianza.

• Il compito dei manager è di utilizzare i dati per prendere decisioni volte a

ridurre la varianza.

Domande chiave del management per capire la varianza:

• A cosa assomiglia la varianza del processo?

• Il processo è stabile (cioè libero da speciali cause di varianza)?

• Quale è il livello di capacità del processo (cioè la risposta alle aspettative

del cliente)? 29

DEFINIRE:

Obiettivi:

- Preparare il contratto del team.

- Identificare i bisogni del cliente per monitorare la soddisfazione.

- Mappare il processo di analisi.

Strumenti:

- Definizione del problema.

- Analisi della voce del cliente.

- FIPOC (failure).

MISURARE:

Obiettivi:

- Identificare le misure chiave per il processo (KPI).

- Elaborare un piano per l’acquisizione dei dati.

- Raccogliere i dati.

Strumenti:

- Grafico di dati (Istogrammi, Pareto).

- Diagrammi di controllo. 31

- Calcolo del sigma.

ANALIZZARE:

Obiettivi:

- Visualizzare i dati ed analizzarli.

- Definire i problemi.

- identificarne le cause.

Strumenti:

- Stratificazione (Pareto).

- Analisi del valore aggiunto.

Anteprima

Vedrai una selezione di 10 pagine su 41