Che materia stai cercando?

Statistica Aziendale M Appunti scolastici Premium

Appunti di statistica aziendale M su: Data warehouse, Big data, tecniche di data mining, six sigma, OLAP basati su appunti personali del publisher presi alle lezioni del prof. Mariani dell’università degli Studi di Milano Bicocca - Unimib. Scarica il file in formato PDF!

Esame di Statistica aziendale M docente Prof. P. Mariani

Anteprima

ESTRATTO DOCUMENTO

1 Introduzione

”Per alcune aziende, la gara in cui sono attualmente impegna-

te somiglia sempre meno al calcio e ad altri giochi tradizionali e

sempre più a quello del croquet di Alice nel Paese delle Meravi-

glie: una partita che costringe il giocatore a fronteggiare continui

mutamenti. Nella partita fantastica di Alice niente rimane stabile

a lungo, perché tutto è vivo e tutto cambia intorno al giocatore:

una situazione fin troppo reale per molti manager.”

”Se davvero il nuovo gioco del business somiglia al croquet di

Alice, per vincere occorrono un’azione veloce, manovre creative,

flessibilità, legami con i dipendenti e i clienti più stretti di quelli

che caratterizzano la burocrazia aziendale tradizionale. Occorre

un management più agile e sciolto che colga le opportunità senza

impastoiarsi in strutture ingombranti o inprocedure lente che ne

ostacolino l’azione.”

1.1 Data Warehouse

Il Data Warehouse è una base di dati:

- Utilizzata principalmente per il supporto alle decisioni direzionali.

- Integrata (aziendale e non dipartimentale).

- Orientata ai dati (non alle applicazioni.

- Storici (con un ampio orizzonte temporale, e indicazione, di solito, di ele-

menti di tempo).

- Non volatile (i dati sono caricati e acceduti fuori linea).

- Mantenuta separatamente dalle basi di dati operazionali.

L’obiettivo del Data Warehouse è quello du supportare i processi di cam-

biamento delle organizzazioni con ”strumenti di analisi” che consentano di

focalizzare gli obiettivi e dimensionare i passi da fare.

Il punto di vista direzionale:

- Il business si sta spostando dal prodotto al cliente.

- La conoscenza del cliente è un bene misurabile per l’azienda.

- Sono richiesti flessibilità e responsabilità.

- Aumenta la richiesta per informazioni valide e tempestive.

Un piano di business deve perciò essere visto come l’intraprendere una sfida

per portare una nuova visione del business.

2

Quali sono le motivazioni ”corrette” alla realizzazione di un Da-

ta Warehouse?

- Necessità di analizzare dati da più sistemi.

- Necessità di effettuare analisi complesse/da più punti di osservazione (di-

mensioni).

- Necessità di disporre di profondità storica.

- Necessità di disporre di una qualità dei dati coerente con le analisi da ef-

fettuare.

- Necessità di tempi di risposta brevi nella produzione delle informazioni de-

cisionali.

Come sono strutturati i dati?

La costruzione di un Data Warehouse prende in considerazione piccoli sot-

toinsiemi di dati. Gli schemi costruiti vengono detti data mart, organizzati

secondo: Schema a stella (parto da unità contenute, aperte attra-

verso codici) o schema a fiocco di neve (apertura successiva di

eventuali codici della stella, evoluzione dello schema a stella ed è

strutturato gerarchicamente).

Al fine di essere estratto, il data mart deve possedere concetti rilevanti:

- Fatto: un concetto sul quale centrare l’analisi.

- Misura: una proprietà atomica di un fatto da analizzare.

- Dimensione: descrive una prospettiva lungo la quale effettuare l’analisi.

Data Warehouse: rappresentazione multidimensionale dei dati.

I data warehouse sono complessi da realizzare e richiedono il coinvolgimento

di molti personaggi chiave dell’azienda nella fase di pianificazione per avere

successo.

I produttori hanno iniziato a fornire prodotti per ridurre questa complessità,

ma l’attenzione sinora è stata rivolta all’interfacciamento dei sistemi opera-

zionali, mentre il problema dell’amministrazione del Data Warehouse è stato

sottovalutato.

Data Mart: selezione specifica del data warehouse secondo alcune dimen-

sioni fissate.

I data mart si stanno presentando come una alternativa più facile rispetto a

realizzare un data warehouse.

Il numero di case produttrici di soluzioni per ”data mart” sta aumentando.

Molte organizzazioni sono spinte dagli utenti a implementare data mart ed

evitare lo sforzo di costruire un data warehouse.

I data mart possono fornire soluzioni specifiche per le aree di business, ma

un approccio cosı̀ guidato da esigenze contingenti appare come un passo in-

3

dietro.

A volte si vuol far credere che la differenza tra data mart e Data Warehouse

sia data solo dalle dimensioni della base dati (più o meno di 50GB), ma la

differenza vera è che i data mart sono focalizzati sui requisiti di un’applica-

zione particolare. Un data mart è meno complesso di un Data Warehouse

solo in quanto sono molto più circoscritte le richieste del bussiness a cui deve

rispondere. Ma le problematiche di acquisizione dei dati sono le stesse di un

Data Warehouse.

Tracciato record: insieme dei campi di ogni variabile (devono essere con-

frontabili).

Sfericità dati: serve sui prodotti non brevi, poichè spesso molti sono subito

obsoleti ed hanno serie storiche ad orizzonte temporale ridotto.

1.2 Open Data

E’ un movimento che promuove la LIBERA distribuzione e il LIBERO

riuso dei dati pubblici senza alcuna restrizione.

Requisiti degli open data:

- ACCESSIBILI (preferibilmente via internet), senza limitazioni basate sul-

l’identità o sull’intenzione dell’utente.

- In formato DIGITALE e LEGGIBILE dalla macchina per l’interpreta-

bilità con altri dati.

- LIBERI da RESTRIZIONI sull’uso o sulla redistribuzione nelle loro

condizioni di licenza.

- Dati gratuiti e in formato gestibile da tutti.

- Vincoli? Restituire lavoro svolto e non venderli.

- Soddisfano la trasparenza, ovvero tutti i dati collezionati devono essere vi-

sibili, in particolare nella pubblica amministrazione.

- Tra raw (grezzi) e linked (strutturati) sono preferibili i primiche danno più

libertà di azione, ma la disaggregazione va ridotta per rispettare la privacy.

- Non sempre è garantita la disponibilità in maniera uniforme periodo per

periodo difficile sviluppo App.

A volte Open Data possono essere imprecisi o sbagliati e quindi può es-

sere utile valutare ciò linkandoli con altri Open Data, non fidandosi di un

solo dato. 4

RAW OPEN DATA: Dati grezzi, atomici, non elaborati, disorganizzati

e disaggregati. I dati organizzati e interpretati sono più facili da compren-

dere e da ricordare, ma nascondono i dati di partenza rendendo difficile la

verifica o la rianalisi. Una buona pratica dell’Open Data è quella di rendere

pubblici i ”Raw data” e non solo i dati già elaborati.

LINKED DATA: esigenza di ottenere dati non solo accessibili (Open) e

non solo connessi tra loro in maniera organizzata (Linked), ma dati accessibili

liberamente in formati standard che permettono la maggiore riutilizzabilità

possibile (Open Linked Data).

1.3 Big Data

Obiettivo:

Offrire le basi teoriche ed applicate per operare con i Big Data nelle aree

marketing, comunicazione, commerciale, digital delle aziende.

Scenario attuale:

- Mainframe pochi e poco diffusi.

- PC tanti e tanto diffusi.

- Web nessuna modifica.

- Digitale tanti e poco diffusa.

- Social Big Data e poco diffusa.

Definizione di Big Data:

- Processa il volume crescente in maniera costo-efficiente.

- Risponde alla crescita della velocità.

- Colleziona e analizza l’ampliamento varietà.

- Stabilisce veridicità delle grandi risorse di dati.

21

- Volume Zettabyte (10 )

- Velocità Tempo reale

- Varietà Strutturati e non strutturati

- Valore Da dimostrare

- Veridicità Contenuta

- Validità Limitata

- Visualizzazione Contenuta

Quando parliamo dei Big Data, parliamo di una grande quantità/mole di

5

dati che cresce anche in varietà e complessità (testo, numerico, immagine,

...). Quindi ho un grande volume di dati difficile da trattare univocamente.

Integrazione diverse fonti di dati:

- Record Linkage: Identificare record riferiti allo stesso individuo ma collo-

cati in file diversi, attraverso chiavi comuni non perfettamente corrispondenti.

Input: due data set che osservano gruppi di unità sovrapposti.

Problema: mancanza di un codice identificativo univoco e privo di errori.

Soluzione: uso di un set di variabili in grado (congiuntamente) di indivi-

duare i record.

Attenzione: le variabili possono avere ”problemi”!

Obiettivo: maggior numero di agganci giusti, minor numero di agganci sba-

gliati.

Un possibile problema potrebbero essere unità sovrapposte, ma viene risolto

usando un set di variabili chiave per identificare un individuo correttamente.

Record Linkage: Esistono diverse procedure di record linkage:

- Deterministico: si stabiliscono a priori delle regole che, se rispettate,

definiscono i match. Il controllo dei possibili errori può essere svolto solo

manualmente (clerical review).

- Probabilistico: si definisce un modello che genera i dati osservati. Si

stabilisce una regola di decisione che ha l’obiettivo di essere ”ottima”, in un

senso da specificare. Si stimano gli elementi utili all’applicazione della regola

di decisione. Vengono definite delle probabilità di errore.

Quello deterministico si basa sulla concordanza di un numero sufficiente di

variabili comuni.

Quello probabilistico lavora sul confronto delle coppie , stabilisce abbina-

menti con punteggi basati su criteri flessibili ma, si tiene conto dei livelli di

disaccordo nei dati e punteggi e soglie dipendono dal problema in esame.

Abbinati Non abbinati Tot

Abbinati n n n

1,1 1,2 1,·

Non abbinati n n n

2,1 2,2 2,·

Tot n n n

·,1 ·,2 ·,·

6 n

1,2

- FMR: n 1,·

n 2,1

- FNMR: n 2,·

n 1,1

- Sensibilità: n ·,1

n 2,2

- Specificità: n ·,2

(False-Match (FMR) and False-Non match (FNMR)).

Esempio di tecnica statistica di trattamento dei Big Data:

Regressione logistica

La regressione logistica risulta utile quando si desidera prevedere la presen-

za o l’assenza di una caratteristica o di un risultato in base ai valori di un

insieme di variabili stimatore. È simile al modello di regressione lineare ma

si adatta ai modelli in cui la variabile dipendente è dicotomica. È possibile

utilizzare i coefficienti di regressione logistica per stimare i rapporti odd per

ogni variabile indipendente nel modello.

1.4 Segnale o rumore

Da qualche anno un ”diluvio” di dati sembra avere investito imprese, enti ed

istituzioni. Si è passati dai dati Small a quelli Big, dalla loro quasi totale

indisponibilità a quelli Open. Alla parabola ascendente dei dati è seguita

quella discendente delle informazioni, passando dal loro utilizzo mirato per il

supporto alle decisioni a quello di una generale disponibilità non finalizzata.

Per trovare una migliore accessibilità e fruibilità è aumentato il ricorso alle

metodologie che permettono di isolare il segnale dal rumore. Il contesto delle

ricerche di mercato ”Big” si candida ad essere uno dei primi ambiti per esplo-

rare le nuove opportunità offerte dai dati, dalla tecnologia, dalle tecniche di

analisi.

Le applicazioni che verranno realizzate e commentate durante l’incontro of-

friranno lo spunto per supportare ricercatori e aziende nel focalizzare gli

obiettivi e orientare le attività.

L’idea è che per avere una maggior accessibilità/fruibilità dei dati, occor-

re sviluppare metodi per separare il vero segnale dal rumore.

7

In un contesto di cambiamento dagli small data ai big data, dall’indispo-

nibilità agli open data, le tradizionali caratteristiche delle fonti non sono

sempre rispettate, il che le rende meno attendibili e certe.

Caratteristiche delle fonti:

- Rilevanza dei concetti statistici: devono contenere misurazioni e prodotti

statistici che riflettano le esigenze degli utilizzatori.

- Accessibilità: l’informazione deve essere chiara e ottenuta in modo sempli-

ce.

- Attendibilità: ci deve essere un alto grado di corrispondenza tra i dati con-

tenuti nelle fonti e la realtà.

- Comparabilità: devono permettere di affiancare le informazioni integran-

dole con altre, analoghe, provenienti da altre sorgenti.

- Completezza: spesso non sono disponibili i dati per alcune aree territoriali

o segmenti.

- Tempestività: il momento della rilevazione non deve essere troppo distante

dall’istante in cui vengono diffusi e resi disponibili i dati.

- Periodicità: devono aggiornare periodicamente le informazioni che mettono

a disposizione.

- Qualità: attenzione alla produzione del dato statistico.

Small Data: insieme di dati elementari collezionati a fini statistici per il

raggiungimento di obiettivi precisi.

Open Data: dati liberamente utilizzabili, riutilizzabili e redistribuibili con

alcune prescrizioni.

Segnale: variazione temporale/spaziale dello stato di un sistema/grandezza

che serve per rappresentare/trasmettere l’informazione.

Rumore: il rumore è l’insieme di segnali indesiderati che si sovrappongono

al segnale utile trasmesso o da elaborare.

Altri effetti indesiderati sulla propagazione e ricezione del segnale

sono:

- L’attenuazione: riduzione di intensità del segnale.

- L’interferenza: segnali che provengono dall’esterno.

- La dispersione: perdita nel trasferimento del segnale.

- La distorsione: alterazione del segnale utile.

Il rapporto segnale/rumore è un numero puro o adimensionale dato dal rap-

porto fra due grandezze omogenee che esprime quanto il segnale sia più po-

tente del rumore nel sistema considerato. Non esiste una soglia minima di

riferimento sotto la quale il sistema non è in grado di essere informativo.

8 ⇒ →

Per ridurre i Big Data, li porto nei Data Warehouse Map Reduce

attraverso concetti rilevanti:

- fatto.

- misura.

- dimensione.

Map Reduce:

- Map only: no riduzione.

- Classic Map Reduce: mappo e riduco.

- Iterative Map Reduction: la mappatura rientra come input.

- Loosely synchronous: dinamica.

Tecniche statistiche di trattamento dei big data:

• Librerie per il machine learning e il data mining.

- Recommendation mining: Cerca di capire il comportamento degli uten-

ti e prova a trovare elementi che l’utente potrebbe gradire.

- Clustering: Prende, ad esempio documenti di testo e li raggruppa per

argomento o altro tipo di correlazione.

- Classificazione: Impara dai documenti già categorizzati al fine di dare

una categoria a quei documenti non ancora categorizzati.

- Frequent itemset mining: Prende dei gruppi di item che possono essere

di vario genere ad esempio termini, in una sessione di query oppure artico-

li di un carrello della spesa di un e-shope identifica quali item ”appaiono”

usualmente insieme.

• Alcune tecniche di analisi.

- User and Item based recommenders.

- Matrix factorization based recommenders.

- K-Means, Fuzzy K-Means e clustering.

- Latent Dirichlet Allocation.

- Singular Value Decomposition.

- Logistic regression classifier.

- Naive Bayes classifier.

- Random forest classifier.

Modelli di comunicazione in ambito Big Data:

- Nuove metodologie di trattamento del dato.

- Nuove tecniche di comunicazione. 9

2 Tecniche di Data Mining

Il data mining è il processo di analisi, svolto in modo semiautomatico, di una

grande quantità di dati grezzi al fine di scoprire il modello (”pattern”) che li

governa, o una regola significativa, da cui ricavare conoscenze utili applica-

bili al nostro contesto operativo (come ad esempio previsioni e classificazioni).

• L’espressione ”in modo semiautomatico” sta ad indicare che il data mi-

ning non è un prodotto in vendita ma una disciplina da apprendere, perché

tutta una serie di fasi del processo di data mining (ad esempio la preparazio-

ne dei dati) possono essere svolte solo con l’intervento dell’uomo (esperienza

e intuito).

• Si usa distinguere il concetto di modello da quello di regola, perché per mo-

dello si intende uno strumento che oltre a fornire l’output richiesto descriva

anche con quale logica il sistema reale raggiunge quel output. Mentre per

regola si intende un procedimento che ad un dato input permetta di associare

il corrispondente output senza necessariamente conoscere il funzionamento

intrinseco del sistema reale (questo è il caso delle reti neurali, una tecnica

che vedremo di data mining).

Quello che oggi conosciamo come Data Mining è il risultato di

molte precedenti aree di ricerca:

- Machine Learning (Apprendimento Automatico): ha fornito algoritmi

per la rilevazione di pattern nei dati.

- Statistica: da qui provengono le tecniche migliori per la progettazione

sperimentale dei modelli.

- Supporto alle Decisioni: il data mining è la naturale prosecuzione degli

sforzi fatti in questo campo, per riuscire a prendere decisioni sempre più in-

formate.

Le tecniche di data mining servono per trasformare i dati grezzi in infor-

mazioni utili. Quindi servono per risolvere

• Problemi di esplorazione dati (Data Mining Non Supervisionato): pro-

blemi in cui non sappiamo cosa dover ricercare nei dati e allora lasciamo che

siano i dati stessi a indicarci un risultato, a suggerirci la loro struttura (o

pattern). Approccio bottom-up.

• Problemi di classificazione e di regressione (Data Mining Supervisio-

nato). In tutti questi problemi sappiamo bene quello che stiamo cercando:

in entrambi i casi l’obiettivo è prevedere il valore che assumerà una certa

variabile detta target. Approccio top-down.

10

Nella seconda categoria di problemi (data mining supervisionato), per pro-

gettare modelli efficaci si usa il Principio della Progettazione Sperimentale:

1) Il modello viene inizialmente addestrato con il training set. Problema di

Overfitting.

2) Il modello viene rifinito con il test set per risolvere il problema di Overfit-

ting.

3) Si verificano le prestazioni del modello con l’evaluation set.

2.1 Cluster Analysis: Algoritmo K-means

La Cluster Analysis è una tecnica di data mining non supervisionato.

Per clustering si intende la segmentazione di un gruppo eterogeneo in sotto-

gruppi (cluster) omogenei. Ciò che distingue il clustering dalla classificazione

è che non si fa ricorso a classi predefinite.

• L’algoritmo suddivide un determinato set di dati in un numero predefinito

di cluster: la ”k” di k-means. Il termine ”means” sta per media statistica e

in questo contesto si riferisce alla distribuzione media di tutti i componenti

di un particolare cluster.

• Per formare i cluster, a ogni record vengono assegnate delle coordinate

in un determinato ”spazio dei record” (figura 1). Lo spazio ha tante dimen-

sioni quanti sono i campi nei record. Il valore di ciascun campo rappresenta

la coordinata del campo. Perché questa interpretazione geometrica sia utile,

tutti i campi devono essere trasformati in numeri e i numeri a loro volta

normalizzati, in modo che due variazioni in due dimensioni diverse possano

essere comparabili.

• I record vengono assegnati ai cluster, tramite un processo iterativo che

inizia da cluster centrati in posizioni sostanzialmente casuali all’interno dello

spazio dei record, e sposta i centroidi (ossia i baricentri dei cluster) finché

ciascuno di questi ultimi non occupa stabilmente il centro di un gruppo di

record. 11

12

13

14

Nel metodo k-means la scelta di k, che determina il numero di cluster

che verranno individuati, è predefinita dall’utente, il quale sceglie k semi

casuali iniziali. Se il numero non corrisponde alla struttura naturale dei dati,

la tecnica non darà buoni risultati:

- Alcuni software forniscono aiuto per la scelta del valore di k ottimale: l’u-

tente può fornire un intervallo per il numero di cluster entro cui cercare

(calcolo la distanza punto-seme e alloco i punti al seme più vicino). A que-

sto punto itero, ovvero ogni volta calcolo il baricentro dei cluster e vedo le

distanze punto-baricentro e alloco eventuali eventi fino a quando non ho più

variazioni.

- Essendo una tecnica non supervisionata, il rilevamento automatico dei clu-

ster può essere applicato senza nulla conoscere della struttura da scoprire.

D’altro canto, però, visto che i cluster individuati automaticamente non han-

no alcuna interpretazione naturale, eccetto quella geometrica per cui certi

record sono più vicini ad alcuni che non ad altri, potrebbe essere difficile

mettere in pratica questi risultati.

Se la scelta di k è errata, avrò brutti risultati come gruppi non omogenei

o fatti da outliers.

2.2 Alberi decisionali

L’Albero Decisionale (o Decision Tree) è una tecnica di classificazione o di

regressione ad albero.

I nodi di un albero decisionale (escluse le foglie) sono domande (i rami nel loro

complesso costituiscono regole di decisioni). Quando l’albero viene applicato

ai dati di ingresso, ogni dato viene analizzato dall’albero lungo un percorso

stabilito da una serie di test sugli attributi (features) del dato stesso, finchè

il dato non raggiunge un nodo foglia, associato ad una categoria o classe (e

qui, al dato, viene assegnata una etichetta di classe, class label, nel caso di

alberi di classificazione, mentre un valore numerico alla sua variabile target

nel caso di alberi di regressione).

Come tutti i modelli di apprendimento induttivo (cioè apprendimento dall’e-

sperienza), è necessario disporre di un training set per generare l’albero, di

un test set per rifinire l’addestramento dell’albero e di un evaluation set per

verificare le prestazioni dell’albero.

È importante sottolineare che in questo contesto è già noto a priori il ti-

po di classificazione che si vuole realizzare: si vuole classificare tra le classi

predefinite dal training set e dal test set. Questo tipo di classificatori sono

molto utili per applicazioni tipo diagnosi di malattie, ma non permettono di

15

individuare cluster di record che definiscono una nuova classe (ad esempio

una nuova malattia).

La parte più intensa, dal punto di vista computazionale, risulta la gene-

razione dell’albero perché il problema di trovare il più piccolo albero de-

cisionale è un problema intrattabile (ad esempio se abbiamo n attributi,

n

2

dobbiamo esplorare # alberi = 2 partizioni per trovare la migliore regole

di decisione).

Fortunatamente, con delle semplici euristiche si riescono a trovare alberi di

decisione capaci di descrivere un gran numero di casi in maniera concisa.

L’idea fondamentale alla base di questi algoritmi consiste nel cercare di ve-

rificare per primi gli attributi più importanti. Per più ”importanti” si

intende quelli che fanno più differenza nella classificazione dei dati (la quale

differenza viene misurata, come si vedrà, con opportuni indici detti indici di

diversità). In questo modo possiamo sperare di arrivare alla classificazione

corretta con un piccolo numero di test, il che significa che i cammini dell’al-

bero saranno corti e l’albero nel suo complesso sarà piccolo.

Gli algoritmi di Decision Tree comunemente implementati sono:

- Chi-squared Automatic Interaction Detection (CHAID).

- Classification and Regression Trees (CART).

- C4.5.

- C5.0.

Tutti questi sono estremamente adatti alla classificazione, alcuni sono im-

piegabili anche per la regressione.

La maggior parte degli algoritmi di decision tree, costruiscono l’albero deci-

sionale in due fasi: Tree Building e Tree Pruning.

Prima di passare ad analizzare queste fasi, però, è necessario definire e

misurare il concetto di diversità di una popolazione.

2.2.1 Misurare la Diversità di una popolazione

Il concetto di diversità indica quanto è disomogenea una popolazione.

Una misura della diversità è l’indice di Gini (G): la diversità (o disomo-

geneità) di una popolazione T è la probabilità che due elementi qualsiasi

della popolazione, scelti a caso ”con sostituzione” (cioè prima di estrarre il

secondo elemento devo riposare il primo estratto), appartengano a classi di-

verse. Dato che la possibilità che un elemento appartenente alla classe i sia

2

scelto per due volte di fila è P , la misura di diversità della popolazione sarà

i 16 2

semplicemente 1 meno la somma di tutte le P (i = 1, ..., n):

i

X 2

G(T ) = 1 P i

i 2

dove i = 1, ..., n è il numero delle specie presenti nella popolazione, e P è la

i

frequenza relativa della specie (o classe) i in T.

Considerando le seguenti probabilità:

7 (Probabilità di estrarre, con sostituzione, due volte di seguito il

P r = 16

Rosso). 9

P b = (Probabilità di estrarre, con sostituzione, due volte di seguito il

16

Blu).

Quindi abbiamo il seguente indice di Gini:

7 9

· ·

− {( ) 2 + ( ) 2} = 0.49

GINI = 1 16 16

17

18

Sceglieremmo la segmentazione S2 perché è quella che produce il massimo

scarto nell’indice di Gini. Infatti:

In S1: 8 5 3 8 4 4

− · · − · ·

G1 = ( ){1 [( ) 2 + ( ) 2]} + ( ){1 [( ) 2 + ( ) 2]} = 0.48

16 8 8 16 8 8

In S2: 5 2 9 4 5

7 − · · − · ·

){1 [( ) 2 + ( ) 2]} + ( ){1 [( ) 2 + ( ) 2]} = 0.45

G2 = ( 16 7 7 16 9 9

∆G1 = 0.49 0.48 = 0.01

∆G2 = 0.49 0.45 = 0.04

∆G2 > ∆G1 quindi scegliamo S2.

In questa fase si costruisce un albero di decisione iniziale, partizionando ri-

corsivamente i dati del training set usando di volta in volta l’attributo che

crea il massimo scarto nell’indice di diversità (l’attributo cioè, secondo il qua-

le la partizione creerà gruppi più omogenei). Ricorsivamente significa che il

processo di segmentazione viene ripetuto finchè tutti i dati di una partizione

apparterranno ad una classe (gruppo omogeneo).

2.2.2 Tree Building

La procedura di partizionamento (Partition) si arresta quando non si identifi-

ca alcuna segmentazione che possa ridurre in maniera significativa la diversità

di un dato nodo.

Il criterio di segmentazione (o criterio di split) della procedura Partition, vale

solo per attributi numerici o categorici (ricordiamoci che gli alberi vengono

usati solo per classificazione e regressione), ed è dato dalla partizione che

presenta il massimo scarto di diversità. Per trovare tale partizione bisogna,

per ogni attributo, trovare la migliore partizione (che ugualmente sarà quella

che massimizza lo scarto di diversità), e poi scegliere tra queste la migliore

in assoluto.

Per trovare la migliore partizione su un attributo dato, occorre

procedere a seconda del tipo di attributo:

• ≤

Per ogni attributo numerico si usa uno split binario della forma A v dove

v è un numero reale. Il primo passo per valutare le suddivisioni per attri-

buto numerico consiste nell’ordinare i dati di training sulla base del valore

dell’attributo.

Siano v , v , ..., v i valori ordinati di un attributo numerico A. Dal momento

1 2 n 19


ACQUISTATO

1 volte

PAGINE

41

PESO

7.72 MB

AUTORE

Pagani21

PUBBLICATO

+1 anno fa


DETTAGLI
Corso di laurea: Corso di laurea magistrale in scienze statistiche ed economiche
SSD:
A.A.: 2017-2018

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher Pagani21 di informazioni apprese con la frequenza delle lezioni di Statistica aziendale M e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Milano Bicocca - Unimib o del prof Mariani Paolo.

Acquista con carta o conto PayPal

Scarica il file tutte le volte che vuoi

Paga con un conto PayPal per usufruire della garanzia Soddisfatto o rimborsato

Recensioni
Ti è piaciuto questo appunto? Valutalo!

Altri appunti di Corso di laurea magistrale in scienze statistiche ed economiche

Previsione serie storiche applicando la foresta casuale
Tesi
Economia Applicata M
Esercitazione
Statistical learning
Appunto
Schema Statistica economica M
Appunto