Estratto del documento

ANALISI GRAFICA

Esistono diversi tipi di visualizzazione grafica che permettono di studiare la correlazione tra due

attributi. Iniziamo con il diagramma di dispersione. Un diagramma di dispersione (Scatterplot)

costituisce la più importante rappresentazione grafica del legame che esiste tra due attributi numerici.

sull’asse delle ascisse il

Si tratta di un diagramma cartesiano bidimensionale realizzando collocando

primo attributo che aj e sull’asse delle ordinate il secondo attributo ak.

Ogni punto rappresenta un’istanza. Abbiamo una densità di valori più bassi ma abbiamo una relazione

in figura, infatti, mostra l’intensità di legame di tendenza

lineare con tutti valori positivi. Il diagramma

crescente tra i due attributi. I diagrammi di dispersione possono risultare confusi ed inefficaci quando

il numero di osservazioni m è molto elevato.

Come nel caso dell’analisi univariate, è utile introdurre accanto ai metodi grafici anche indicatori che

esprimono la natura e l’intensità del legame tra attributi numerici.

COVARIANZA

Date le coppie di attributi aj e ak. L’indice di covarianza campionaria è definito come:

immediata. Possiamo avere valori positivi e quindi c’è la

La covarianza ha un’interpretazione

concordanza tra i 2 attributi e valori negativi e quindi c’è la discordanza tra i 2 attributi. Possiamo

vedere se tra i due attributi considerati sono presenti delle correlazioni o meno. Il problema della

covarianza è che la scala è diversa e quindi non possiamo misurare l’intensità della relazione tra i 2

attributi, ma possiamo vedere solo se c’è concordanza o discordanza (lo vediamo andando a studiare

i valori positivi o negativi della covarianza). Per vedere se abbiamo intensità della relazione tra i due

attributi dobbiamo introdurre un concetto nuovo ovvero il Pearson Coefficient ovvero la

Correlazione che ha un range compreso tra -1 ed +1. In questo modo è possibile comparare i due

attributi perché hanno la stessa scala. Il coefficiente di Pearson possiamo definirlo:

dove σj e σk sono rispettivamente le deviazioni campionarie di aj e ak.

Le principali proprietà del coefficiente di correlazione (coefficiente di Pearson Coefficient) sono:

 Se rjk >0 tra gli attributi si ha concordanza.

Facciamo riferimento per la spiegazione alle

immagini sotto indicate: vediamo che la

concordanza positiva ce l’abbiamo tra (a) e

(c). la concordanza è approssimata ad una

linea crescente. In (c) i valori sono più lontani

e non c’è una correlazione positiva così forte;

 Se rjk <0 tra gli attributi abbiamo discordanza.

Faremo lo stesso discorso fatto in precedenza

tra l’immagine (b) e (d);

 Se rjk=0 tra gli attributi non si manifesta alcun

legame di natura lineare. Gli attributi

cambiamo in maniera totalmente casuale (e).

Nell’immagine (f), invece abbiamo ma

abbiamo una relazione solo che non è lineare

e quindi possiamo vedere una curva.

(Quaderno esempio sconti-acquisti)

ANALISI MULTIVARIATA

L’analisi multivariata si propone di estendere le nozioni introdotte nel caso bivariato per valutare le

relazioni che sussistono tra molteplici attributi di un dataset. Dal momento che i diagrammi di

dispersione consentono di cogliere in modo intuitivo i legami tra le coppie di attributi numerici, nel

caso dell’analisi multivariata risulta naturale ricorrere a matrici di diagrammi valutati per tutte le

coppie di variabili numeriche. Vediamo quindi:

La figura illustra il tipo di rappresentazione grafica per gli attributi numin, timein, numout, Paltri,

Pmob, Pfisso e numsms. Questa tabella possiamo vederla su Weka andando su visualize in alto e

successivamente ci compare la matrice con gli attributi. Cliccando su update verranno fuori tutti i

valori necessari per la nostra analisi.

REGRESSIONE

La parte di Data Exploration è la parte passiva della Business Intelligence. Il passo successivo è

analizzare la parte attiva ovvero la Regressione. I modelli di regressione che saranno trattati qui

rappresentano i modelli di stima più importanti. Lo sviluppo di un modello di stima permette ai

knowledge worker di acquisire una migliore comprensione del fenomeno analizzato e consente di

valutare gli effetti determinati sull’attributo target da diverse combinazioni di valori assegnati ai

Questo è molto importante soprattutto per l’analisi degli attributi che costituiscono

rimanenti attributi.

leve di controllo a disposizione del decision maker.

Ad esempio possiamo pensare ad un modello di stima che si propone di interpretare le vendite di un

prodotto sulla base degli investimenti pubblicitari intrapresi attraverso diversi canali di

comunicazione come ad esempio quotidiani, periodici e tv. Il decision maker può utilizzare il modello

per valutare l’importanza relativa dei diversi canali e orientare gli investimenti futuri verso i media

che sembrano più efficaci.

Stiamo parlando di un set di dati costituito da osservazioni passate per le quali sono noti il valore

degli attributi esplicativi e il valore della variabile target numerica continua.

L’obiettivo dei modelli di stima, che vengono detti anche modelli esplicativi, consentono di

evidenziare ed interpretare la dipendenza della variabile target dalle altre variabili ed inoltre

permettono di predire il valore futuro dell’attributo target, in

virtù del legame funzionale ricavato e del valore futuro degli

attributi esplicativi.

Supponiamo di avere un dataset costituito da m osservazioni

e da n+1 attributi tra i quali troviamo una variabile target e le

rimanenti n variabili che possono svolgere un ruolo

nei confronti del target. Diremo che l’attributo

esplicativo

target è denominato variabile dipendente, risposta o uscita e

le altre variabili esplicative sono variabili indipendenti o

predittori.

REGRESSIONE LINEARE SEMPLICE

I modelli di regressione lineare sono la classe più nota di modelli di stima. Avremo un’unica variabile

indipendente e quini n=1. In questo modo quindi il modello di regressione viene detto semplice e si

= +

riduce alla relazione dove sappiamo che X( della moltiplicazione) è quella della post

osservazioni. La Y indica la class variable dove è necessario considerare se la variabile è numerica

oppure categorica. Se la variabile è numerica posso applicarla, altrimenti se la variabile è categorica

non posso usarla e quindi ricorro alla Classification.

È difficile avere una relazione lineare pura e quindi è necessario prendere in considerazione gli errori.

Consideriamo adesso un esempio. Un’azienda manifatturiera realizza prodotti alimentari, e vuole

analizzare il legame che intercorre tra il costo mensile Y di produzione e il corrispondente volume

produttivo X per uno dei propri stabilimenti. La tabella di seguito indica le coppie di valori (xi, yi),

registrati nel corso di 14 mesi. Il volume è espresso in tonnellate di prodotto e il costo in migliaia di

euro. Come possiamo notare la retta di regressione, indicata nel diagramma di dispersione,

approssima mediante un legame lineare la relazione tra volume e costo di produzione. I coefficienti

della retta possiamo interpretarli in maniera economica molto rilevante sul piano gestionale:

l’intercetta b=1,3641 K euro costituisce una stima a posteriori dei costi fissi di produzione, mentre il

coefficiente angolore ω=0,2903Keuro/ton rappresenta la stima dei costi variabili

In generale però è molto difficile avere una regressione lineare semplice tra due variabili e per questo

dove ε indica una variabile casuale,

= + +

motivo viene introdotta una nuova equazione:

indicata come scarto oppure errore.

L’errore è calcolato attraverso i ‘residuals’, vale a dire i segmenti verticali che si discostano dalla

retta lineare: più sono vicini a questa e quindi i segmenti sono corti e più il modello è accurato.

Inoltre, l'errore deve essere casuale ovvero il risultato dell'azione di innumerevoli variabili

indipendenti escluse dal modello, ognuna delle quali ha un effetto trascurabile sull'attributo target. In

caso contrario, esiste una relazione tra la variabile target e le variabili non considerate -> Y cresce e

l’errore cresce a sua volta.

Tra i possibili criteri per determinare i coefficienti di regressione ω e b, il più noto e intuitivo consiste

nel minimizzare la somma dei quadrati degli errori, espressi dalla funzione SSE ( sum of squared

errors):

REGRESSIONE LINEARE MULTIPLA

Dopo aver analizzato la regressione lineare semplice, è necessaria descrivere la regressione lineare

multipla per la quale il numero n di variabili indipendenti è maggiore di uno.

Possiamo fornire un’interpretazione dei coefficienti angolari ωj che sono presenti nel modello di

regressione multipla. Se infatti la variabile esplicativa Xj viene incrementata di un’unità, mentre tutte

le rimanenti variabili esplicative vengono mantenute al loro valore, la variabile di risposta Y subisce

una variazione pari a ωj. Se si analizza una variabile target che indica le vendite di un prodotto in

relazione agli investimenti pubblicitari realizzati attraverso diversi canali mediatici di comunicazione,

i valori dei coefficienti di regressione possono fornire un’indicazione della convenienza relativa dei

diversi canali e quindi possono essere utilizzati per guidare le scelte relative a campagne di marketing

future. valore di ciascun coefficiente dipende dall’intero insieme di

È importante tenere presente che il

variabili esplicative e quindi la rimozione di alcune variabili piuttosto che l’introduzione di nuovi

predittori porta al cambiamento di tutti i coefficienti di regressione e può modificare anche il loro

ordinamento relativo. Inoltre, la scala dei valori di un predittore, influenza il valore del corrispondente

coefficiente di regressione. Per queste ragioni è utile procedere ad una standardizzazione di tutte le

variabili prima di procedere allo sviluppo di un modello di regressione. Questo possiamo farlo

trasformando la variabile categorica in un dummy (solo n-1 valori possono essere trasformati in un

dummy):

 1 se l’istanza assume un valore specifico;

 0 se l’istanza non assume un valore specifico. LEZIONE 14 9 maggio ’18

VALUTAZIONE DEI MODELLI DI REGRESSIONE

Esistono vari criteri per valutare la qualità e l’accuratezza predittiva di un modello di regressione

lineare. Andremo ad esaminare 5 criteri.

1. Significatività dei coefficienti: vediamo se sono significati o meno ovvero se l’intervallo di

confidenza contiene il valore 0: se 0 appartiene all&rsquo

Anteprima
Vedrai una selezione di 7 pagine su 30
Appunti presi a lezione di Modelli di e-business e business intelligence Pag. 1 Appunti presi a lezione di Modelli di e-business e business intelligence Pag. 2
Anteprima di 7 pagg. su 30.
Scarica il documento per vederlo tutto.
Appunti presi a lezione di Modelli di e-business e business intelligence Pag. 6
Anteprima di 7 pagg. su 30.
Scarica il documento per vederlo tutto.
Appunti presi a lezione di Modelli di e-business e business intelligence Pag. 11
Anteprima di 7 pagg. su 30.
Scarica il documento per vederlo tutto.
Appunti presi a lezione di Modelli di e-business e business intelligence Pag. 16
Anteprima di 7 pagg. su 30.
Scarica il documento per vederlo tutto.
Appunti presi a lezione di Modelli di e-business e business intelligence Pag. 21
Anteprima di 7 pagg. su 30.
Scarica il documento per vederlo tutto.
Appunti presi a lezione di Modelli di e-business e business intelligence Pag. 26
1 su 30
D/illustrazione/soddisfatti o rimborsati
Acquista con carta o PayPal
Scarica i documenti tutte le volte che vuoi
Dettagli
SSD
Ingegneria industriale e dell'informazione ING-IND/35 Ingegneria economico-gestionale

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher paolo.danza.9 di informazioni apprese con la frequenza delle lezioni di Modelli di e-business e business intelligence e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Politecnico di Bari o del prof Panniello Umberto.
Appunti correlati Invia appunti e guadagna

Domande e risposte

Hai bisogno di aiuto?
Chiedi alla community