ANALISI GRAFICA
Esistono diversi tipi di visualizzazione grafica che permettono di studiare la correlazione tra due
attributi. Iniziamo con il diagramma di dispersione. Un diagramma di dispersione (Scatterplot)
costituisce la più importante rappresentazione grafica del legame che esiste tra due attributi numerici.
sull’asse delle ascisse il
Si tratta di un diagramma cartesiano bidimensionale realizzando collocando
primo attributo che aj e sull’asse delle ordinate il secondo attributo ak.
Ogni punto rappresenta un’istanza. Abbiamo una densità di valori più bassi ma abbiamo una relazione
in figura, infatti, mostra l’intensità di legame di tendenza
lineare con tutti valori positivi. Il diagramma
crescente tra i due attributi. I diagrammi di dispersione possono risultare confusi ed inefficaci quando
il numero di osservazioni m è molto elevato.
Come nel caso dell’analisi univariate, è utile introdurre accanto ai metodi grafici anche indicatori che
esprimono la natura e l’intensità del legame tra attributi numerici.
COVARIANZA
Date le coppie di attributi aj e ak. L’indice di covarianza campionaria è definito come:
immediata. Possiamo avere valori positivi e quindi c’è la
La covarianza ha un’interpretazione
concordanza tra i 2 attributi e valori negativi e quindi c’è la discordanza tra i 2 attributi. Possiamo
vedere se tra i due attributi considerati sono presenti delle correlazioni o meno. Il problema della
covarianza è che la scala è diversa e quindi non possiamo misurare l’intensità della relazione tra i 2
attributi, ma possiamo vedere solo se c’è concordanza o discordanza (lo vediamo andando a studiare
i valori positivi o negativi della covarianza). Per vedere se abbiamo intensità della relazione tra i due
attributi dobbiamo introdurre un concetto nuovo ovvero il Pearson Coefficient ovvero la
Correlazione che ha un range compreso tra -1 ed +1. In questo modo è possibile comparare i due
attributi perché hanno la stessa scala. Il coefficiente di Pearson possiamo definirlo:
dove σj e σk sono rispettivamente le deviazioni campionarie di aj e ak.
Le principali proprietà del coefficiente di correlazione (coefficiente di Pearson Coefficient) sono:
Se rjk >0 tra gli attributi si ha concordanza.
Facciamo riferimento per la spiegazione alle
immagini sotto indicate: vediamo che la
concordanza positiva ce l’abbiamo tra (a) e
(c). la concordanza è approssimata ad una
linea crescente. In (c) i valori sono più lontani
e non c’è una correlazione positiva così forte;
Se rjk <0 tra gli attributi abbiamo discordanza.
Faremo lo stesso discorso fatto in precedenza
tra l’immagine (b) e (d);
Se rjk=0 tra gli attributi non si manifesta alcun
legame di natura lineare. Gli attributi
cambiamo in maniera totalmente casuale (e).
Nell’immagine (f), invece abbiamo ma
abbiamo una relazione solo che non è lineare
e quindi possiamo vedere una curva.
(Quaderno esempio sconti-acquisti)
ANALISI MULTIVARIATA
L’analisi multivariata si propone di estendere le nozioni introdotte nel caso bivariato per valutare le
relazioni che sussistono tra molteplici attributi di un dataset. Dal momento che i diagrammi di
dispersione consentono di cogliere in modo intuitivo i legami tra le coppie di attributi numerici, nel
caso dell’analisi multivariata risulta naturale ricorrere a matrici di diagrammi valutati per tutte le
coppie di variabili numeriche. Vediamo quindi:
La figura illustra il tipo di rappresentazione grafica per gli attributi numin, timein, numout, Paltri,
Pmob, Pfisso e numsms. Questa tabella possiamo vederla su Weka andando su visualize in alto e
successivamente ci compare la matrice con gli attributi. Cliccando su update verranno fuori tutti i
valori necessari per la nostra analisi.
REGRESSIONE
La parte di Data Exploration è la parte passiva della Business Intelligence. Il passo successivo è
analizzare la parte attiva ovvero la Regressione. I modelli di regressione che saranno trattati qui
rappresentano i modelli di stima più importanti. Lo sviluppo di un modello di stima permette ai
knowledge worker di acquisire una migliore comprensione del fenomeno analizzato e consente di
valutare gli effetti determinati sull’attributo target da diverse combinazioni di valori assegnati ai
Questo è molto importante soprattutto per l’analisi degli attributi che costituiscono
rimanenti attributi.
leve di controllo a disposizione del decision maker.
Ad esempio possiamo pensare ad un modello di stima che si propone di interpretare le vendite di un
prodotto sulla base degli investimenti pubblicitari intrapresi attraverso diversi canali di
comunicazione come ad esempio quotidiani, periodici e tv. Il decision maker può utilizzare il modello
per valutare l’importanza relativa dei diversi canali e orientare gli investimenti futuri verso i media
che sembrano più efficaci.
Stiamo parlando di un set di dati costituito da osservazioni passate per le quali sono noti il valore
degli attributi esplicativi e il valore della variabile target numerica continua.
L’obiettivo dei modelli di stima, che vengono detti anche modelli esplicativi, consentono di
evidenziare ed interpretare la dipendenza della variabile target dalle altre variabili ed inoltre
permettono di predire il valore futuro dell’attributo target, in
virtù del legame funzionale ricavato e del valore futuro degli
attributi esplicativi.
Supponiamo di avere un dataset costituito da m osservazioni
e da n+1 attributi tra i quali troviamo una variabile target e le
rimanenti n variabili che possono svolgere un ruolo
nei confronti del target. Diremo che l’attributo
esplicativo
target è denominato variabile dipendente, risposta o uscita e
le altre variabili esplicative sono variabili indipendenti o
predittori.
REGRESSIONE LINEARE SEMPLICE
I modelli di regressione lineare sono la classe più nota di modelli di stima. Avremo un’unica variabile
indipendente e quini n=1. In questo modo quindi il modello di regressione viene detto semplice e si
= +
riduce alla relazione dove sappiamo che X( della moltiplicazione) è quella della post
osservazioni. La Y indica la class variable dove è necessario considerare se la variabile è numerica
oppure categorica. Se la variabile è numerica posso applicarla, altrimenti se la variabile è categorica
non posso usarla e quindi ricorro alla Classification.
È difficile avere una relazione lineare pura e quindi è necessario prendere in considerazione gli errori.
Consideriamo adesso un esempio. Un’azienda manifatturiera realizza prodotti alimentari, e vuole
analizzare il legame che intercorre tra il costo mensile Y di produzione e il corrispondente volume
produttivo X per uno dei propri stabilimenti. La tabella di seguito indica le coppie di valori (xi, yi),
registrati nel corso di 14 mesi. Il volume è espresso in tonnellate di prodotto e il costo in migliaia di
euro. Come possiamo notare la retta di regressione, indicata nel diagramma di dispersione,
approssima mediante un legame lineare la relazione tra volume e costo di produzione. I coefficienti
della retta possiamo interpretarli in maniera economica molto rilevante sul piano gestionale:
l’intercetta b=1,3641 K euro costituisce una stima a posteriori dei costi fissi di produzione, mentre il
coefficiente angolore ω=0,2903Keuro/ton rappresenta la stima dei costi variabili
In generale però è molto difficile avere una regressione lineare semplice tra due variabili e per questo
dove ε indica una variabile casuale,
= + +
motivo viene introdotta una nuova equazione:
indicata come scarto oppure errore.
L’errore è calcolato attraverso i ‘residuals’, vale a dire i segmenti verticali che si discostano dalla
retta lineare: più sono vicini a questa e quindi i segmenti sono corti e più il modello è accurato.
Inoltre, l'errore deve essere casuale ovvero il risultato dell'azione di innumerevoli variabili
indipendenti escluse dal modello, ognuna delle quali ha un effetto trascurabile sull'attributo target. In
caso contrario, esiste una relazione tra la variabile target e le variabili non considerate -> Y cresce e
l’errore cresce a sua volta.
Tra i possibili criteri per determinare i coefficienti di regressione ω e b, il più noto e intuitivo consiste
nel minimizzare la somma dei quadrati degli errori, espressi dalla funzione SSE ( sum of squared
errors):
REGRESSIONE LINEARE MULTIPLA
Dopo aver analizzato la regressione lineare semplice, è necessaria descrivere la regressione lineare
multipla per la quale il numero n di variabili indipendenti è maggiore di uno.
Possiamo fornire un’interpretazione dei coefficienti angolari ωj che sono presenti nel modello di
regressione multipla. Se infatti la variabile esplicativa Xj viene incrementata di un’unità, mentre tutte
le rimanenti variabili esplicative vengono mantenute al loro valore, la variabile di risposta Y subisce
una variazione pari a ωj. Se si analizza una variabile target che indica le vendite di un prodotto in
relazione agli investimenti pubblicitari realizzati attraverso diversi canali mediatici di comunicazione,
i valori dei coefficienti di regressione possono fornire un’indicazione della convenienza relativa dei
diversi canali e quindi possono essere utilizzati per guidare le scelte relative a campagne di marketing
future. valore di ciascun coefficiente dipende dall’intero insieme di
È importante tenere presente che il
variabili esplicative e quindi la rimozione di alcune variabili piuttosto che l’introduzione di nuovi
predittori porta al cambiamento di tutti i coefficienti di regressione e può modificare anche il loro
ordinamento relativo. Inoltre, la scala dei valori di un predittore, influenza il valore del corrispondente
coefficiente di regressione. Per queste ragioni è utile procedere ad una standardizzazione di tutte le
variabili prima di procedere allo sviluppo di un modello di regressione. Questo possiamo farlo
trasformando la variabile categorica in un dummy (solo n-1 valori possono essere trasformati in un
dummy):
1 se l’istanza assume un valore specifico;
0 se l’istanza non assume un valore specifico. LEZIONE 14 9 maggio ’18
VALUTAZIONE DEI MODELLI DI REGRESSIONE
Esistono vari criteri per valutare la qualità e l’accuratezza predittiva di un modello di regressione
lineare. Andremo ad esaminare 5 criteri.
1. Significatività dei coefficienti: vediamo se sono significati o meno ovvero se l’intervallo di
confidenza contiene il valore 0: se 0 appartiene all&rsquo
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
-
Appunti presi a lezione di Modelli di e-business e business intelligence
-
Appunti presi a lezione di Modelli di e-business e business intelligence
-
Appunti presi a lezione di Modelli di e-business e business intelligence
-
Appunti presi a lezione di Modelli di e-business e business intelligence