Anteprima
Vedrai una selezione di 14 pagine su 64
Appunti di Data mining e analisi multivariata Pag. 1 Appunti di Data mining e analisi multivariata Pag. 2
Anteprima di 14 pagg. su 64.
Scarica il documento per vederlo tutto.
Appunti di Data mining e analisi multivariata Pag. 6
Anteprima di 14 pagg. su 64.
Scarica il documento per vederlo tutto.
Appunti di Data mining e analisi multivariata Pag. 11
Anteprima di 14 pagg. su 64.
Scarica il documento per vederlo tutto.
Appunti di Data mining e analisi multivariata Pag. 16
Anteprima di 14 pagg. su 64.
Scarica il documento per vederlo tutto.
Appunti di Data mining e analisi multivariata Pag. 21
Anteprima di 14 pagg. su 64.
Scarica il documento per vederlo tutto.
Appunti di Data mining e analisi multivariata Pag. 26
Anteprima di 14 pagg. su 64.
Scarica il documento per vederlo tutto.
Appunti di Data mining e analisi multivariata Pag. 31
Anteprima di 14 pagg. su 64.
Scarica il documento per vederlo tutto.
Appunti di Data mining e analisi multivariata Pag. 36
Anteprima di 14 pagg. su 64.
Scarica il documento per vederlo tutto.
Appunti di Data mining e analisi multivariata Pag. 41
Anteprima di 14 pagg. su 64.
Scarica il documento per vederlo tutto.
Appunti di Data mining e analisi multivariata Pag. 46
Anteprima di 14 pagg. su 64.
Scarica il documento per vederlo tutto.
Appunti di Data mining e analisi multivariata Pag. 51
Anteprima di 14 pagg. su 64.
Scarica il documento per vederlo tutto.
Appunti di Data mining e analisi multivariata Pag. 56
Anteprima di 14 pagg. su 64.
Scarica il documento per vederlo tutto.
Appunti di Data mining e analisi multivariata Pag. 61
1 su 64
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

PROBLEMA

Si pone quindi il :

è possibile sostituire le p variabili originarie con un numero minore di variabili “artificiali” (k<<p)

(COMPONENTI PRINCIPALI) che garantiscono la MINOR PERDITA DI INFORMAZIONE POSSIBILE

Ossia, in termini geometrici, è possibile rappresentare le osservazioni, anziché nello spazio originario R ,

p

in uno spazio di dimensioni ridotte (R, R , R ,……), con una perdita limitata

2 3

d’informazione.

- Se la nuvola dei punti presentasse una forma ELLISSOIDALE

(simile ad un SIGARO) la dimensione più importante è la LUNGHEZZA,

per cui si possono trascurare le altre dimensioni. Tuttavia, la

sostituzione della retta allo spazio originario comporta una

perdita d’informazione.

Infatti, ad un generico punto appartenente alla nuvola si sostituisce

la sua PROIEZIONE sulla retta , con la conseguenza che punti

originariamente in posizioni opposte rispetto alla retta (e quindi

distanti in ) possono avere proiezioni molto vicine o addirittura

coincidenti su .

- Se la nuvola dei punti avesse la forma di OSSO DI SEPPIA, occorrerebbe tener conto di 2

dimensioni: LUNGHEZZA E LARGHEZZA, trascurando lo SPESSORE che è molto minore rispetto

alle altre 2 grandezze

- Se la nuvola dei punti assumesse la forma SFERICA (variabili incorrelate) non sarebbe

possibile nessuna riduzione delle dimensioni con limitata perdita d’informazione. Infatti tutte le

3 dimensioni (LUNGHEZZA, LARGHEZZA e SPESSORE) sono importanti.

Il discorso può generalizzarsi al caso in cui p>3

Osservazione

Si osserva che se le variabili sono tra loro CORRELATE, le dimensioni d’interesse sono in realtà

minori di p (spesso molto minori).

È quindi possibile sostituire a un nuovo spazio , con k<<p.

Risulta particolarmente utile il caso in cui k=2, poiché in tal caso le unità sono rappresentate

sul piano cartesiano e ciò facilita la lettura della CONFIGURAZIONE DEI DATI. 46

Definizione delle componenti principali

L’ACP è una metodologia statistica multivariata che, partendo da una matrice dei dati nxp con variabili

quantitative, consente di sostituire alle p variabili (tra loro correlate) un nuovo insieme di variabili

artificiali dette COMPONENTI PRINCIPALI (CP) che:

1. sono tra loro INCORRELATE (ORTOGONALI);

2. sono elencate in ordine decrescente rispetto alla loro varianza.

La prima CP è la COMBINAZIONE LINEARE delle p variabili di partenza avente MAX VARIANZA.

La seconda CP è la COMBINAZIONE LINEARE delle p variabili di partenza con VARIANZA

IMMEDIATAMENTE INFERIORE, soggetta al vincolo di essere ORTOGONALE alla CP precedente.

La terza CP …..etc….

Se le p variabili sono FORTEMENTE CORRELATE, un numero k<<p di CP tiene conto di una ELEVATA

QUOTA DI VARIANZA TOTALE. Quindi, possiamo considerare solo tali k CP, trascurando le restanti

p-k, ottenendo una SENSIBILE PARSIMONIA nella descrizione dei dati.

La DETERMINAZIONE DELLA 1° CP richiede l’individuazione del vettore p-dimensionale dei

coefficienti della seguente COMBINAZIONE LINEARE delle p variabili espresse in termini di

scostamento dalle loro medie:

Le soluzioni di tale problema di massimo sono però INFINITE PROPORZIONALI, poiché la combinazione

lineare contiene un FATTORE DI SCALA ARBITRARIO.

Al fine di individuare una SOLUZIONE FINITA, occorre quindi porre un VINCOLO SULLE COMPONENTI

DEL VETTORE , in modo da assicurarsi che nessuna di esse possa diventare il valore assoluto

infinitamente grande. Si considera quindi il VINCOLO DI NORMALIZZAZIONE: 47

che definisce l’EQUAZIONE CARATTERISTICA DELLA MATRICE S con p soluzioni chiamate AUTOVALORI.

Determinati gli autovalori da (2) e inseriti in (1) si ottiene così l’AUTOVETTORE e quindi la 1° CP .

Essendo la matrice di varianza e covarianza S SEMIDEFINITA POSITIVA, gli AUTOVALORI sono TUTTI

NON NEGATIVI. Inoltre poiché S è SIMMETRICA ammetterà solo SOLUZIONI REALI (NON COMPLESSE).

Ora, poiché l’obiettivo è la massimizzazione della varianza della 1° CP si

sceglie come λ1 il massimo degli autovalori, in quanto vale la seguente

uguaglianza 48

La DETERMINAZIONE DELLA 2° CP 49

Esempio (Il caso di due variabili) 50

51

52

53

54

Le componenti principali partendo dalla matrice di correlazione

Abbiamo finora applicato l’ACP sulla matrice di varianza e covarianza S.

Ciò ha senso se:

1. le variabili osservate sono espresse nella medesima unità di misura;

2. le variabili osservate sono dello stesso ordine di grandezza (infatti

un cambiamento di scala di una variabile modifica il valore della varianza totale e quindi influenza

fortemente i risultati dell’ACP.

Altrimenti occorre basare l’ACP sulla MATRICE DI CORRELAZIONE.

Infatti la difficoltà precedente viene superata considerando VARIABILI STANDARDIZZATE, che

equivale a basare l’ACP sulla MATRICE DI CORRELAZIONE.

Nelle APPLICAZIONI tale situazione è molto frequente.

Osservazione

Le CP del medesimo dataset ottenute dalla MATRICE DI VARIANZA E COVARIANZA o dalla

MATRICE DI CORRELAZIONE non sono le stesse.

Quindi la scelta della matrice su cui basare l’ACP è molto importante.

La procedura di calcolo delle CP basata sulla matrice di correlazione segue le linee già descritte ,

tenendo presente che la varianza totale di p variabili standardizzate è uguale a p: 55

56

I “punteggi” delle CP

Poiché le CP sono ottenute in ordine decrescente, i punteggi della 1° CP presentano MAGGIORE

VARIABILITA’ rispetto a quelli della 2° CP, e così via. Quindi, gli SCORES di ogni CP hanno lo

SVANTAGGIO di NON ESSERE DIRETTAMENTE COMPARABILI per CP differenti (alle quali

corrispondono autovalori diversi).

Per risolvere tale INCONVENIENTE si possono ricavare PUNTEGGI delle CP STANDARDIZZATI (con

media nulla e varianza unitaria), dividendo gli scorse per la radice quadrata del rispettivo autovalore.

Infatti, ad esempio: 57

La scelta del numero di CP

Come abbiamo visto, l’obiettivo dell’ACP è quello di ridurre le. dimensioni dello spazio

originario , rappresentando le unità in un nuovo spazio .

PROBLEMA: Come determinare il numero di CP k da considerare?

Basandoci sull’ACP condotta sulla matrice di correlazione, distinguiamo 3 CRITERI:

Quota di varianza totale spiegata

Scree-graph o Scree plot

Eigenvalue one o Regola di Kaiser.

Quota di varianza totale spiegata

Si considera un numero di CP tale che esse tengano conto di una percentuale sufficientemente

elevata (ad esempio, almeno l’80%) della varianza totale.

Questo criterio può essere perfezionato variando la soglia della percentuale suddetta in funzione del

numero di variabili originarie: al crescere di p aumenta la varianza totale e quindi può essere

ragionevole accontentarsi di una percentuale minore di varianza spiegata.

Scree-graph

Si costruisce un grafico, chiamato Scree-graph o Scree-plot, degli

autovalori λv in funzione del numero v di CP (v=1,…,p).

Essendo gli autovalori ottenuti in ordine decrescente, tale grafico si

presenta nella forma di una spezzata sempre discendente; se k CP sono

importanti e le restanti (p-k) trascurabili, tra k e k+1 si manifesta una

brusca variazione di pendenza (gomito), che segnala che k è il numero

opportuno di CP da considerare. Osservazione 2

Osservazione 1 Alcuni autori suggeriscono di escludere tra le CP

Non sempre l’andamento del grafico fornisce una scelte quelle sul gomito. Altri suggeriscono di

risposta univoca,poiché la diminuzione degli includere tra le CP scelte quelle sul gomito.

autovalori può essere graduale, senza salti

evidenti.

Eigenvalue one o Regola di Kaiser

Si considerano tutte le CP il cui autovalore è maggiore di 1.

La “ratio” di questo criterio deriva dal fatto che l’autovalore di una CP è uguale alla sua varianza e

che operando su variabili standardizzate queste hanno varianza unitaria. Pertanto, si decide di

mantenere una CP solo se essa spiega una quota di varianza totale maggiore di quella di una singola

variabile. 58

La scomposizione in valori singolari ed il biplot 59

In generale, è impossibile rappresentare in maniera accurata sia le osservazioni che le variabili in

due sole dimensioni. La scelta di determina la scala utilizzata per rappresentare le osservazioni e

l’interpretazione dei vettori nel biplot.

L’interpretazione del biplot dipende dal valore di

si possono scegliere i valori di αche consentono di conservare alcune proprietà dei dati multivariati.

Valori di comunemente scelti: 0, 1/2, 1. 60

Impiego dell'ACP per la sintesi della customer satisfaction

Obiettivo

L’ACP viene utilizzata per sintetizzare molteplici variabili (ad esempio, risposte

a domande sulla soddisfazione del cliente) in poche componenti principali.

Questo permette di identificare i principali fattori che spiegano la varianza nei dati, riducendo la

dimensionalità senza perdere informazioni significative.

Procedura

Dati grezzi:

Raccolta di dati sulla soddisfazione dei clienti (ad esempio, valutazioni su vari aspetti come

prezzo, qualità, servizio, ecc.).

Standardizzazione dei dati per rendere le variabili comparabili.

ACP:

Si calcolano le componenti principali, che rappresentano combinazioni lineari delle variabili originali.

Ogni componente spiega una percentuale della varianza totale nei dati.

Interpretazione:

Si selezionano le prime componenti principali che spiegano la maggior parte della varianza.

Si analizzano i “pesi” delle variabili originali per ogni componente, per capire cosa rappresentano.

Supponiamo di avere cinque variabili che misurano aspetti della soddisfazione del cliente:

Cortesia del personale, Velocità del servizio, Qualità del prodotto, Prezzo, Facilità di accesso.

L’ACP può rivelare che:

La prima componente principale (CP1) spiega il 60% della varianza ed è fortemente associata alla

“qualità del prodotto” e al “prezzo”.

La seconda componente principale (CP2) spiega il 20% ed è legata alla “velocità del servizio” e alla

“cortesia”.

Questo permette di concentrarsi su pochi fattori chiave per migliorare la soddisfazione. 61

Analisi delle corrispondenze

Introduzione

Partendo dalle tabelle di continenza 2x2 o rxc, è possibile utilizzare tecniche di analisi multivariata cqhe

tengono presente la relazione tra le modalità dei fenomeni qualitativi che stiamo investigando. Lo studio

congiunto di righe e colone di una tabella di contigenza avviene analizzando quali siano le relazioni tra le

frequenze di ogni riga e colonna chiamati profili riga e profili colonna.

Questa metodologia prede il nome di Analisi dell

Dettagli
Publisher
A.A. 2024-2025
64 pagine
SSD Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher stasiliok di informazioni apprese con la frequenza delle lezioni di Analisi multivariata e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli studi di Torino o del prof Golini Natalia.