Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
PROBLEMA
Si pone quindi il :
è possibile sostituire le p variabili originarie con un numero minore di variabili “artificiali” (k<<p)
(COMPONENTI PRINCIPALI) che garantiscono la MINOR PERDITA DI INFORMAZIONE POSSIBILE
Ossia, in termini geometrici, è possibile rappresentare le osservazioni, anziché nello spazio originario R ,
p
in uno spazio di dimensioni ridotte (R, R , R ,……), con una perdita limitata
2 3
d’informazione.
- Se la nuvola dei punti presentasse una forma ELLISSOIDALE
(simile ad un SIGARO) la dimensione più importante è la LUNGHEZZA,
per cui si possono trascurare le altre dimensioni. Tuttavia, la
sostituzione della retta allo spazio originario comporta una
perdita d’informazione.
Infatti, ad un generico punto appartenente alla nuvola si sostituisce
la sua PROIEZIONE sulla retta , con la conseguenza che punti
originariamente in posizioni opposte rispetto alla retta (e quindi
distanti in ) possono avere proiezioni molto vicine o addirittura
coincidenti su .
- Se la nuvola dei punti avesse la forma di OSSO DI SEPPIA, occorrerebbe tener conto di 2
dimensioni: LUNGHEZZA E LARGHEZZA, trascurando lo SPESSORE che è molto minore rispetto
alle altre 2 grandezze
- Se la nuvola dei punti assumesse la forma SFERICA (variabili incorrelate) non sarebbe
possibile nessuna riduzione delle dimensioni con limitata perdita d’informazione. Infatti tutte le
3 dimensioni (LUNGHEZZA, LARGHEZZA e SPESSORE) sono importanti.
Il discorso può generalizzarsi al caso in cui p>3
Osservazione
Si osserva che se le variabili sono tra loro CORRELATE, le dimensioni d’interesse sono in realtà
minori di p (spesso molto minori).
È quindi possibile sostituire a un nuovo spazio , con k<<p.
Risulta particolarmente utile il caso in cui k=2, poiché in tal caso le unità sono rappresentate
sul piano cartesiano e ciò facilita la lettura della CONFIGURAZIONE DEI DATI. 46
Definizione delle componenti principali
L’ACP è una metodologia statistica multivariata che, partendo da una matrice dei dati nxp con variabili
quantitative, consente di sostituire alle p variabili (tra loro correlate) un nuovo insieme di variabili
artificiali dette COMPONENTI PRINCIPALI (CP) che:
1. sono tra loro INCORRELATE (ORTOGONALI);
2. sono elencate in ordine decrescente rispetto alla loro varianza.
La prima CP è la COMBINAZIONE LINEARE delle p variabili di partenza avente MAX VARIANZA.
La seconda CP è la COMBINAZIONE LINEARE delle p variabili di partenza con VARIANZA
IMMEDIATAMENTE INFERIORE, soggetta al vincolo di essere ORTOGONALE alla CP precedente.
La terza CP …..etc….
Se le p variabili sono FORTEMENTE CORRELATE, un numero k<<p di CP tiene conto di una ELEVATA
QUOTA DI VARIANZA TOTALE. Quindi, possiamo considerare solo tali k CP, trascurando le restanti
p-k, ottenendo una SENSIBILE PARSIMONIA nella descrizione dei dati.
La DETERMINAZIONE DELLA 1° CP richiede l’individuazione del vettore p-dimensionale dei
coefficienti della seguente COMBINAZIONE LINEARE delle p variabili espresse in termini di
scostamento dalle loro medie:
Le soluzioni di tale problema di massimo sono però INFINITE PROPORZIONALI, poiché la combinazione
lineare contiene un FATTORE DI SCALA ARBITRARIO.
Al fine di individuare una SOLUZIONE FINITA, occorre quindi porre un VINCOLO SULLE COMPONENTI
DEL VETTORE , in modo da assicurarsi che nessuna di esse possa diventare il valore assoluto
infinitamente grande. Si considera quindi il VINCOLO DI NORMALIZZAZIONE: 47
che definisce l’EQUAZIONE CARATTERISTICA DELLA MATRICE S con p soluzioni chiamate AUTOVALORI.
Determinati gli autovalori da (2) e inseriti in (1) si ottiene così l’AUTOVETTORE e quindi la 1° CP .
Essendo la matrice di varianza e covarianza S SEMIDEFINITA POSITIVA, gli AUTOVALORI sono TUTTI
NON NEGATIVI. Inoltre poiché S è SIMMETRICA ammetterà solo SOLUZIONI REALI (NON COMPLESSE).
Ora, poiché l’obiettivo è la massimizzazione della varianza della 1° CP si
sceglie come λ1 il massimo degli autovalori, in quanto vale la seguente
uguaglianza 48
La DETERMINAZIONE DELLA 2° CP 49
Esempio (Il caso di due variabili) 50
51
52
53
54
Le componenti principali partendo dalla matrice di correlazione
Abbiamo finora applicato l’ACP sulla matrice di varianza e covarianza S.
Ciò ha senso se:
1. le variabili osservate sono espresse nella medesima unità di misura;
2. le variabili osservate sono dello stesso ordine di grandezza (infatti
un cambiamento di scala di una variabile modifica il valore della varianza totale e quindi influenza
fortemente i risultati dell’ACP.
Altrimenti occorre basare l’ACP sulla MATRICE DI CORRELAZIONE.
Infatti la difficoltà precedente viene superata considerando VARIABILI STANDARDIZZATE, che
equivale a basare l’ACP sulla MATRICE DI CORRELAZIONE.
Nelle APPLICAZIONI tale situazione è molto frequente.
Osservazione
Le CP del medesimo dataset ottenute dalla MATRICE DI VARIANZA E COVARIANZA o dalla
MATRICE DI CORRELAZIONE non sono le stesse.
Quindi la scelta della matrice su cui basare l’ACP è molto importante.
La procedura di calcolo delle CP basata sulla matrice di correlazione segue le linee già descritte ,
tenendo presente che la varianza totale di p variabili standardizzate è uguale a p: 55
56
I “punteggi” delle CP
Poiché le CP sono ottenute in ordine decrescente, i punteggi della 1° CP presentano MAGGIORE
VARIABILITA’ rispetto a quelli della 2° CP, e così via. Quindi, gli SCORES di ogni CP hanno lo
SVANTAGGIO di NON ESSERE DIRETTAMENTE COMPARABILI per CP differenti (alle quali
corrispondono autovalori diversi).
Per risolvere tale INCONVENIENTE si possono ricavare PUNTEGGI delle CP STANDARDIZZATI (con
media nulla e varianza unitaria), dividendo gli scorse per la radice quadrata del rispettivo autovalore.
Infatti, ad esempio: 57
La scelta del numero di CP
Come abbiamo visto, l’obiettivo dell’ACP è quello di ridurre le. dimensioni dello spazio
originario , rappresentando le unità in un nuovo spazio .
PROBLEMA: Come determinare il numero di CP k da considerare?
Basandoci sull’ACP condotta sulla matrice di correlazione, distinguiamo 3 CRITERI:
Quota di varianza totale spiegata
Scree-graph o Scree plot
Eigenvalue one o Regola di Kaiser.
Quota di varianza totale spiegata
Si considera un numero di CP tale che esse tengano conto di una percentuale sufficientemente
elevata (ad esempio, almeno l’80%) della varianza totale.
Questo criterio può essere perfezionato variando la soglia della percentuale suddetta in funzione del
numero di variabili originarie: al crescere di p aumenta la varianza totale e quindi può essere
ragionevole accontentarsi di una percentuale minore di varianza spiegata.
Scree-graph
Si costruisce un grafico, chiamato Scree-graph o Scree-plot, degli
autovalori λv in funzione del numero v di CP (v=1,…,p).
Essendo gli autovalori ottenuti in ordine decrescente, tale grafico si
presenta nella forma di una spezzata sempre discendente; se k CP sono
importanti e le restanti (p-k) trascurabili, tra k e k+1 si manifesta una
brusca variazione di pendenza (gomito), che segnala che k è il numero
opportuno di CP da considerare. Osservazione 2
Osservazione 1 Alcuni autori suggeriscono di escludere tra le CP
Non sempre l’andamento del grafico fornisce una scelte quelle sul gomito. Altri suggeriscono di
risposta univoca,poiché la diminuzione degli includere tra le CP scelte quelle sul gomito.
autovalori può essere graduale, senza salti
evidenti.
Eigenvalue one o Regola di Kaiser
Si considerano tutte le CP il cui autovalore è maggiore di 1.
La “ratio” di questo criterio deriva dal fatto che l’autovalore di una CP è uguale alla sua varianza e
che operando su variabili standardizzate queste hanno varianza unitaria. Pertanto, si decide di
mantenere una CP solo se essa spiega una quota di varianza totale maggiore di quella di una singola
variabile. 58
La scomposizione in valori singolari ed il biplot 59
In generale, è impossibile rappresentare in maniera accurata sia le osservazioni che le variabili in
due sole dimensioni. La scelta di determina la scala utilizzata per rappresentare le osservazioni e
l’interpretazione dei vettori nel biplot.
L’interpretazione del biplot dipende dal valore di
si possono scegliere i valori di αche consentono di conservare alcune proprietà dei dati multivariati.
Valori di comunemente scelti: 0, 1/2, 1. 60
Impiego dell'ACP per la sintesi della customer satisfaction
Obiettivo
L’ACP viene utilizzata per sintetizzare molteplici variabili (ad esempio, risposte
a domande sulla soddisfazione del cliente) in poche componenti principali.
Questo permette di identificare i principali fattori che spiegano la varianza nei dati, riducendo la
dimensionalità senza perdere informazioni significative.
Procedura
Dati grezzi:
Raccolta di dati sulla soddisfazione dei clienti (ad esempio, valutazioni su vari aspetti come
prezzo, qualità, servizio, ecc.).
Standardizzazione dei dati per rendere le variabili comparabili.
ACP:
Si calcolano le componenti principali, che rappresentano combinazioni lineari delle variabili originali.
Ogni componente spiega una percentuale della varianza totale nei dati.
Interpretazione:
Si selezionano le prime componenti principali che spiegano la maggior parte della varianza.
Si analizzano i “pesi” delle variabili originali per ogni componente, per capire cosa rappresentano.
Supponiamo di avere cinque variabili che misurano aspetti della soddisfazione del cliente:
Cortesia del personale, Velocità del servizio, Qualità del prodotto, Prezzo, Facilità di accesso.
L’ACP può rivelare che:
La prima componente principale (CP1) spiega il 60% della varianza ed è fortemente associata alla
“qualità del prodotto” e al “prezzo”.
La seconda componente principale (CP2) spiega il 20% ed è legata alla “velocità del servizio” e alla
“cortesia”.
Questo permette di concentrarsi su pochi fattori chiave per migliorare la soddisfazione. 61
Analisi delle corrispondenze
Introduzione
Partendo dalle tabelle di continenza 2x2 o rxc, è possibile utilizzare tecniche di analisi multivariata cqhe
tengono presente la relazione tra le modalità dei fenomeni qualitativi che stiamo investigando. Lo studio
congiunto di righe e colone di una tabella di contigenza avviene analizzando quali siano le relazioni tra le
frequenze di ogni riga e colonna chiamati profili riga e profili colonna.
Questa metodologia prede il nome di Analisi dell