Ne consegue che è consigliabile ogni volta, effettuare una PCA non sulle variabili di partenza che hanno
scale diverse, ma sulle variabili di partenza dopo che queste sono state standardizzate (abbiamo visto cosa
si intende per standardizzazione in una delle slide precedenti, ricordiamo brevemente che standardizzare
significa: sottrarre la media e dividerla per la deviazione standard).
Utilizzeremo noi in questo corso la PCA sempre sulle variabili standardizzate e non sulle variabili di partenza.
Facciamo notare che standardizzando le variabili otteniamo che le variabili standardizzate avranno tutte
variabilità unitarie (cioè la varianza e la deviazione standard diventerà 1 per tutte le variabili dopo la
standardizzazione) e quindi se sommiamo le varianze delle variabili standardizzate, delle p variabili
standardizzate, otteniamo cosa? 1+1+1+ p volte, la variabilità totale di partenza delle variabili dopo la
standardizzazione è pari a p. Le p variabili di partenza dopo essere state
standardizzate presentano, quindi abbiamo
detto variabilità totale pari a p, se noi
trattenessimo nella soluzione dell’analisi dei
componenti principali tutte le p componenti
ottenibili, chiaramente saremmo in grado di
riprodurre esattamente il 100% delle
informazioni di partenza (lo abbiamo visto anche
nella prima rappresentazione grafica della PCA)
però questo non è l’obiettivo della PCA.
L’obiettivo della PCA è quello di ridurre la dimensionalità del data set e quindi se partiamo da p variabili, ci
piacerebbe arrivare a una PCA che ci mostra una buona parte delle informazioni di partenza essere
condensata in poche unità, componenti principali.
Quindi è un’ operazione davvero molto importante quella di capire quante delle componenti principali è
opportuno trattenere nella nostra soluzione di PCA e che saranno poi portate avanti nelle analisi successive.
Esistono 3 criteri che vengono utilizzati per decidere quante delle componenti principali devono essere
utilizzate successivamente. Sono criteri convenzionali, non sono teorici quindi nessuno di questi 3 dà delle
informazioni definitive su qual è il numero ottimale di componenti da utilizzare. Solitamente vengono
utilizzati congiuntamente questi 3 criteri e non sono alternativi ma sono complementari l’uno all’altro.
Possono anche dare delle informazioni diverse, delle indicazioni diverse, i criteri possono indicare un numero
diverso di componenti da utilizzare, si dovrebbe alla fine decidere di trattenere un numero di componenti
che globalmente viene indicato come migliore da il maggior numero di questi criteri.
Vediamo quali sono questi criteri:
1. il primo criterio che si utilizza è quello di trattenere, attraverso le componenti che vogliamo utilizzare, una
quota di variabilità che spieghi almeno il 70/80% della variabilità di partenza, dando quindi con la
conseguenza che la rimanente parte 20/30% residuo non spiegato dalle componenti verrà scartato.
2. Secondo criterio che si utilizza di solito è quello di utilizzare le componenti le cui varianze sono superiori
a 1, quindi escludere le componenti le cui varianze sono inferiori a 1. Ricordiamo infatti che a seguito della
standardizzazione, la varianza delle variabili è 1 di ognuna delle variabili, quindi la varianza media delle
variabili di partenza è proprio 1. Di conseguenza questo criterio dice che: vogliamo escludere le componenti
la cui varianza è minore della media della varianza delle variabilità di partenza. E questo è un altro criterio
che spesso si utilizza in pratica.
3. Infine, si utilizza anche come ulteriore criterio un grafico che vien chiamato Scree plot (grafico piuttosto
famoso), è un grafico come vedremo nell’esempio numerico che mostra le varianze delle diverse
componenti, e in questo caso l’indicazione è quella di trattenere un numero di componenti che corrisponde
al punto nel grafico (nello scree plot) in cui la curva (che vedremo) forma un cosiddetto gomito, ovvero
mostra un cambio repentino d’inclinazione della curva.
Ripeteremo questi 3 criteri tra poco, quando vedremo la PCA all’opera su un esempio numerico, anzi
introduciamolo da subito. L’esempio che andremo a presentare riguarda la
cosiddetta Brand perception, cioè: la percezione da parte
dei consumatori delle caratteristiche, della qualità in
generale di un brand. In particolare considereremo le
valutazioni che sono state fornite da un campione di
consumatori su 10 diversi brand di un certo prodotto e per
ognuno di questi brand, ognuno degli individui intervistati
ha fornito le proprie percezioni su 9 diversi aspetti dei
prodotti, rispondendo a delle domande strutturare nel
modo seguente:
<<su una scala da 1 a 10 (dove 1 indica il
minimo e 10 il massimo) quanto valuti
quel particolare aspetto per il brand x, y
piuttosto che z?>> Ad esempio uno dei brand di questi item inclusi nel questionario è:
<<su una scala da 1 a 10 dove 1 indica il minimo e 10 il massimo, quanto valuti trandy il brand A?>>
Vediamo quali sono le caratteristiche e gli aspetti che
sono stati rilevati su questi 100 consumatori per ognuno
dei 10 brand. Sono quello elencati in questa slide:
perform → il brand ha ottime prestazioni, leader → il
brand è leader del settore, latest → il brand ha gli ultimi
prodotti, fun → il brand trasmette divertimento, serious
→ il brand appare come serio, bargain → i prodotti sono
un vero affare, value → i prodotti del brand hanno un
buon valore, trendy il brand è alla moda, rebuy →
comprerei ancora questo brand ed infine abbiamo anche
brand → ovvero informazioni su qual è il brand a cui ogni
risposta fa riferimento.
Nella prossima slide sono elencati alcuni indici di sintesi per ognuno dei brand che compongono il data set.
Videopillola 8 In particolare, vediamo in questa
slide alcuni indicatori di sintesi per
ognuna delle variabili disponibili
per tutti i brand e in fondo
nell’ultima parte sono riportate le
deviazioni standard delle diverse
variabili. Vediamo che le diverse
variabili hanno valori diversi per gli
indicatori e vi ricordo che le
valutazioni sono fornite tutte su
una scala che va da 1 a 10 con
gradi interi quindi: 1,2,3,4 fino a
10. Diciamo che l’unica
caratteristica su cui magari
possiamo soffermarci è il fatto che
le deviazioni standard delle
diverse variabili mostrano
chiaramente una variabilità diversa tra le variabili, con alcune variabili in particolari perform e latest che
mostrano una variabilità un po' più alta rispetto alle altre variabili. La variabile con la minore dispersione
sembra essere “value”.
Nelle slide successive, prima di andare avanti ricordiamo che è vero che in generale le dimensioni standard
non dovrebbero essere confrontate tra variabili, però notiamo che queste variabili in questo particolare
esempio sono tutte espresse usando la stessa unità di misura, data dal punteggio che va da 1 a 10 per cui in
questo caso specifico ha senso confrontare direttamente le deviazioni standard, in generale abbiamo detto
di no e sarebbe opportuno utilizzare il cosiddetto coefficiente di variazione.
Le slide successive mostrano altre
sintesi di questi dati in termini
grafici. Qui abbiamo dei
diagrammi a barre che mostrano
per ognuna delle variabili quante
volte sono state osservate
ognuno dei diversi valori da 1 a 10.
Non c’è molto da commentare su
questo grafico.
Il grafico
successivo mostra
esattamente la
stessa
informazione ma
invece che
aggregando tutti i
brand, si divide le
informazioni per
ognuno dei brand
da A a J, quindi
abbiamo i 10 brand
sulle colonne e le
diverse variabili
invece riportate
sulle
righe.
Infine un’informazione invece che è più
interessante, più utile, è rappresentata da
questo grafico che mostra le correlazioni
che sussistono tra le diverse variabili.
In particolare sono stati messi vicino tra
loro le variabili che sono maggiormente
tra loro correlate e in particolare vedete
che li abbiamo evidenziati con questi
cerchi, ci sono alcune variabili che tendono
a formare dei piccoli blocchi, cluster e
queste sono le variabili che tra loro sono
maggiormente correlate e che quindi
tendenzialmente ci aspetteremo daranno
origine alle corrispondenti componenti
principali. Quindi poiché, per capirci,
perform, leader e seriuos sono tra loro
abbastanza fortemente correlati (il blu e
azzurro indica delle correlazioni piuttosto
alte positive) questo significa che c’è
molta informazione che è condivisa da queste tre variabili e quindi molto probabilmente essendo correlate,
sovrapposte, ridondanti tra di loro, è molto probabile che la PCA estrarrà una componente che riassumerà
sostanzialmente le informazioni fornite da queste variabili che stiamo commentando. In modo simile, ci
sono le variabili rebuy, bargain e value che mostrano chiaramente una correlazione tra queste tre che è
particolarmente forte e quindi ci aspetteremo come ulteriore una delle componenti estratte dalla PCA, una
componente che andrà a caricare, a riassumere in modo particolare le informazioni fornite da queste tre
variabili e così via per i successivi.
Vediamo in particolare che fun è una variabile che sembra non essere molto correlata con nessuna delle
variabili, i cerchi più scuri che vedete sulla diagonale, ricordatevi che fanno riferimento al fatto che una
variabile è perfettamente correlata con sé stessa, quindi i cerchi più scuri non stanno fornendo in realtà
nessun tipo di informazione, sono i cerchi fuori dalla diagonale che indicano invece le correlazioni tra le
diverse coppie di variabili. Ricordatevi infatti che questo grafico non è altro che la rappresentazione grafica
di una matrice delle correlazioni che quindi è simmetrica. Come ultima analisi esplorativa, mostriamo
anche una mappa che riporta la media di ogni
variabile per i diversi brand. I colori più scuri
indicano valori più alti. Vediamo per esempio
che i brand che sono percepiti in modo diverso,
ad esempio i brand F e G che sono i due riportati
in alto nella mappa, appaiono come simili in
termini di valori medi poiché hanno dei valori
elevati di value e rebuy in media. I valori bassi
per latest e trendy che sono molto più chiari.
Questa informazione la utilizzeremo
successivamente per fare ulteriori valutazioni e
considerazioni.
Ora passiamo invece ad eseguire la PCA utilizzando
questi dati. Partendo dalle nove variabili di partenza,
abbiamo detto che il consiglio è sempre q
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.