Estratto del documento

Ne consegue che è consigliabile ogni volta, effettuare una PCA non sulle variabili di partenza che hanno

scale diverse, ma sulle variabili di partenza dopo che queste sono state standardizzate (abbiamo visto cosa

si intende per standardizzazione in una delle slide precedenti, ricordiamo brevemente che standardizzare

significa: sottrarre la media e dividerla per la deviazione standard).

Utilizzeremo noi in questo corso la PCA sempre sulle variabili standardizzate e non sulle variabili di partenza.

Facciamo notare che standardizzando le variabili otteniamo che le variabili standardizzate avranno tutte

variabilità unitarie (cioè la varianza e la deviazione standard diventerà 1 per tutte le variabili dopo la

standardizzazione) e quindi se sommiamo le varianze delle variabili standardizzate, delle p variabili

standardizzate, otteniamo cosa? 1+1+1+ p volte, la variabilità totale di partenza delle variabili dopo la

standardizzazione è pari a p. Le p variabili di partenza dopo essere state

standardizzate presentano, quindi abbiamo

detto variabilità totale pari a p, se noi

trattenessimo nella soluzione dell’analisi dei

componenti principali tutte le p componenti

ottenibili, chiaramente saremmo in grado di

riprodurre esattamente il 100% delle

informazioni di partenza (lo abbiamo visto anche

nella prima rappresentazione grafica della PCA)

però questo non è l’obiettivo della PCA.

L’obiettivo della PCA è quello di ridurre la dimensionalità del data set e quindi se partiamo da p variabili, ci

piacerebbe arrivare a una PCA che ci mostra una buona parte delle informazioni di partenza essere

condensata in poche unità, componenti principali.

Quindi è un’ operazione davvero molto importante quella di capire quante delle componenti principali è

opportuno trattenere nella nostra soluzione di PCA e che saranno poi portate avanti nelle analisi successive.

Esistono 3 criteri che vengono utilizzati per decidere quante delle componenti principali devono essere

utilizzate successivamente. Sono criteri convenzionali, non sono teorici quindi nessuno di questi 3 dà delle

informazioni definitive su qual è il numero ottimale di componenti da utilizzare. Solitamente vengono

utilizzati congiuntamente questi 3 criteri e non sono alternativi ma sono complementari l’uno all’altro.

Possono anche dare delle informazioni diverse, delle indicazioni diverse, i criteri possono indicare un numero

diverso di componenti da utilizzare, si dovrebbe alla fine decidere di trattenere un numero di componenti

che globalmente viene indicato come migliore da il maggior numero di questi criteri.

Vediamo quali sono questi criteri:

1. il primo criterio che si utilizza è quello di trattenere, attraverso le componenti che vogliamo utilizzare, una

quota di variabilità che spieghi almeno il 70/80% della variabilità di partenza, dando quindi con la

conseguenza che la rimanente parte 20/30% residuo non spiegato dalle componenti verrà scartato.

2. Secondo criterio che si utilizza di solito è quello di utilizzare le componenti le cui varianze sono superiori

a 1, quindi escludere le componenti le cui varianze sono inferiori a 1. Ricordiamo infatti che a seguito della

standardizzazione, la varianza delle variabili è 1 di ognuna delle variabili, quindi la varianza media delle

variabili di partenza è proprio 1. Di conseguenza questo criterio dice che: vogliamo escludere le componenti

la cui varianza è minore della media della varianza delle variabilità di partenza. E questo è un altro criterio

che spesso si utilizza in pratica.

3. Infine, si utilizza anche come ulteriore criterio un grafico che vien chiamato Scree plot (grafico piuttosto

famoso), è un grafico come vedremo nell’esempio numerico che mostra le varianze delle diverse

componenti, e in questo caso l’indicazione è quella di trattenere un numero di componenti che corrisponde

al punto nel grafico (nello scree plot) in cui la curva (che vedremo) forma un cosiddetto gomito, ovvero

mostra un cambio repentino d’inclinazione della curva.

Ripeteremo questi 3 criteri tra poco, quando vedremo la PCA all’opera su un esempio numerico, anzi

introduciamolo da subito. L’esempio che andremo a presentare riguarda la

cosiddetta Brand perception, cioè: la percezione da parte

dei consumatori delle caratteristiche, della qualità in

generale di un brand. In particolare considereremo le

valutazioni che sono state fornite da un campione di

consumatori su 10 diversi brand di un certo prodotto e per

ognuno di questi brand, ognuno degli individui intervistati

ha fornito le proprie percezioni su 9 diversi aspetti dei

prodotti, rispondendo a delle domande strutturare nel

modo seguente:

<<su una scala da 1 a 10 (dove 1 indica il

minimo e 10 il massimo) quanto valuti

quel particolare aspetto per il brand x, y

piuttosto che z?>> Ad esempio uno dei brand di questi item inclusi nel questionario è:

<<su una scala da 1 a 10 dove 1 indica il minimo e 10 il massimo, quanto valuti trandy il brand A?>>

Vediamo quali sono le caratteristiche e gli aspetti che

sono stati rilevati su questi 100 consumatori per ognuno

dei 10 brand. Sono quello elencati in questa slide:

perform → il brand ha ottime prestazioni, leader → il

brand è leader del settore, latest → il brand ha gli ultimi

prodotti, fun → il brand trasmette divertimento, serious

→ il brand appare come serio, bargain → i prodotti sono

un vero affare, value → i prodotti del brand hanno un

buon valore, trendy il brand è alla moda, rebuy →

comprerei ancora questo brand ed infine abbiamo anche

brand → ovvero informazioni su qual è il brand a cui ogni

risposta fa riferimento.

Nella prossima slide sono elencati alcuni indici di sintesi per ognuno dei brand che compongono il data set.

Videopillola 8 In particolare, vediamo in questa

slide alcuni indicatori di sintesi per

ognuna delle variabili disponibili

per tutti i brand e in fondo

nell’ultima parte sono riportate le

deviazioni standard delle diverse

variabili. Vediamo che le diverse

variabili hanno valori diversi per gli

indicatori e vi ricordo che le

valutazioni sono fornite tutte su

una scala che va da 1 a 10 con

gradi interi quindi: 1,2,3,4 fino a

10. Diciamo che l’unica

caratteristica su cui magari

possiamo soffermarci è il fatto che

le deviazioni standard delle

diverse variabili mostrano

chiaramente una variabilità diversa tra le variabili, con alcune variabili in particolari perform e latest che

mostrano una variabilità un po' più alta rispetto alle altre variabili. La variabile con la minore dispersione

sembra essere “value”.

Nelle slide successive, prima di andare avanti ricordiamo che è vero che in generale le dimensioni standard

non dovrebbero essere confrontate tra variabili, però notiamo che queste variabili in questo particolare

esempio sono tutte espresse usando la stessa unità di misura, data dal punteggio che va da 1 a 10 per cui in

questo caso specifico ha senso confrontare direttamente le deviazioni standard, in generale abbiamo detto

di no e sarebbe opportuno utilizzare il cosiddetto coefficiente di variazione.

Le slide successive mostrano altre

sintesi di questi dati in termini

grafici. Qui abbiamo dei

diagrammi a barre che mostrano

per ognuna delle variabili quante

volte sono state osservate

ognuno dei diversi valori da 1 a 10.

Non c’è molto da commentare su

questo grafico.

Il grafico

successivo mostra

esattamente la

stessa

informazione ma

invece che

aggregando tutti i

brand, si divide le

informazioni per

ognuno dei brand

da A a J, quindi

abbiamo i 10 brand

sulle colonne e le

diverse variabili

invece riportate

sulle

righe.

Infine un’informazione invece che è più

interessante, più utile, è rappresentata da

questo grafico che mostra le correlazioni

che sussistono tra le diverse variabili.

In particolare sono stati messi vicino tra

loro le variabili che sono maggiormente

tra loro correlate e in particolare vedete

che li abbiamo evidenziati con questi

cerchi, ci sono alcune variabili che tendono

a formare dei piccoli blocchi, cluster e

queste sono le variabili che tra loro sono

maggiormente correlate e che quindi

tendenzialmente ci aspetteremo daranno

origine alle corrispondenti componenti

principali. Quindi poiché, per capirci,

perform, leader e seriuos sono tra loro

abbastanza fortemente correlati (il blu e

azzurro indica delle correlazioni piuttosto

alte positive) questo significa che c’è

molta informazione che è condivisa da queste tre variabili e quindi molto probabilmente essendo correlate,

sovrapposte, ridondanti tra di loro, è molto probabile che la PCA estrarrà una componente che riassumerà

sostanzialmente le informazioni fornite da queste variabili che stiamo commentando. In modo simile, ci

sono le variabili rebuy, bargain e value che mostrano chiaramente una correlazione tra queste tre che è

particolarmente forte e quindi ci aspetteremo come ulteriore una delle componenti estratte dalla PCA, una

componente che andrà a caricare, a riassumere in modo particolare le informazioni fornite da queste tre

variabili e così via per i successivi.

Vediamo in particolare che fun è una variabile che sembra non essere molto correlata con nessuna delle

variabili, i cerchi più scuri che vedete sulla diagonale, ricordatevi che fanno riferimento al fatto che una

variabile è perfettamente correlata con sé stessa, quindi i cerchi più scuri non stanno fornendo in realtà

nessun tipo di informazione, sono i cerchi fuori dalla diagonale che indicano invece le correlazioni tra le

diverse coppie di variabili. Ricordatevi infatti che questo grafico non è altro che la rappresentazione grafica

di una matrice delle correlazioni che quindi è simmetrica. Come ultima analisi esplorativa, mostriamo

anche una mappa che riporta la media di ogni

variabile per i diversi brand. I colori più scuri

indicano valori più alti. Vediamo per esempio

che i brand che sono percepiti in modo diverso,

ad esempio i brand F e G che sono i due riportati

in alto nella mappa, appaiono come simili in

termini di valori medi poiché hanno dei valori

elevati di value e rebuy in media. I valori bassi

per latest e trendy che sono molto più chiari.

Questa informazione la utilizzeremo

successivamente per fare ulteriori valutazioni e

considerazioni.

Ora passiamo invece ad eseguire la PCA utilizzando

questi dati. Partendo dalle nove variabili di partenza,

abbiamo detto che il consiglio è sempre q

Anteprima
Vedrai una selezione di 10 pagine su 45
Business Data Science  Pag. 1 Business Data Science  Pag. 2
Anteprima di 10 pagg. su 45.
Scarica il documento per vederlo tutto.
Business Data Science  Pag. 6
Anteprima di 10 pagg. su 45.
Scarica il documento per vederlo tutto.
Business Data Science  Pag. 11
Anteprima di 10 pagg. su 45.
Scarica il documento per vederlo tutto.
Business Data Science  Pag. 16
Anteprima di 10 pagg. su 45.
Scarica il documento per vederlo tutto.
Business Data Science  Pag. 21
Anteprima di 10 pagg. su 45.
Scarica il documento per vederlo tutto.
Business Data Science  Pag. 26
Anteprima di 10 pagg. su 45.
Scarica il documento per vederlo tutto.
Business Data Science  Pag. 31
Anteprima di 10 pagg. su 45.
Scarica il documento per vederlo tutto.
Business Data Science  Pag. 36
Anteprima di 10 pagg. su 45.
Scarica il documento per vederlo tutto.
Business Data Science  Pag. 41
1 su 45
D/illustrazione/soddisfatti o rimborsati
Acquista con carta o PayPal
Scarica i documenti tutte le volte che vuoi
Dettagli
SSD
Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher ely98love di informazioni apprese con la frequenza delle lezioni di Business data science e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli studi di Torino o del prof Dovesi Roberto.
Appunti correlati Invia appunti e guadagna

Domande e risposte

Hai bisogno di aiuto?
Chiedi alla community