Anteprima
Vedrai una selezione di 20 pagine su 108
Appunti completi di teoria e consigli per l'esame  di Business data science Pag. 1 Appunti completi di teoria e consigli per l'esame  di Business data science Pag. 2
Anteprima di 20 pagg. su 108.
Scarica il documento per vederlo tutto.
Appunti completi di teoria e consigli per l'esame  di Business data science Pag. 6
Anteprima di 20 pagg. su 108.
Scarica il documento per vederlo tutto.
Appunti completi di teoria e consigli per l'esame  di Business data science Pag. 11
Anteprima di 20 pagg. su 108.
Scarica il documento per vederlo tutto.
Appunti completi di teoria e consigli per l'esame  di Business data science Pag. 16
Anteprima di 20 pagg. su 108.
Scarica il documento per vederlo tutto.
Appunti completi di teoria e consigli per l'esame  di Business data science Pag. 21
Anteprima di 20 pagg. su 108.
Scarica il documento per vederlo tutto.
Appunti completi di teoria e consigli per l'esame  di Business data science Pag. 26
Anteprima di 20 pagg. su 108.
Scarica il documento per vederlo tutto.
Appunti completi di teoria e consigli per l'esame  di Business data science Pag. 31
Anteprima di 20 pagg. su 108.
Scarica il documento per vederlo tutto.
Appunti completi di teoria e consigli per l'esame  di Business data science Pag. 36
Anteprima di 20 pagg. su 108.
Scarica il documento per vederlo tutto.
Appunti completi di teoria e consigli per l'esame  di Business data science Pag. 41
Anteprima di 20 pagg. su 108.
Scarica il documento per vederlo tutto.
Appunti completi di teoria e consigli per l'esame  di Business data science Pag. 46
Anteprima di 20 pagg. su 108.
Scarica il documento per vederlo tutto.
Appunti completi di teoria e consigli per l'esame  di Business data science Pag. 51
Anteprima di 20 pagg. su 108.
Scarica il documento per vederlo tutto.
Appunti completi di teoria e consigli per l'esame  di Business data science Pag. 56
Anteprima di 20 pagg. su 108.
Scarica il documento per vederlo tutto.
Appunti completi di teoria e consigli per l'esame  di Business data science Pag. 61
Anteprima di 20 pagg. su 108.
Scarica il documento per vederlo tutto.
Appunti completi di teoria e consigli per l'esame  di Business data science Pag. 66
Anteprima di 20 pagg. su 108.
Scarica il documento per vederlo tutto.
Appunti completi di teoria e consigli per l'esame  di Business data science Pag. 71
Anteprima di 20 pagg. su 108.
Scarica il documento per vederlo tutto.
Appunti completi di teoria e consigli per l'esame  di Business data science Pag. 76
Anteprima di 20 pagg. su 108.
Scarica il documento per vederlo tutto.
Appunti completi di teoria e consigli per l'esame  di Business data science Pag. 81
Anteprima di 20 pagg. su 108.
Scarica il documento per vederlo tutto.
Appunti completi di teoria e consigli per l'esame  di Business data science Pag. 86
Anteprima di 20 pagg. su 108.
Scarica il documento per vederlo tutto.
Appunti completi di teoria e consigli per l'esame  di Business data science Pag. 91
1 su 108
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

Analisi delle Componenti Principali (PCA)

Dal punto di vista formale, dato un insieme di variabili X1, X2, ..., Xp, la prima componente principale Z1 è ottenuta combinando linearmente le variabili di partenza dopo che ognuna è stata ponderata (moltiplicata per un peso determinato all'interno della PCA stessa). Rappresenta la combinazione lineare delle variabili di partenza che ha varianza massima, quindi è orientata nella direzione di massima variabilità dei dati originari. La seconda componente principale, Z2, è definita come Z1 ma cambiano i pesi: Rappresenta la combinazione lineare delle variabili di partenza che massimizza la varianza residua dopo che la prima componente è stata estratta e soddisfa le seguenti condizioni: - Medesimo vincolo sulla grandezza dei coefficienti (la somma dei quadrati dei coefficienti = 1); - Non è correlata con la prima componente. Le terze, quarte... componenti sono determinate in modo simile. I coefficienti della j-esima componente.

Sono detti loadings della j-esima componente rispetto alle variabili originarie. Un aspetto molto rilevante della PCA è che non è invariante rispetto alla scala delle variabili: riscalando le variabili, la PCA ci fornisce dei risultati anche molto diversi tra loro. Inoltre, se ci sono scale (varianze) per alcune variabili di partenza molto grandi, queste scale ampietendono a dominare le prime componenti della PCA che mostreranno una variabilità molto grande, quindi tutta l'informazione sarà dominata da poche variabili, le altre avranno una variabilità marginale.

Ne consegue che la PCA dovrebbe essere effettuata su variabili standardizzate. Standardizzando le variabili, la variabilità totale sarà pari a p, il numero di variabili di partenza. È cruciale decidere quante componenti conservare.

Esistono tre criteri (spesso utilizzati congiuntamente) per decidere quante componenti conservare:

  • Mantenere un numero minimo di componenti
  • Mantenere una percentuale minima di varianza spiegata
  • Utilizzare il criterio del gomito (elbow criterion)
spiegare almeno il 70-80% dellavariabilità totale delle variabili originarie; - Escludere le componenti con varianza inferiore a 1, a seguito della standardizzazione la varianza delle variabili è 1 (così come la varianza media è 1); - Utilizzare il grafico scree plot, che mostra le varianze delle componenti: bisogna trattenere un numero di componenti che corrisponde al punto nel grafico in cui la curva forma un gomito, un cambio sostanziale dell'inclinazione della curva. Esempio: brand perception. Consideriamo le valutazioni fornite da un campione di 100 consumatori su 10 brand diversi di un certo prodotto e per ogni brand ogni individuo intervistato ha fornito le proprie percezioni su nove aspetti dei prodotti. Le deviazioni standard mostrano una variabilità diversa tra le variabili: perform e latest hanno la variabilità più alta, quella con minore dispersione è value. Le variabili sono valutate con un punteggio da 1 a 10. Rappresentale correlazioni tra le diverse variabili. Alcune variabili formano dei blocchi, cluster quando sono maggiormente correlate daranno origine alle componenti principali. Ad esempio, perform, leader e serious condividono molte informazioni quindi la PCA riassumerà una componente che deriva dalle tre variabili. Mappa che indica la media di ogni variabile per i diversi brand (colore più scuro: valori più alto). I brand sono percepiti in modo diverso, ad esempio i brand F e G sono simili con valori medi elevati di value e rebuy e valori medi bassi di latest e trendy. Eseguiamo la PCA utilizzando questi dati, dopo aver standardizzato le variabili per renderle confrontabili in termini di scale. L'output di una PCA è composto da tabelle e grafici. La prima tabella mostra gli autovalori (eigenvalue), che indicano le varianze delle componenti estratte ordinate in modo decrescente: Nella seconda colonna c'è la varianza espressa in % sul totale, nella terza colonna

la varianza in % cumulativa. La somma totale delle varianze delle componenti corrisponde alla somma delle varianze delle variabili originarie dopo la standardizzazione, ovvero 9.

La seconda e terza colonna servono per creare lo scree plot, per scegliere il numero di componenti che è sufficiente trattenere per ridurre la dimensionalità del data set di partenza.

Sull'asse delle y ci sono le varianze, gli autovalori. 3 componenti non permettono di spiegare almeno il 70% della variabilità totale, per cui bisogna utilizzare 4 componenti per soddisfare il primo criterio; la varianza delle componenti è > 1 per cui tratterremmo solo 3 componenti; per quanto riguarda il terzo criterio, non è evidente il cambio di inclinazione, potrebbe essere in corrispondenza di 3 o 4.

In conclusione, consideriamo 4 componenti come indicato dal grafico delle correlazioni lineari tra le variabili.

Nella fase successiva, bisogna interpretare le componenti, capire come sono fatte.

e cosarappresentano. I coefficienti delle variabili (ai1, ai2…) sono gli autovettori associati all’i-esimo autovalore più alto e sono calcolati dal software: sono i pesi per la rispettiva componente. Gli autovettori servono a calcolare i component scores e vengono riscalati in modo da rappresentare le correlazioni tra ogni variabile di partenza e ogni componente principale. (loadings). Z1=0,2375 x perform + 0,2058 x leader… In rosso ci sono le correlazioni più alte. Rispetto a perform, la correlazione più alta è quella con dimensione 2 (la seconda componente principale) ecc., la variabile trendy non è evidenziata perché presenta correlazioni poco interessanti. La dimensione 1 è maggiormente correlata positivamente con bargain, value e rebuy indicatore della convenienza del brand. Un ulteriore risultato è rappresentato dalla varianza delle variabili originarie spiegata congiuntamente dalle componenti estratte: quanta

La variabile di partenza di ogni variabile è spiegata dalle componenti estratte?

La variabile fun è spiegata per più dell'80% da queste variabili, così come bargain e così via.

In generale, una soluzione PCA non solo non dovrebbe scartare troppa dell'informazione totale di partenza, ma non dovrebbe scartare neppure troppa dell'informazione fornita da ogni singola variabile. Spesso si considera che la varianza dovrebbe essere almeno il 50%, in caso contrario si aumenta il numero di componenti.

Per completare l'analisi, è possibile visualizzare e salvare nel data set i component scores, ovvero le coordinate delle osservazioni rispetto alle componenti.

Il grafico che mostra i component scores è uno strumento esplorativo per visualizzare i dati e risulta più efficace rispetto alla matrice dei diagrammi di dispersione quando il data set contiene molte variabili. Vengono riportati i diagrammi di dispersione per le 4 componenti scelte.

i cui punti sono staticolorati in base al brand a cui si riferiscono. I punti tendono a raggrupparsi in gruppi piuttosto omogenei, è quindi una prima mappatura delle caratteristiche dei vari brand. Ogni puntino è un individuo che ha valutato il brand (1000 puntini=100 individui x 10 brand).

Ad esempio, il brand A non è forte dal punto di vista della convenienza né della leadership perché si posiziona sull'asse negativo di entrambe le dimensioni 1 e 2.

Il PCA permette, in questo caso, di capire con più precisione come i vari brand sono posizionati l'uno rispetto all'altro in relazione alle variabili considerate.

Questo grafico è detto biplot: in aggiunta agli scores mostra anche le proiezioni delle variabili sulle componenti estratte, rappresentate dalle frecce etichettate con il nome delle variabili.

Le posizioni relative delle frecce rispetto agli assi (componenti) indicano le correlazioni tra le variabili originarie e le componenti, gli

angolitra le frecce indicano la correlazionetra le variabili originarie: più piccolo èl’angolo più le variabili sono correlatepositivamente.

La lunghezza delle frecce indica laquota di informazione della variabilespiegata dalle due componentiprincipali, la varianza di leader èspiegata meglio dalle dimensioni 1 e 2.

I punti neri rappresentano le medie delle variabilioriginarie per ogni brand per valutare come i brand si posizionano in termini relativi rispettoalle variabili originarie.

Notiamo che nel grafico sono presenti quattro blocchi di frecce/variabili ben differenziati edi brand posizionati in prossimità delle stesse frecce, ad esempio i brand F e G hanno valorialti per value, che assume direzione opposta rispetto a trendy.

Una mappa di questo tipo può essere utile anche ai fini di scelta della strategia commercialeda adottare. Ad esempio, consideriamo il brand E al centro, che sembra non esseredifferenziato rispetto a nessuna delle dimensioni.

Ciò porta un vantaggio o uno svantaggio a seconda degli obiettivi: se il nostro obiettivo è quello di essere un brand che si rivolge a una grande massa di consumatori, potrebbe essere desiderabile una posizione indifferenziata, ma se volessimo che il nostro marchio avesse una percezione forte e differenziata, questo posizionamento non sarebbe desiderabile. Una possibilità potrebbe essere quella di spostarsi in aree della mappa non ancora occupate da altri brand, come ad esempio l'ampia regione che separa B e C da F e G. Ci sono situazioni in cui le variabili non sono legate tra loro da relazioni lineari, in questi casi PCA fornirebbe dei risultati sub-ottimali o fuorvianti, per questo motivo sono state sviluppate molte tecniche di riduzione della dimensionalità che non presuppongono la linearità delle relazioni, in particolare la kernel PCA e la t-SNE. Strumenti di analytics Ogni azienda ha molteplici problemi da risolvere, che possono beneficiare

Dell'uso sistematico degli strumenti di analytics. Il compito del data scientist è associare ad ogni esigenza aziendale un buon metodo di analytics per arrivare a una risposta mirata ed efficace.

Esistono varie classificazioni degli strumenti di analytics, ad esempio in base all'obiettivo dell'analisi:

  • Descriptive analytics
  • Predictive analytics
  • Prescriptive analytics

In base all'approccio (learning) distinguiamo algoritmi di:

  • Supervised learning: un algoritmo di supervised learning utilizza un insieme di dati di training per apprendere la relazione che lega inputs e output. I dati di training consistono in coppie input-output, ovvero di un insieme di valori di input e del relativo valore di target. Gli algoritmi di supervised learning vengono usati solitamente per prevedere l'output di casi che non sono stati ancora osservati.
Dettagli
Publisher
A.A. 2022-2023
108 pagine
SSD Scienze economiche e statistiche SECS-P/08 Economia e gestione delle imprese

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher Lorenwski00 di informazioni apprese con la frequenza delle lezioni di Business data science e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli studi di Torino o del prof Melis Nicoletta.