Anteprima
Vedrai una selezione di 10 pagine su 49
Riassunto esame Data Analysis, Prof.ssa Zavarrone e Prof. Sfogliarini, libro consigliato Business analytics, Evans Pag. 1 Riassunto esame Data Analysis, Prof.ssa Zavarrone e Prof. Sfogliarini, libro consigliato Business analytics, Evans Pag. 2
Anteprima di 10 pagg. su 49.
Scarica il documento per vederlo tutto.
Riassunto esame Data Analysis, Prof.ssa Zavarrone e Prof. Sfogliarini, libro consigliato Business analytics, Evans Pag. 6
Anteprima di 10 pagg. su 49.
Scarica il documento per vederlo tutto.
Riassunto esame Data Analysis, Prof.ssa Zavarrone e Prof. Sfogliarini, libro consigliato Business analytics, Evans Pag. 11
Anteprima di 10 pagg. su 49.
Scarica il documento per vederlo tutto.
Riassunto esame Data Analysis, Prof.ssa Zavarrone e Prof. Sfogliarini, libro consigliato Business analytics, Evans Pag. 16
Anteprima di 10 pagg. su 49.
Scarica il documento per vederlo tutto.
Riassunto esame Data Analysis, Prof.ssa Zavarrone e Prof. Sfogliarini, libro consigliato Business analytics, Evans Pag. 21
Anteprima di 10 pagg. su 49.
Scarica il documento per vederlo tutto.
Riassunto esame Data Analysis, Prof.ssa Zavarrone e Prof. Sfogliarini, libro consigliato Business analytics, Evans Pag. 26
Anteprima di 10 pagg. su 49.
Scarica il documento per vederlo tutto.
Riassunto esame Data Analysis, Prof.ssa Zavarrone e Prof. Sfogliarini, libro consigliato Business analytics, Evans Pag. 31
Anteprima di 10 pagg. su 49.
Scarica il documento per vederlo tutto.
Riassunto esame Data Analysis, Prof.ssa Zavarrone e Prof. Sfogliarini, libro consigliato Business analytics, Evans Pag. 36
Anteprima di 10 pagg. su 49.
Scarica il documento per vederlo tutto.
Riassunto esame Data Analysis, Prof.ssa Zavarrone e Prof. Sfogliarini, libro consigliato Business analytics, Evans Pag. 41
1 su 49
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

ANALISI FATTORIALE e MULTIDIMENSIONAL ANALISI DELLE

ANALISI DISCRIMINANTE SCALING CORRRISPONDENZE

matrice di correlazione tra le matrice di distanze tra i punti tavola di incrocio delle

variabili (numeriche) variabili (categoriche)

6.3.1. Analisi fattoriale

L’esecuzione dell’analisi termina con la generazione di punteggi grazie ai quali si posizioneranno i casi nella

mappa. Da una parte si hanno le coordinate delle variabili che formano la matrice di struttura e dall’altra

parte si hanno le coordinate delle unità (casi), ovvero i punteggi fattoriali. Le variabili originali si proiettano

sulla mappa usando come coordinate i coefficienti della matrice di struttura. Le unità, invece, si proiettano

utilizzando i punteggi fattoriali. La posizione di un brand è la media dei punteggi delle unità ad esso relative.

È importante sottolineare che le due mappe, di variabili e di unità, hanno gli stessi assi ma scale diverse,

pertanto non si possono proiettare variabili e unità contemporaneamente su una mappa unica. L’analisi

fattoriale termina dopo il calcolo delle medie dei punteggi nei gruppi (brand ecc.) e dopo la creazione del

grafico XY delle medie dei gruppi rispetto agli assi fattoriali.

6.3.2. Analisi discriminante

L'analisi discriminante genera assi ortogonali in ordine di importanza decrescente e punteggi discriminanti,

analoghi alle componenti e ai punteggi dell'analisi fattoriale. La differenza fondamentale è che l'analisi

discriminante tiene conto di gruppi (ad esempio, brand) definiti a priori. L'analisi fattoriale poi massimizza la

varianza totale spiegata, mentre l'analisi discriminante massimizza la separazione tra i gruppi. Inoltre, con

l'analisi fattoriale tutti i punti sono proiettati passivamente sulla mappa, con l'analisi discriminante, invece,

la variabile che definisce i gruppi ha un ruolo attivo nella generazione degli assi.

6.3.3. Analisi delle corrispondenze

L'analisi delle corrispondenze è una tecnica per l'analisi delle relazioni tra due o più variabili categoriche. La

relazione tra le variabili è riassunta da tabelle a doppia entrata in cui si ipotizza una dipendenza tra righe e

colonne. L'analisi delle corrispondenze fornisce mappe simili a quelle prodotte dall'analisi fattoriale, ma

permette di rappresentare punti e variabili sulla stessa mappa.

6.3.4. Multidimensional scaling

Lo scaling multidimensionale (MDS) ha lo scopo di proiettare su una mappa degli oggetti (unità, brand) in

modo da rispettarne le prossimità o similarità: può utilizzare come base dati qualunque matrice

interpretabile come matrice di distanze tra le unità. Le distanze/prossimità possono essere misure oggettive

o misure soggettive (ad esempio, opinioni). Il significato delle dimensioni della mappa è definito

implicitamente dalla posizione delle unità.

6.4. Distanze

Il concetto generico di prossimità si applica in generale alle unità statistiche - non alle variabili - e serve a

caratterizzare la maggiore o minore vicinanza o somiglianza delle unità. Lo scopo finale è la creazione di

gruppi omogenei di unità, ad esempio gruppi di utenti in base ai modi di utilizzo gruppi di prodotti con

caratteristiche comuni. Le unità sono normalmente descritte in modo multivariato da variabili quantitative

e/o qualitative. Occorre stabilire come si possa misurare la similarità o la dissimilarità tra unità e tra gruppi

di unità. Due unità descritte (misurate) da p variabili quantitative si possono rappresentare come due punti,

in uno spazio a p dimensioni.

La definizione formale di distanza o metrica richiede che la distanza, tra x e y soddisfi le seguenti condizioni:

Usare distanze diverse permette di trattare in modo diverso i nostri punti. Infatti, la metrica che si utilizza

non è univocamente la medesima ma ne esistono diverse:

- distanza euclidea;

- distanza di Manhattan;

- distanza euclidea al quadrato.

6.4.1. Standardizzazione

Le variabili numeriche rispetto alle quali calcoliamo le distanze dovrebbero essere espresse nella stessa scala

di misura. In generale distanze e indici di similarità sono influenzati dalla unità di misura e dalla variabilità

delle singole variabili. Per eliminare questa potenziale distorsione si possono trasformare le variabili: per

rendere le variali tra loro comparabili si procede a:

- standardizzazione (media zero, varianza 1);

- normalizzazione (range 0−1).

Le trasformazioni annullano le differenze di variabilità (adesso sono confrontabili); dopo la trasformazione le

variabili numeriche contribuiscono con peso uguale al calcolo della distanza e quindi sono adesso in grado di

dare lo stesso contributo al valore di distanza.

L'estensione del concetto di prossimità a variabili categoriche richiede che esse siano trasformate in variabili

dicotomiche. Le unità u e v sono rappresentate ciascuna da p valori dicotomici che si interpretano come:

- 1 = sì, presenza

- 0 = no, assenza

I valori possono essere riassunti nella tavola di frequenza:

La prossimità tra unità descritte da variabili dicotomiche è misurabile con indici di similarità (o associazione),

i quali hanno tutti un valore compreso tra 0 e 1. Gli indici di similarità sono:

Questi indici differiscono per il diverso trattamento delle co-assenze:

- le co-presenze sono sempre determinanti per la similarità; →

- se le co-assenze sono considerate trascurabili per la similarità Jacard, Dice

- se le co-assenze sono considerate importanti per la similarità simple matching coefficient

6.5. Cluster analysis

La cluster analysis (analisi dei gruppi) è una famiglia di tecniche per classificare unità statistiche in gruppi

omogenei. L'obiettivo è generare gruppi di unità in base a certe variabili in modo che la variabilità all’interno

dei gruppi sia minima e la variabilità tra gruppi sia massima. Si tratta di una tecnica di riduzione dei dati, nel

senso che può prendere un ampio numero di osservazioni e ridurre le informazioni in gruppi più piccoli e

omogenei che possono essere interpretati più facilmente. La classica applicazione della cluster analysis è la

segmentazione del mercato, che può riguardare prodotti, consumatori o aziende.

La cluster analysis raggruppa casi simili, ovvero vicini tra loro nello spazio (multidimensionale) definito dalle

variabili considerate. Facendo riferimento alla matrice dei dati, si notano le differenze tra l’analisi fattoriale

e la cluster analysis: la cluster mette insieme righe tra loro simili, mentre l’analisi fattoriale mette insieme

colonne tra loro correlate; il criterio per mettere insieme le righe è quello della distanza, mentre quello per

le colonne è la misura di correlazione.

La cluster analysis non ipotizza nessuna indicazione a priori sul gruppo di appartenenza dei casi, non si ha

perciò una classificazione a priori. I metodi di analisi dei cluster sono usati principalmente quando non

abbiamo ipotesi a priori, ma siamo ancora nella fase esplorativa della nostra ricerca, trovando la "soluzione

più significativa possibile”.

La cluster analysis raggruppa casi simili in base a:

- una misura della distanza (o similarità) opportunamente scelta;

- un criterio di aggregazione opportunamente scelto.

Non si ricorre ai tentativi random per il numero dei possibili raggruppamenti ma bisogna usare delle strategie

(senza esplorare tutte le possibilità). Con quali criteri si decide quali punti aggregare?

1. i due più vicini (single linkage), la distanza tra due cluster è determinata dalla

distanza solo dei due punti più vicini, il problema è che si sotto-utilizzano i dati;

2. i due punti più lontani;

3. la media delle distanze tra tutti i punti (metodo del legame medio);

4. i centroidi (metodo dei centroidi), si calcolano i centroidi dei cluster ma questi sono

sensibili al baricentro per cui i cluster tendono ad essere circolari;

5. il metodo di Ward, che aggrega ad ogni passo i gruppi che generano il minimo

aumento della varianza interna ai gruppi, non considera propriamente le distanze tra

i cluster ma guarda la varianza all’interno dei cluster così da ottenere cluster con una

minimizzazione della varianza; il problema è che tende a creare gruppi di piccole

dimensioni.

I metodi di clustering sono diversi e si distinguono in due macrocategorie:

Nel caso dei metodi gerarchici si parte dalla soluzione (banale) con n cluster di una sola unità, si aggregano i

due cluster più vicini (al primo passo: le due unità più vicine) per formare un nuovo cluster più grande e si

procede iterativamente aggregando sempre i due cluster più vicini; ad ogni passo il numero dei cluster

diminuisce di 1; l’ultima soluzione è un unico cluster con tutte le unità eterogenee.

La cluster gerarchica può essere rappresentata graficamente da un diagramma a due dimensioni noto come

“dendrogramma”, che illustra la fusione o la divisione fatta in ogni step dell’analisi.

Nei metodi gerarchici la lunghezza dei rami nel dendrogramma può dare indicazioni sul numero di cluster:

- rappresenta la distanza tra i due cluster (o casi) uniti, dipende da metrica e criteri di aggregazione;

- un "salto" nella sequenza delle distanze suggerisce di scegliere la soluzione prima.

L’albero fornisce vari livelli di aggregazione: la scelta del livello a cui “tagliare” l’albero deve rappresentare

un giusto compromesso tra numero di gruppi e omogeneità degli stessi. Generalmente il taglio va fatto prima

delle aggregazioni (ogni nodo nel grafico dove si forma un nuovo cluster) corrispondenti a salti molto grossi

tra i valori dell’indice.

Quando le unità da aggregare sono in numero ridotto e sono interpretabili individualmente (con un proprio

esplicito significato specifico), l'interpretazione dei cluster è definita implicitamente dalle unità che li

compongono. In base alle caratteristiche già note e conosciute a priori delle unità che compongono il cluster,

si definisce il senso dell’intero cluster.

Nei metodi non-gerarchici, invece, si fissa a priori il numero di cluster (e si ottiene solo quello), si scelgono i

centri iniziali dei cluster (“seeds”), anche casuali, nonostante solitamente i centri iniziali vengano scelti

dall'algoritmo di calcolo automaticamente. Dopodiché, si generano k diversi cluster associando ogni unità al

centro al quale è più vicina, si ricalcola la posizione del centro (anche non uno iniziale) e si ripetono i passi 3

e 4 fino a quando i centri si stabilizzano, o al raggiungimento di un altro criterio di arresto (quando i centri si

stabilizzano). Que

Dettagli
A.A. 2019-2020
49 pagine
SSD Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher Michele Leskaj di informazioni apprese con la frequenza delle lezioni di Data analysis e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Libera Università di Lingue e Comunicazione (IULM) o del prof Zavarrone Emma.