Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
ANALISI DI RAGGRUPPAMENTO
L’analisi di raggruppamento, o “cluster analysis”, è una tecnica di analisi simmetrica: tutte le variabili sono
considerate sullo stesso piano causale, senza ipotizzare relazioni causa-e etto.
È un metodo esplorativo, nel senso che “esplora” i dati senza presupporre uno speci co modello.
È un metodo non parametrico, cioè non si fanno ipotesi sulla distribuzione delle variabili e sulla loro relazione.
Nell’analisi di mercato, è usata spesso per la segmentazione della clientela, ma anche per determinare gruppi di
città (o punti-vendita, o aree geogra che, ecc.) omogenei, da cui partire per disegnare esperimenti di marketing.
Nell’analisi di segmentazione della clientela, il risultato è un certo numero di gruppi di unità tra loro simili rispetto a
certe variabili (es. caratteristiche socio-demogra che, opinioni, comportamenti d’acquisto, ecc.).
L’obiettivo della cluster analysis è assegnare un certo numero di unità (su cui si osservano diverse variabili) a
poche categorie (dette anche classi, o gruppi) non de nite a priori.
Vogliamo ottenere gruppi “omogenei” o “coesi” al loro interno, ma diversi gli uni dagli altri. Dentro ogni gruppo le
unità sono “somiglianti”, ma non uguali.
Al crescere del numero di variabili cresce il contenuto informativo, ma anche gli errori di misurazione e
campionamento che si ripercuoteranno poi nei gruppi. Bisogna quindi scegliere variabili teoricamente rilevanti o
che manifestino un’elevata pertinenza con lo scopo della segmentazione.
Prima di operare il raggruppamento degli oggetti, è buona norma condurre un’analisi delle componenti (variabili
metriche) o delle corrispondenze multiple (variabili categoriali) per avere un’idea delle dimensioni sottostanti al
complesso degli indicatori utilizzati.
Sotto lo stesso termine generale si accorpano tecniche ed algoritmi diversi per e ettuare la classi cazione, che
di eriscono principalmente per 3 aspetti:
1. La tecnica di analisi usata (gerarchica o non gerarchica);
2. La misura di similarità o distanza usata per de nire quanto due unità si assomigliano (o quanto divergono);
3. Il metodo di raggruppamento, usato per ricalcolare la distanza da tutte le altre unità di una macro-unità
risultata dall’unione di osservazioni elementari.
Vantaggi:
• Rappresentazione gra ca semplice e parsimoniosa;
• Possibilità di arricchire la descrizione dei gruppi che risultano attraverso l’analisi di altre variabili non utilizzate
per la generazione dei gruppi;
ff fi fi fi fi fi fi fi fi fi fi fi ffi
ffi fi ff ff fi fi fi fi
• Risultati particolarmente leggibili se l’analisi è condotta su unità “ecologiche” (punti-vendita, unità territoriali,
ecc).
Svantaggi:
• Sostanziale indeterminatezza delle soluzioni della classi cazione;
• Possibilità di ottenere soluzioni poco interpretabili e/o poco condivisibili sul piano contenutistico e teorico.
Le procedure di cluster analysis possono essere suddivise in 2 ampie categorie generali:
1. Analisi gerarchica
Ogni unità fa parte di un gruppo, che a sua volta fa parte di un gruppo/classe più ampio, a sua volta contenuta in
una classe più ampia, e così via (es. la classi cazione delle specie naturali).
Operativamente, questo tipo di analisi si applica aggregando a una a una le unità elementari, o disaggregando
iterativamente il gruppo delle unità. Gra camente, questa soluzione può avere una rappresentazione ad albero.
Tecniche di analisi gerarchica:
• Analisi agglomerata -> partendo dalle singole unità, si procede a una serie di “fusioni” di quelle più somiglianti,
no a ottenere un unico gruppo. L’analisi del relativo dendrogramma (e di misure statistiche ad hoc) mi permette
di “tagliare” l’albero a una certa altezza, individuando i gruppi da formare.
• Analisi divisiva o scissoria -> partendo dall’intero gruppo di unità, si procede a una serie di suddivisioni dei
sottogruppi più diversi cati, no a ottenere gruppi formati da singole unità (non vedremo nel dettaglio questo
approccio).
2. Analisi non gerarchica (o a partizione ripetuta)
I gruppi generati non sono in relazione gerarchica, ma vengono generati tutti contemporaneamente.
Le tecniche di raggruppamento possono portare alla costituzione di gruppi esclusivi (hard clustering) o alla
costituzione di gruppi non-esclusivi (fuzzy cluster).
Il punto di partenza di un’analisi di raggruppamento è la matrice di prossimità.
È una matrice quadrata e simmetrica; sulle righe e sulle colonne si trovano le unità di analisi, nelle celle una
misura di vicinanza (o di distanza) di ciascuna unità da ciascuna altra unità, nel caso di variabili metriche, o una
misura di similarità (o dissimilarità), nel caso di variabili categoriali.
Gli elementi sulla diagonale principale possono essere nulli (distanze) o massimi (vicinanze).
Le misure di prossimità sono “distanze”, cioè misure di quanto due unità di eriscono o si somigliano rispetto a un
insieme di caratteristiche (cioè variabili).
Quando le variabili sono quantitative, la distanza euclidea è la misura di distanza più intuitiva e più comunemente
usata; non è l’unica possibile, ma ci limiteremo a questa. Esistono misure di distanza anche per variabili non
strettamente quantitative (dicotomiche o conteggi), ma non le utilizzeremo.
In generale, la distanza totale fra due unità è (più o meno) una somma delle distanze che quelle unità hanno
rispetto a tutte le variabili considerate; se le variabili sono misurate su scale molto diverse, il valore nale rischia di
dipendere soprattutto (o solo) dalle variabili misurate su scale che mostrano valori “grandi”, indipendentemente
dal fatto che tali di erenze siano rilevanti.
_ANALISI GERARCHICA AGGLOMERATIVA:
1. Si parte da una matrice simmetrica di prossimità nxn;
2. Si individua la coppia di unità più simili;
3. Si uniscono le unità più simili in un nuovo gruppo;
4. Si calcolano le nuove distanze fra il nuovo gruppo e le altre unità, secondo uno dei metodi descritti nel
seguito;
5. Si ridetermina la matrice di prossimità (n-1)x(n-1) e si ripete il procedimento no al raggiungimento di un punto
di arresto (scelto dal ricercatore) o no a che tutti gli oggetti con uiscono in un unico gruppo.
Esistono tanti approcci possibili per ricalcolare le distanze:
• Metodo del legame singolo (vicino più vicino) -> la distanza tra il nuovo gruppo e ogni altra unità è pari alla
minore tra le distanze originali, ovvero tra le distanze che intercorrono tra tutte le coppie di oggetti; siccome
vengono aggregate unità che sono vicine ad almeno una di quelle già presenti nel gruppo, crea gruppi allungati
(forte robustezza nei confronti degli outliers).
• Metodo del legame completo (vicino più lontano) -> la distanza tra il nuovo gruppo e ogni altra unità è pari alla
maggiore tra le distanze originali; le osservazioni tendono a fondersi in nuovi gruppi piuttosto che unirsi a gruppi
già formati, quindi crea gruppi coesi (scarsa robustezza nei confronti degli outliers).
• Metodo di Ward -> realizza una classi cazione gerarchica fondendo a ogni passo della procedura i due cluster
che minimizzano l’incremento della devianza; spesso dà risultati più leggibili nei casi in cui altri metodi
forniscono risultati di di cile lettura.
• Metodo della media di un gruppo (media aritmetica) -> la distanza tra il nuovo gruppo e ogni altra unità è pari
alla media delle distanze originali.
• Altri metodi basati su misure alternative di una “distanza centrale” -> metodo del centroide, metodo della
mediana, metodo della media ponderata, metodo essibile di Lance e Williams.
Oltre che dalle caratteristiche speci che di ciascun metodo, la scelta del metodo di calcolo delle nuove distanze
dipende da ciò che si desidera ottenere e dalle caratteristiche dei dati; in generale, conviene sperimentare
alternative diverse e veri care se danno risultati analoghi, scegliendo eventualmente quello che dà indicazioni più
chiare.
fi ff fi ffi fi fi fi fi fi fi fi fl fi fl ff fi fi
Scelta delle variabili di classi cazione:
Le variabili usate per il raggruppamento sono quelle rispetto a cui verranno costruiti gruppi omogenei (ciò non
esclude che tali gruppi risultino omogenei anche rispetto ad altre variabili); la scelta dipende dagli obiettivi di
ricerca.
Se le variabili sono misurate su scale diverse, per evitare che la distanza complessiva tenga conto soltanto di
di erenze (anche irrilevanti) sulle variabili misurate su scale più “grandi” conviene standardizzare le variabili in
modo da rendere comparabili e sommabili le di erenze osservate su ciascuna caratteristica.
Dendrogramma:
Le sequenze di fusioni generate dagli algoritmi agglomerativi vengono visualizzate su di un diagramma ad albero,
il dendrogramma.
La lunghezza dei “rami” indica la distanza tra due gruppi nel momento in cui questi si sono aggregati.
Scelta del numero di gruppi:
L’analisi gerarchica può fornire una soluzione con un numero qualsiasi di gruppi, da 1 no a n (il numero di unità
singole).
L’idea è quella di individuare un numero di gruppi che corrisponda ai gruppi “naturali” nel dataset, quindi gruppi
simili al loro interno, ma diversi gli uni dagli altri; tale numero si ricava dal dendrogramma: si vuole trovare nel
dendrogramma il punto in cui le distanze di aggregazione, piccole no a quel punto, diventano grandi. Dal punto
di vista gra co, immaginate di vedere il dendrogramma come un grappolo e di voler individuare il numero di
sotto-grappoli che lo compongono.
In caso di dubbio, è consigliabile tenere un numero di gruppi più elevato: le successive analisi permetteranno di
veri care se si tratta di gruppi su cientemente distinti o se è consigliabile procedere a ulteriori aggregazioni.
Valutazione dei risultati:
Non esistono indicatori di bontà dei risultati analoghi al coe ciente R dell’analisi di regressione (da qui
2
l’indeterminatezza dei risultati, oltre che dal fatto che per molte scelte la decisione può essere arbitraria).
Tuttavia, possiamo dire che la soluzione è buona se:
• È interpretabile, ripetibile e oggettiva
• I risultati sono stabili se l’analisi è ripetuta su un diverso campione di unità (robustezza)
• I risultati ottenuti sono informativi
• L’algoritmo di calcolo adottato è semplice.
Interpretazione dei risultati:
Una volta ottenu