Anteprima
Vedrai una selezione di 10 pagine su 41
Appunti integrati con i libri per il modulo 2 dell'esame di Tecniche di raccolta e analisi dei dati Pag. 1 Appunti integrati con i libri per il modulo 2 dell'esame di Tecniche di raccolta e analisi dei dati Pag. 2
Anteprima di 10 pagg. su 41.
Scarica il documento per vederlo tutto.
Appunti integrati con i libri per il modulo 2 dell'esame di Tecniche di raccolta e analisi dei dati Pag. 6
Anteprima di 10 pagg. su 41.
Scarica il documento per vederlo tutto.
Appunti integrati con i libri per il modulo 2 dell'esame di Tecniche di raccolta e analisi dei dati Pag. 11
Anteprima di 10 pagg. su 41.
Scarica il documento per vederlo tutto.
Appunti integrati con i libri per il modulo 2 dell'esame di Tecniche di raccolta e analisi dei dati Pag. 16
Anteprima di 10 pagg. su 41.
Scarica il documento per vederlo tutto.
Appunti integrati con i libri per il modulo 2 dell'esame di Tecniche di raccolta e analisi dei dati Pag. 21
Anteprima di 10 pagg. su 41.
Scarica il documento per vederlo tutto.
Appunti integrati con i libri per il modulo 2 dell'esame di Tecniche di raccolta e analisi dei dati Pag. 26
Anteprima di 10 pagg. su 41.
Scarica il documento per vederlo tutto.
Appunti integrati con i libri per il modulo 2 dell'esame di Tecniche di raccolta e analisi dei dati Pag. 31
Anteprima di 10 pagg. su 41.
Scarica il documento per vederlo tutto.
Appunti integrati con i libri per il modulo 2 dell'esame di Tecniche di raccolta e analisi dei dati Pag. 36
Anteprima di 10 pagg. su 41.
Scarica il documento per vederlo tutto.
Appunti integrati con i libri per il modulo 2 dell'esame di Tecniche di raccolta e analisi dei dati Pag. 41
1 su 41
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

ANALISI DI RAGGRUPPAMENTO

L’analisi di raggruppamento, o “cluster analysis”, è una tecnica di analisi simmetrica: tutte le variabili sono

considerate sullo stesso piano causale, senza ipotizzare relazioni causa-e etto.

È un metodo esplorativo, nel senso che “esplora” i dati senza presupporre uno speci co modello.

È un metodo non parametrico, cioè non si fanno ipotesi sulla distribuzione delle variabili e sulla loro relazione.

Nell’analisi di mercato, è usata spesso per la segmentazione della clientela, ma anche per determinare gruppi di

città (o punti-vendita, o aree geogra che, ecc.) omogenei, da cui partire per disegnare esperimenti di marketing.

Nell’analisi di segmentazione della clientela, il risultato è un certo numero di gruppi di unità tra loro simili rispetto a

certe variabili (es. caratteristiche socio-demogra che, opinioni, comportamenti d’acquisto, ecc.).

L’obiettivo della cluster analysis è assegnare un certo numero di unità (su cui si osservano diverse variabili) a

poche categorie (dette anche classi, o gruppi) non de nite a priori.

Vogliamo ottenere gruppi “omogenei” o “coesi” al loro interno, ma diversi gli uni dagli altri. Dentro ogni gruppo le

unità sono “somiglianti”, ma non uguali.

Al crescere del numero di variabili cresce il contenuto informativo, ma anche gli errori di misurazione e

campionamento che si ripercuoteranno poi nei gruppi. Bisogna quindi scegliere variabili teoricamente rilevanti o

che manifestino un’elevata pertinenza con lo scopo della segmentazione.

Prima di operare il raggruppamento degli oggetti, è buona norma condurre un’analisi delle componenti (variabili

metriche) o delle corrispondenze multiple (variabili categoriali) per avere un’idea delle dimensioni sottostanti al

complesso degli indicatori utilizzati.

Sotto lo stesso termine generale si accorpano tecniche ed algoritmi diversi per e ettuare la classi cazione, che

di eriscono principalmente per 3 aspetti:

1. La tecnica di analisi usata (gerarchica o non gerarchica);

2. La misura di similarità o distanza usata per de nire quanto due unità si assomigliano (o quanto divergono);

3. Il metodo di raggruppamento, usato per ricalcolare la distanza da tutte le altre unità di una macro-unità

risultata dall’unione di osservazioni elementari.

Vantaggi:

• Rappresentazione gra ca semplice e parsimoniosa;

• Possibilità di arricchire la descrizione dei gruppi che risultano attraverso l’analisi di altre variabili non utilizzate

per la generazione dei gruppi;

ff fi fi fi fi fi fi fi fi fi fi fi ffi

ffi fi ff ff fi fi fi fi

• Risultati particolarmente leggibili se l’analisi è condotta su unità “ecologiche” (punti-vendita, unità territoriali,

ecc).

Svantaggi:

• Sostanziale indeterminatezza delle soluzioni della classi cazione;

• Possibilità di ottenere soluzioni poco interpretabili e/o poco condivisibili sul piano contenutistico e teorico.

Le procedure di cluster analysis possono essere suddivise in 2 ampie categorie generali:

1. Analisi gerarchica

Ogni unità fa parte di un gruppo, che a sua volta fa parte di un gruppo/classe più ampio, a sua volta contenuta in

una classe più ampia, e così via (es. la classi cazione delle specie naturali).

Operativamente, questo tipo di analisi si applica aggregando a una a una le unità elementari, o disaggregando

iterativamente il gruppo delle unità. Gra camente, questa soluzione può avere una rappresentazione ad albero.

Tecniche di analisi gerarchica:

• Analisi agglomerata -> partendo dalle singole unità, si procede a una serie di “fusioni” di quelle più somiglianti,

no a ottenere un unico gruppo. L’analisi del relativo dendrogramma (e di misure statistiche ad hoc) mi permette

di “tagliare” l’albero a una certa altezza, individuando i gruppi da formare.

• Analisi divisiva o scissoria -> partendo dall’intero gruppo di unità, si procede a una serie di suddivisioni dei

sottogruppi più diversi cati, no a ottenere gruppi formati da singole unità (non vedremo nel dettaglio questo

approccio).

2. Analisi non gerarchica (o a partizione ripetuta)

I gruppi generati non sono in relazione gerarchica, ma vengono generati tutti contemporaneamente.

Le tecniche di raggruppamento possono portare alla costituzione di gruppi esclusivi (hard clustering) o alla

costituzione di gruppi non-esclusivi (fuzzy cluster).

Il punto di partenza di un’analisi di raggruppamento è la matrice di prossimità.

È una matrice quadrata e simmetrica; sulle righe e sulle colonne si trovano le unità di analisi, nelle celle una

misura di vicinanza (o di distanza) di ciascuna unità da ciascuna altra unità, nel caso di variabili metriche, o una

misura di similarità (o dissimilarità), nel caso di variabili categoriali.

Gli elementi sulla diagonale principale possono essere nulli (distanze) o massimi (vicinanze).

Le misure di prossimità sono “distanze”, cioè misure di quanto due unità di eriscono o si somigliano rispetto a un

insieme di caratteristiche (cioè variabili).

Quando le variabili sono quantitative, la distanza euclidea è la misura di distanza più intuitiva e più comunemente

usata; non è l’unica possibile, ma ci limiteremo a questa. Esistono misure di distanza anche per variabili non

strettamente quantitative (dicotomiche o conteggi), ma non le utilizzeremo.

In generale, la distanza totale fra due unità è (più o meno) una somma delle distanze che quelle unità hanno

rispetto a tutte le variabili considerate; se le variabili sono misurate su scale molto diverse, il valore nale rischia di

dipendere soprattutto (o solo) dalle variabili misurate su scale che mostrano valori “grandi”, indipendentemente

dal fatto che tali di erenze siano rilevanti.

_ANALISI GERARCHICA AGGLOMERATIVA:

1. Si parte da una matrice simmetrica di prossimità nxn;

2. Si individua la coppia di unità più simili;

3. Si uniscono le unità più simili in un nuovo gruppo;

4. Si calcolano le nuove distanze fra il nuovo gruppo e le altre unità, secondo uno dei metodi descritti nel

seguito;

5. Si ridetermina la matrice di prossimità (n-1)x(n-1) e si ripete il procedimento no al raggiungimento di un punto

di arresto (scelto dal ricercatore) o no a che tutti gli oggetti con uiscono in un unico gruppo.

Esistono tanti approcci possibili per ricalcolare le distanze:

• Metodo del legame singolo (vicino più vicino) -> la distanza tra il nuovo gruppo e ogni altra unità è pari alla

minore tra le distanze originali, ovvero tra le distanze che intercorrono tra tutte le coppie di oggetti; siccome

vengono aggregate unità che sono vicine ad almeno una di quelle già presenti nel gruppo, crea gruppi allungati

(forte robustezza nei confronti degli outliers).

• Metodo del legame completo (vicino più lontano) -> la distanza tra il nuovo gruppo e ogni altra unità è pari alla

maggiore tra le distanze originali; le osservazioni tendono a fondersi in nuovi gruppi piuttosto che unirsi a gruppi

già formati, quindi crea gruppi coesi (scarsa robustezza nei confronti degli outliers).

• Metodo di Ward -> realizza una classi cazione gerarchica fondendo a ogni passo della procedura i due cluster

che minimizzano l’incremento della devianza; spesso dà risultati più leggibili nei casi in cui altri metodi

forniscono risultati di di cile lettura.

• Metodo della media di un gruppo (media aritmetica) -> la distanza tra il nuovo gruppo e ogni altra unità è pari

alla media delle distanze originali.

• Altri metodi basati su misure alternative di una “distanza centrale” -> metodo del centroide, metodo della

mediana, metodo della media ponderata, metodo essibile di Lance e Williams.

Oltre che dalle caratteristiche speci che di ciascun metodo, la scelta del metodo di calcolo delle nuove distanze

dipende da ciò che si desidera ottenere e dalle caratteristiche dei dati; in generale, conviene sperimentare

alternative diverse e veri care se danno risultati analoghi, scegliendo eventualmente quello che dà indicazioni più

chiare.

fi ff fi ffi fi fi fi fi fi fi fi fl fi fl ff fi fi

Scelta delle variabili di classi cazione:

Le variabili usate per il raggruppamento sono quelle rispetto a cui verranno costruiti gruppi omogenei (ciò non

esclude che tali gruppi risultino omogenei anche rispetto ad altre variabili); la scelta dipende dagli obiettivi di

ricerca.

Se le variabili sono misurate su scale diverse, per evitare che la distanza complessiva tenga conto soltanto di

di erenze (anche irrilevanti) sulle variabili misurate su scale più “grandi” conviene standardizzare le variabili in

modo da rendere comparabili e sommabili le di erenze osservate su ciascuna caratteristica.

Dendrogramma:

Le sequenze di fusioni generate dagli algoritmi agglomerativi vengono visualizzate su di un diagramma ad albero,

il dendrogramma.

La lunghezza dei “rami” indica la distanza tra due gruppi nel momento in cui questi si sono aggregati.

Scelta del numero di gruppi:

L’analisi gerarchica può fornire una soluzione con un numero qualsiasi di gruppi, da 1 no a n (il numero di unità

singole).

L’idea è quella di individuare un numero di gruppi che corrisponda ai gruppi “naturali” nel dataset, quindi gruppi

simili al loro interno, ma diversi gli uni dagli altri; tale numero si ricava dal dendrogramma: si vuole trovare nel

dendrogramma il punto in cui le distanze di aggregazione, piccole no a quel punto, diventano grandi. Dal punto

di vista gra co, immaginate di vedere il dendrogramma come un grappolo e di voler individuare il numero di

sotto-grappoli che lo compongono.

In caso di dubbio, è consigliabile tenere un numero di gruppi più elevato: le successive analisi permetteranno di

veri care se si tratta di gruppi su cientemente distinti o se è consigliabile procedere a ulteriori aggregazioni.

Valutazione dei risultati:

Non esistono indicatori di bontà dei risultati analoghi al coe ciente R dell’analisi di regressione (da qui

2

l’indeterminatezza dei risultati, oltre che dal fatto che per molte scelte la decisione può essere arbitraria).

Tuttavia, possiamo dire che la soluzione è buona se:

• È interpretabile, ripetibile e oggettiva

• I risultati sono stabili se l’analisi è ripetuta su un diverso campione di unità (robustezza)

• I risultati ottenuti sono informativi

• L’algoritmo di calcolo adottato è semplice.

Interpretazione dei risultati:

Una volta ottenu

Dettagli
Publisher
A.A. 2023-2024
41 pagine
SSD Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher Camo25 di informazioni apprese con la frequenza delle lezioni di Tecniche di Analisi e Raccolta Dati M2 e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Modena e Reggio Emilia o del prof Martini Cristiana.