Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
Le procedure gerarchiche possono essere divisive o aggregative.
Passaggi di un algoritmo aggregativo gerarchico
1. si inizia con un livello di partenza chiamato partizione iniziale, al quale corrisponde una
segmentazione con n gruppi e una matrice di distanze simmetrica nxn
2. si individua nella matrice delle distanze la coppia più vicina (più simile), ad esempio quella formata
dai gruppi U e V
3. si raggruppano U e V in un unico gruppo (UV); si ricalcola la matrice delle distanze cancellando le
righe e le colonne corrispondenti ai cluster U e V e aggiungendo una riga e una colonna che riporta
le distanze tra il gruppo (UV) e i restanti cluster
4. si ripetono i passi 2 e 3 per un totale di n-1 volte; tutti gli oggetti sono raggruppati in un unico
gruppo al termine della procedura
I risultati di una procedura di cluster gerarchica possono essere rappresentati dal dendrogramma o
diagramma ad albero. I rami dell’albero rappresentano i cluster; i rami si uniscono in nodi le cui posizioni
lungo l’asse delle distanze (o delle dissomiglianze) indicano il livello in cui avviene la fusione. 16
Metodi di aggregazione gerarchica
Legame semplice o singolo
Le distanze tra i gruppi sono formate considerando la più piccola delle distanze istituibili a due a due tra
tutti gli elementi dei due gruppi: = min [ , ]
()
Legame completo
Come primo passo si considera il gruppo formato dagli elementi più vicini. Ad ogni passo la distanza tra i
gruppi è stabilita considerando i due elementi più lontani nei due gruppi. In questo modo si assicura che
tutti gli elementi all’interno di un gruppo siano compresi ad una distanza massima l’uno dall’altro.
È altamente raccomandato usarlo quando le misure di distanza o somiglianze sono misure di
dissomiglianza, cioè quando le variabili sono miste.
= max [ , ]
()
Legame medio
Le distanze tra i gruppi sono formate considerando il valore medio aritmetico di tutte le distanze tra gli
elementi.
Metodo di Ward
Il metodo proposto da Ward differisce in parte dai precedenti perché suggerisce di creare gruppi che
rispettino la massima coesione interna e la massima separazione esterna.
I dati devono avere forma sferica, elissoidale, ipersferica
Lavora con la matrice delle devianze (sia con W che con B). Può essere utilizzato quando tutti i caratteri
sono quantitativi (non può essere utilizzato se ci sono variabili qualitative e miste).
La devianza totale (T) delle p variabili, corrispondente a n volte la traccia della matrice di varianze-
covarianze dei dati, viene scomposta in due parti: la devianza nei gruppi W e la devianza tra i gruppi B.
=+
In termini formali, data una partizione in g gruppi:
▪ la devianza totale T delle p variabili corrisponde alla somma delle devianze delle singole variabili
̅
rispetto alla corrispondente media generale
2
= ∑ ∑( −
̅ )
=1 =1
▪ la devianza nei gruppi (W) è data dalla somma delle devianze di gruppo
= ∑
=1
dove rappresenta la devianza delle p variabili nel gruppo k-esimo:
2
= ∑ ∑( − ̅̅̅̅
)
=1 =1 17
̅̅̅̅ media del carattere s calcolata con riferimento agli individui che fanno parte del gruppo k
▪ la devianza tra i gruppi B è data dalla somma delle devianze ponderate delle medie di gruppo
rispetto alla corrispondente media generale:
2
= ∑ ∑ (
̅̅̅̅ −
̅ )
=1 =1
Col metodo di Ward al primo passaggio ogni individuo è da solo; quindi al primo passo W=0 perché
rappresenta la devianza dentro i gruppi. Si effettua la prima aggregazione, mettendo insieme gli individui
più vicini in modo tale da vere il minimo incremento della devianza entro i gruppi (W). Nel corso
dell’aggregazione la matrice B viene consumata.
Algoritmi non gerarchici
Gli algoritmi non gerarchici mirano a classificare direttamente le n unità osservate in un numero G di gruppi
generando una sola partizione.
Gli algoritmi non gerarchici:
▪ si possono usare solo con le variabili quantitative
▪ è possibile riallocare le unità (procedura più flessibile)
▪ bisogna fissare il numero dei gruppi prima di lanciare la procedura
Supposto che sia stato fissato a priori il numero g dei gruppi nel quale si vuole ripartire il collettivo di
partenza, le procedure non gerarchiche si articolano sostanzialmente nelle tre fasi seguenti:
1. determinazione di una partizione iniziale degli n individui in g gruppi
2. spostamento successivo delle unità fra i g gruppi, in modo da ottenere la partizione che meglio
risponde ai concetti di omogeneità interna ai gruppi e di eterogeneità tra gli stessi
3. ripetizione della fase precedente finché non viene soddisfatta una regola di arresto
Metodi di segmentazione non gerarchica
Metodo di McQueen o delle k-medie
Il metodo di McQueen attua una classificazione degli n elementi di partenza in g gruppi, con g fissato a
priori:
1. dopo aver determinato il numero dei gruppi, vengono definiti g punti nello spazio p-dimensionale
che costituiscono i centroidi (vettori delle medie aritmetiche) dei clusters nella partizione iniziale
(se non si hanno informazioni questa attribuzione si fa casualmente); una volta definiti i centroidi si
costruisce una partizione iniziale delle unità statistiche, allocando ciascuna unità al gruppo il cui
centroide risulta più vicino
2. calcolare la distanza di ogni unità statistica dal centroide a cui è stata assegnata, tale distanza deve
essere minima, e nel caso in cui non lo fosse, l’elemento corrispondente viene riassegnato al cluster
il cui centroide è più vicino
3. ripetere il passo precedente fino al raggiungimento di un’adeguata stabilizzazione dei gruppi
Per calcolare la distanza tra le unità statistiche e i centroidi dei gruppi viene utilizzata la distanza euclidea;
all’iterazione t si ha: 18
1
⁄
2
2
̅̅̅ ̅̅̅̅
( , = −
) [∑( ) ]
=1
Il metodo di McQueen soddisfa un criterio di partizione basato sulla minimizzazione della devianza interna
ai gruppi, W.
Uno svantaggio di questo metodo consiste nella distorsione dei risultati in presenza di valori anomali. In
questo caso l’utilizzo di un numero di gruppi elevato costituisce un buon esercizio per verificare l’esistenza
di questi valori, poiché le unità non anomale tenderanno a concentrarsi in pochi gruppi, mentre gli outliers
rimarranno isolati nella classificazione, formando dei gruppi contenenti anche un solo elemento.
Esempio [pdf]
Problema di marketing. Determinanti dell’acquisto: le prime sono var attive (o bai di segmentazione), x8 e
x9 sono var di controllo.
… quando la curva ha discontinuità, un punto angolo (albero a gomito) usiamo quel numero dei gruppi.
Come capire che una segmentazione ha senso: se i gruppi sono ben distanti, le medie dei diversi gruppi
sono lontani tra di loro. Calcoliamo le medie, facciamo una F di Fischer e andiamo a vedere il grado di
significatività.
Determinazione del numero di gruppi
Dal momento che la Cla punta all’individuazione di gruppi quanto più possibile omogenei, serve una
procedura per scegliere il numero ottimale di gruppi utili ai fini dell’interpretazione dei risultati.
Criteri di scelta
1) Un criterio è quello di costruire una rappresentazione grafica che ha in ordinata il numero dei gruppi via
via formati (tra 1 e n) e in ascissa i corrispondenti valori della misura di dissomiglianza (o dell’incremento
della devianza entro) relativa ai due gruppi che si fondono per generare la partizione in quel numero di
gruppi. Si prende quindi in esame la spezzata che si ottiene unendo i punti così individuati, osservandone
l’andamento dall’alto in basso e da sinistra verso destra. Il numero di gruppi in corrispondenza del quale si
evidenzia un forte appiattimento della spezzata identifica la ripartizione ottimale.
2) In alternativa si possono considerare le distanze di fusione che crescono in maniera monotona:
≤ ≤ ⋯ ≤
1 2 −1
primo passo di fusione
1
ultimo passo di fusione
−1
Si possono determinare allora le differenze: = −
−1
Il numero g per cui è massima la differenza identifica il numero ottimo dei gruppi in quanto questi
risultano più nettamente separati. A quel valore di corrisponde al taglio del dendrogramma.
3) Un ragionamento analogo può essere fatto considerando l’indicatore F (indice pseudo-F) per ogni
g-1, n-g
valore di g: 19
⁄
() ( − 1)
= ()/( − )
Traccia: somma degli elementi della diagonale
Rappresentando graficamente F in funzione di g si può verificare che:
▪ →
F cresce continuamente al crescere di g i dati non presentano una struttura favorevole alla
suddivisione in gruppi
▪ →
F diminuisce progressivamente all’aumentare di g esiste una struttura gerarchica tra le unità
▪ →
F aumenta fino ad un livello massimo e poi la tendenza si inverte l’insieme di unità è ripartibile
nel numero di gruppi per il quale F raggiunge tale massimo
Segmentazione a priori
Una volta selezionata la base di segmentazione si procede alla scelta delle variabili esplicative o
concomitanti da porre in relazione con tale base per descrivere le caratteristiche dei segmenti.
Tecniche di segmentazioni a priori sono i metodi Aid e Chaid. Si distinguono a seconda che prevedano o
meno una variabile dipendente assunta come criterio base della classificazione. Questi algoritmi producono
dei gruppi definiti esplicitamente in termini di combinazioni delle modalità o dei livelli di variabili esplicative
rispetto a quella dipendente scelta come criterio.
La procedura di segmentazione è poi denominata diversamente a seconda del numero di gruppi che
possono essere generati ad ogni livello del percorso di suddivisione: se si ammettono solo partizioni in due
sottoinsiemi, si parla di segmentazione binaria (Aid); se è consentita la determinazione di partizioni in un
numero qualunque di sottoinsiemi si parla di segmentazione multipla (Chaid).
Metodo Aid
L’Aid è un algoritmo di suddivisione binaria, secondo il quale si assume che il collettivo in osservazione
rappresen