vuoi
o PayPal
tutte le volte che vuoi
Analisi dei Gruppi
(Cluster analysis)
Scopo: cercare dei gruppi di unità che siano simili rispetto alle p variabili osservate su queste unità statistiche
Quindi aiuti a fare una partizione della mia popolazione in g gruppi tali che ci sia omogeneità interna ed eterogeneità tra gruppi.
I gruppi sono degli agglomerati di unità statistiche
- Può essere un cluster o due cluster sovrapposti
- È un solo cluster
Applicazioni: Psicologia, Psicometria, Marketing, Medicina, Sociologia, …
Scopi degli Utilizzo dell'Analisi dei Cluster
- Individuare tipologie
- Ridurre la dimensione dei dati
- Stratifica la popolazione
- Attribuzione delle categorie missing o outlier
- Previsioni – sistemi di notifica, azione automatica
L'analisi dei gruppi si articola in 4 fasi:
- Scelta delle variabili
- Scelta della misura di prossimità tra le unità statistiche
- Le matrici di distanza (variabili quantitative)
- Le matrici di similarità (variabili qualitative)
- Scelta del metodo (algoritmo) di aggregazione
- Interpretazione dei gruppi ottenuti
(1) Scelta delle Variabili
- I gruppi possono variare se variano di quanto e quali variabili vengono utilizzate
- Inserire una variabile oppure no fa la differenza
- La scelta è SOGGETTIVA e dipende da conoscenze a priori del ricercatore
Una volta che ho scelto le variabili, saranno sx e y …
Dipende da cosa voglio considerare, alcuni algoritmi
risentono di trasformazioni lineari
Se usiamo variabili dicotomiche
X con xi qualitativa (k modalità) = k-1 variabili
dicotomiche
forma disgiunta
con questa operazione è riusciuta standardizzazione,
perché molti zero influiscono.
(8) INDICI di PROSSIMITÀ
2 unità statistiche possono essere:
- VICINE
- SIMILI
- SOMIGLIANTI
- LONTANE
- DIVERSE
INDICE tale che
L'indice si divide in:
- per fenomeni quantitativi (DISTANZE)
- per fenomeni qualitativi (INDICI di SIMILARITÀ)
DISTANZE
d: |U x |U --------> |IR^+ IR^p IR^p Ù = {μĩ1,...,i=1,...,m} ↑ μ1 μ2 μipPROPRIETÀ:
- non negatività d(μi,μj)≥0 ∀μi,μj ∈ Ù
- identità d(μi,μj)=0 <=> μi = μj coincidono
- Simmetria d(μi,μj) = d(μj, μi)
- disuguaglianza triangolare
Se volgono tutte e 4 contemporaneamente otteniamo che Ù è SPAZIO PARAMETRICO
DISTANZE USATE:
- EUCLIDEA
Si lavora con frequenze dicotomiche
x1 x2 ...... xp
m1 1 0 .... 1
m2 0 1
1 - se si manifesta0 - se vi si manifesta
1 0 1 @ a+b 0 c+d @ a+c b+d p
la somiglianza si trova sulla diagonale
a e d detta PRESENZA(presenza congiunta)
c e b detta CO-ASSENZA
c e b misurano la diversità tra le due unità statistiche m1 e m2
INDICI DI SIMILARITÀ PIÙ IMPORTANTI:
INDICE DI RUSSEL RAO = a/p
INDICE DI JACCARD = a/a+b+c
INDICE DI SOKAL E MICHENER = a+d/p
(considerevole sovrapp.)
INDICE DI YULE = ad-bc/ad+bc
uno deve essere molto diverso dagli altri
Nel caso abbiamo variabili qualitative con più modalità - fenomeno platomico
X matrice disgiunta completa - ogni xj con kj modalità diversifica kj variabili dicotomiche
X = | E xj kj m E gj xg
K =
RUSSEL RAO
JACCARD
TEMA D'ESAME 22/04/08
- Dif, Azienda
- m1 1 A
- m2 1 B
- m3 1 B
- m4 2 B
- m5 2 B
MATRICE DISGIUNTA
DifAusible D1 1 0 0 1 0 D3 0 0 1 A1 0 1 A2 0 1
3° METODO: METODO DEL LEGAME INTERMEDIO
d(A, B) = M { d(A, B); d(D, B) }↑media
d(G1, G2) = 1⁄M1 M2 Σ Σ d(μi, μj)i ∈ G1 j ∈ G2
d(A, D, B) = M { 0.35 , 0.45 } = 0.4
d(A, D, C) = M { d(A, C) , d(D, C) } = M { 0.45 ; 0.57 }= 0.45 + 0.57⁄2 = 0.51
d(A, D, E) = M { d(A, E) , d(D, E) } = 0.205
? = 0.4 ?? = 0.51 ??? = 0.205
4° METODO: METODO DEL CENTROIDE
d(G1, G2) = d(μG1, μG2)↑vettori bidimensionali che contengono la media
ESEMPIO (Metodo del centroide)
- x1 x2
- a 4 4
- b 6 6
- c 2 8
- d 12 2
- e 4 10
Utilizziamo le distanze di Manhattan
MATRICE DELLE DISTANZE (5×5)
d(A, B) = |(4-6)| + |(1-6)| = 13
d(A, C) = |(4-2)| + |(1-8)| = 19
d(A, D) = |(14-12)| + |(1-2)| = 3
d(A, E) = |(14-4)| + |(1-10)| = 19
d(B, C) = |(6-2)| + |(6-8)| = 6
d(B, D) = |(6-12)| + |(6-2)| = 10
d(B, E) = |(6-4)| + |(6-10)| = 6
d(C, D) = |(2-12)| + |(8-2)| = 20
d(C, E) = |(2-4)| + |(8-10)| = 4
d(D, E) = |(12-4)| + |(2-10)| = 16
abcde b01319319 c06106 d016 e0distanza minima
I nuovi gruppi sono: {ab, cd, e}
4o PASSO: continuo l'aggregazione
I nuovi gruppi { cde, ab }:
È un metodo estremamente efficiente
Si dimostra che il metodo di Ward lavora in modo equivalente con le misure di distanza e con la costruzione tra i gruppi così definita
CONFRONTO TRA I VARI METODI
- LEGAME SEMPLICE
- Il legame semplice funziona molto bene con gruppi che hanno struttura ma con centroide
- Il legame semplice funziona malissimo in queste situazioni
- È invariato per trasformazioni dei dati
- LEGAME COMPLETO
- Funziona bene