vuoi
o PayPal
tutte le volte che vuoi
XA'
AAAA
A A" AT
Se dei
b della
ortogonale Y
0
A matrice dati
la trasformazione matrice
I i
ortogonale e
con
e :
e =
= =
= =
è
la distanza de invariante
euclidea ortogonale
alla
rispetto distanta
trasformazione euclidea Su :
*: Ti -)
(Mi
= V(ui dz(i
) G(xi (Mi
Mi Mc)
(yi
(gi 2)
(2 (Aki Mc)
da(i
Ax)' x
yc) y)) xA(xi
(yi (Axi Ax) (i (xi x
y (xi =
=
4x)
x) = - ,
= ,
- -
=
-
= -
= =
-
- = -
c
, , 12
)D
-
(Mi -
Zi
2 : = =
I -
VCui-U)'D(Mi-M)
(2i 2) =
,
:i 12
x)S
(ui -
= -
~ (2) dm(Mi 1)
(ui un
Mi)'S -
(Mi
=
Di =
-
- ,
SIMILARITA
INDICE similarità è
variabili XXX IR
(qualitative indice funzione
quantitative) di associa
che
Un S
su una
e
p :
.
unità statistiche vi
di un
ad reale
coppia un
e numero
una similarità
indice
Un di soddisfa Mul
negativita S(Mi
(54) 0
Non =
,
Normalizzazione
(52) 1
S(Mi Mi)
=
Mi
Mi = =
,
simmetria
(53) S(Mi Mi)
Mil S(e
= ,
, P3)
Un dissimilarità come
indice Mc)
definito
è (P9
1-S(Mi Soddisfa
di Mil
(Mi e
= , ,
,
BINARIE
VARIABILI è
l'i-esima binarie
unità vi allora
sole variabili
di costruire
statistica possiamo
composta
che
Se supponiamo ,
vi di contingenza
tabella
la
ciascuna ul seguente
coppia
per e , unità
unità i 1 O
b
a
D b
a +
d
O d
C c +
b d
b da
a p
+ + c
+ C + =
+
JACCARD
INDICE DI &
di considera
semplice
Indice modo
corrispondenza a allo
Mul
ScCMi co-assente
stesso
+ ,
e
co-presente
=
, P
è
quindi variabili simmetriche
binarie
opportuno per è
le binarie
Jaccard asimmetriche
variabili
di a quindi opportuno
Sj(Mi
Indice Mj) ,
ignora co-assente per
=
, b
a + c
+
variabili NOMINALI
QUANTITATIVE variabili quantitative
le considerare
nominali
totte possiamo
sono
se unità vi
di la un'assumono
semplice due
variabili
corrispondenza le
indice la
cui
di in
proporzione
come e
P
=
modalità
stessa Mil
Sc(Mi ,
·
variabili ORDINALI
Qualitative è si le
qualitativa
j-esima variabile trasformano
la ordinale mj
se (hij) 1
Punteggio
modalità normalizzando risultato
il
luteri
nei numeri
corrispondenti
ordinate da 1 -
Yij
mi
a = Mij 1
-
la variabile
tratto quantitativa
j-esima
e come MESSICI
VARIABILI DI GOWER
MISTE INDICE dove
SOCM
: , · (j)
dir
j 1
=
S 1xij 21j variabile
1 quantitativa
- j-esima
- variabile
j-esima
range variabile
j-esima
confrontabili alla
2 se
E
(j)
binaria/
I variabile
(aij
Si(j) nominale
j-esima
xij) =
=
= variabile
confrontabili alla j-esima
non
se
lyij Yel j-esima ordinale
variabile
1 -
- Distanze/Dissimilarità
matrice
Delle distanze/dissimilarità unità
tra
A X matrice
D statistiche
le
associata delle
viene n
una
pxp daz--dg dan
0 --
I . dan
0 -- daj
un : ... d(Mi
dic
dove ,
Mi)
=
= ,
è matrice
una · è
di
simmetrica 0 di di simmetrica
... = O
dii diagonale
O sulla
=
ANALY SIS
Cluster
unità in
le
Suddividere tenomeni
i
gruppi comprendere
ragionare
per e .
unità
Raggruppare unità ,
utilmente dissimili
simili a
mettere ovvero creare
insieme separare
per
serve gruppi
e
: (Internal
interno
omogenei coNesion)
loro
al
- DisoMeGeNeI Coro ISOLATION
(EXTERNaL
di
tra
-
Ci fare dei
diversi possibili raggruppamenti
modi
sono per
la finale dell'analisi
il l'obiettivo
individuare
devo
per migliore
raggruppamento
scegliere tutte
l'intero di
si che
metodi
Per trovare dei algoritmi)
utilizzando
il migliore spazio
procede esplorano
raggruppamento non
di
solo
possibili partizioni parte
le ma esse
una nidificate
Nei si
METODI dalla
ottiene
individua di
GERARCHICI K I partizione
si gruppi
partizioni I
un
sequenza + in
una (DIANA)
(AGNES)
facendo di
di quella
di elememento
elementi
due gruppi gli questa
gruppi viceversa
o
un NESting)
AGGLOMERATIVO (AGNES AGglomerative
ALGORITMO
· ↳
, (k
(DIANA n)
DIvise ANALysi dalla
SCISSORIO singeletto
ALGORITMO Si gruppi
partizione clascun
parte n
un =
· , ,
Determinare miglior' coppia di da
la unire
gruppi
sia
quale tra le
(k) kCK-1) possibili i
di
coppie grupp
= 'miglior'
fondere gruppi
di
la K
impostare
unico
coppia -I
gruppo
un
un ; =
andare al STOP
(2) altrimenti
>
e passo 1
se ;
DISSIMILARITÀ Distanza GRUPPI
tra En determinare
distante/dissimilarità basta
matrice delle determinare migliore
abbiamo la coppia
Se gruppi
K per
con distanzal
quale sia la dissimilarità
di
coppia migore
gruppi con D k nun
Inizializzare k
1 n =
= =
Dr
Determinare di gruppi minima
ha
2 distanza
coppia
quale
un
. Fondere D
di impostare
distanza
3 gruppi
la -1
K
unico
coppie aggiornare
minima
con un e
gruppo
un ; =
. altrimenti
passo
al
calcolando andare
del STOP
la distanza i rimanenti 11
,
nuovo con
gruppo più
semplice (sinole Linkage)
Legame distanza
distante distanza
le la coincide la
Scelgo nei minima
gruppi
piccola con
unità G]
Gd(ui
d(G G)
dei vie G
le
tra M
gruppi
due min
osservata +
m
,
= ,
, ,
è dall'altro
peculiarità di
rischia
l'effetto trova
lato
da legami particolari
catera ,
Luna un
:
legare Lineari
stesso
allo
che trasformazioni
(Invariante
appartengono
osservazioni a
gruppo
non
Legame completo (complete linkage) distanza
scelgo rappresentante gruppi
la distanza la massima
i
tra
come per ,
[Gui
d(G meG]
G)
G di
che G
tra quelle
di M)
G
le
osservo e Mie
us max
= ,
, , ,
lastende quindi si
forma
individuare
ad gruppi di
loro
compatti circolare,
molto tra ma
mischia Lineari)
forma trasformazioni
(Invariante
di irregolare
di perdere a
gruppi
MEDIO
LEGAME possibili distante media
(average Linkagel le la
faccio
considero tutte ne
e
2
d(Gi
dic (1) d(Mi ur]
=
= . ,
NGz NG MitGI MEGL
è Non trasformazioni
invariante rispetto a monotone
dij
f(dij) il cambia
medio
f(u)f(y) legame
considero
se se
se vey =
è
DENDOGRAMMA la delle individuate
rappresentazione partizioni
unità si
degli
ordine
in incrociano
modo nel
alberi
in i rami
l che
le scelto
rappresentate
vengono non disegno
le cui i delle
disegnati segmenti le
uniscono stesse
corrispondenza distante
atezte tra
che in
sono
altezze
le
sono
a si
il dendogramma
taglia
disegnando ottiene
Fissata si
retta ad
orizzontale altezza
distanza ie
e
una c
co
una , di intersecate dalla linea
corrispondenti orizzontale
di gruppi aste
al
numero numero
, unità
unità ce almeno
,
(non-singoletto)
cluster tale
singolo altra
ogni in
xinterpretazione vi
per u
legame per
il un un
:
d(Mi m)
cui
per . duster unità
il tutte
(non-singoletto) tali
interpretazione ogni
legame completo altre cui
ee sono
un un
per
per un
mi
:
X per
,
dui mi)
, medio
legame
Interpretazione per nessuna
:
x 'ben'structurata
singolo/completo/medio partizione
portano sempre a
Il metodo una
METODO CENTROIDE
LeGAME del
del baricentro
del
distanza
distanza la
tra
calcola euclidea
la
(G
dei = (
Gl
due gruppi ,
:
· . de
↳ (rispettivo
il delle del
vettore medie gruppo
è
Può ed monotone
trasformazioni
NON
produrre invariante
inversioni rispetto a
METODO K-MEDIE
DELLe è
fa dei Non deciso
K priori
metodi il di gruppi
parte dove
Gerarchici numero a ,
i gruppi
come scelgo Mi ana
è
d la
tra
distanza totale
due
Euclidea
la distanza
mentre Te
considero unita ,
W B
Possiamo T
distanza totale
la +
m
scomporre = d
è ↳
distanza distanza tra
la
la (between
i
(within gruppi
entro gruppi
i additività
proprietà di Quadrato
al
Distanza euclided
Della
d
# G
W(G è
può 1 il
la
(Mi
WCG
la entro k-esimo
WF Mr) distanza
distanza si dove
gruppi
i esprimere gruppo
entro come ,
Zu LiVEGE
i Vie
: K-esimo
il
dentro
laprendo unità gruppo
le *
G
G G
Wa Gr
il problema minimo
tali di
Voglio W
determinare che te
risolvere
gruppi argmin
i ovvero =
...,
,
.....
T massimittare B
è comporta
W
minimizzare
cost