Anteprima
Vedrai una selezione di 5 pagine su 19
Cluster Analysis Pag. 1 Cluster Analysis Pag. 2
Anteprima di 5 pagg. su 19.
Scarica il documento per vederlo tutto.
Cluster Analysis Pag. 6
Anteprima di 5 pagg. su 19.
Scarica il documento per vederlo tutto.
Cluster Analysis Pag. 11
Anteprima di 5 pagg. su 19.
Scarica il documento per vederlo tutto.
Cluster Analysis Pag. 16
1 su 19
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

Analisi dei Gruppi

(Cluster analysis)

Scopo: cercare dei gruppi di unità che siano simili rispetto alle p variabili osservate su queste unità statistiche

Quindi aiuti a fare una partizione della mia popolazione in g gruppi tali che ci sia omogeneità interna ed eterogeneità tra gruppi.

I gruppi sono degli agglomerati di unità statistiche

  • Può essere un cluster o due cluster sovrapposti
  • È un solo cluster

Applicazioni: Psicologia, Psicometria, Marketing, Medicina, Sociologia, …

Scopi degli Utilizzo dell'Analisi dei Cluster

  • Individuare tipologie
  • Ridurre la dimensione dei dati
  • Stratifica la popolazione
  • Attribuzione delle categorie missing o outlier
  • Previsioni – sistemi di notifica, azione automatica

L'analisi dei gruppi si articola in 4 fasi:

  1. Scelta delle variabili
  2. Scelta della misura di prossimità tra le unità statistiche
    • Le matrici di distanza (variabili quantitative)
    • Le matrici di similarità (variabili qualitative)
  3. Scelta del metodo (algoritmo) di aggregazione
  4. Interpretazione dei gruppi ottenuti

(1) Scelta delle Variabili

  • I gruppi possono variare se variano di quanto e quali variabili vengono utilizzate
  • Inserire una variabile oppure no fa la differenza
  • La scelta è SOGGETTIVA e dipende da conoscenze a priori del ricercatore

Una volta che ho scelto le variabili, saranno sx e y …

Dipende da cosa voglio considerare, alcuni algoritmi

risentono di trasformazioni lineari

Se usiamo variabili dicotomiche

X con xi qualitativa (k modalità) = k-1 variabili

dicotomiche

forma disgiunta

con questa operazione è riusciuta standardizzazione,

perché molti zero influiscono.

(8) INDICI di PROSSIMITÀ

2 unità statistiche possono essere:

  • VICINE
  • SIMILI
  • SOMIGLIANTI
  • LONTANE
  • DIVERSE

INDICE tale che

L'indice si divide in:

  • per fenomeni quantitativi (DISTANZE)
  • per fenomeni qualitativi (INDICI di SIMILARITÀ)

DISTANZE

 d: |U x |U --------> |IR^+   IR^p IR^p  Ù = {μĩ1,...,i=1,...,m}   ↑   μ1   μ2   μip

PROPRIETÀ:

  1. non negatività d(μi,μj)≥0 ∀μi,μj ∈ Ù
  2. identità d(μi,μj)=0 <=> μi = μj coincidono
  3. Simmetria d(μi,μj) = d(μj, μi)
  4. disuguaglianza triangolare
 d(μi, μj) ≤ d(μi, μs) + d(μs, μj)

Se volgono tutte e 4 contemporaneamente otteniamo che Ù è SPAZIO PARAMETRICO

DISTANZE USATE:

  • EUCLIDEA
  d2(μi,μj) = √∑(x=1)^p (xij - xij)^2

Si lavora con frequenze dicotomiche

x1 x2 ...... xp

m1 1 0 .... 1

m2 0 1

1 - se si manifesta0 - se vi si manifesta

1 0 1 @ a+b 0 c+d @ a+c b+d p

la somiglianza si trova sulla diagonale

a e d detta PRESENZA(presenza congiunta)

c e b detta CO-ASSENZA

c e b misurano la diversità tra le due unità statistiche m1 e m2

INDICI DI SIMILARITÀ PIÙ IMPORTANTI:

INDICE DI RUSSEL RAO = a/p

INDICE DI JACCARD = a/a+b+c

INDICE DI SOKAL E MICHENER = a+d/p

(considerevole sovrapp.)

INDICE DI YULE = ad-bc/ad+bc

uno deve essere molto diverso dagli altri

Nel caso abbiamo variabili qualitative con più modalità - fenomeno platomico

X matrice disgiunta completa - ogni xj con kj modalità diversifica kj variabili dicotomiche

X = | E xj kj m E gj xg

K =

RUSSEL RAO

JACCARD

TEMA D'ESAME 22/04/08

  • Dif, Azienda
  • m1 1 A
  • m2 1 B
  • m3 1 B
  • m4 2 B
  • m5 2 B

MATRICE DISGIUNTA

DifAusible D1 1 0 0 1 0 D3 0 0 1 A1 0 1 A2 0 1

3° METODO: METODO DEL LEGAME INTERMEDIO

d(A, B) = M { d(A, B); d(D, B) }↑media

d(G1, G2) = 1M1 M2 Σ Σ d(μi, μj)i ∈ G1 j ∈ G2

d(A, D, B) = M { 0.35 , 0.45 } = 0.4

d(A, D, C) = M { d(A, C) , d(D, C) } = M { 0.45 ; 0.57 }= 0.45 + 0.572 = 0.51

d(A, D, E) = M { d(A, E) , d(D, E) } = 0.205

? = 0.4   ?? = 0.51   ??? = 0.205

4° METODO: METODO DEL CENTROIDE

d(G1, G2) = d(μG1, μG2)↑vettori bidimensionali che contengono la media

ESEMPIO (Metodo del centroide)

  • x1 x2
  • a 4 4
  • b 6 6
  • c 2 8
  • d 12 2
  • e 4 10

Utilizziamo le distanze di Manhattan

MATRICE DELLE DISTANZE (5×5)

d(A, B) = |(4-6)| + |(1-6)| = 13

d(A, C) = |(4-2)| + |(1-8)| = 19

d(A, D) = |(14-12)| + |(1-2)| = 3

d(A, E) = |(14-4)| + |(1-10)| = 19

d(B, C) = |(6-2)| + |(6-8)| = 6

d(B, D) = |(6-12)| + |(6-2)| = 10

d(B, E) = |(6-4)| + |(6-10)| = 6

d(C, D) = |(2-12)| + |(8-2)| = 20

d(C, E) = |(2-4)| + |(8-10)| = 4

d(D, E) = |(12-4)| + |(2-10)| = 16

abcde b01319319 c06106 d016 e0

distanza minima

I nuovi gruppi sono: {ab, cd, e}

4o PASSO: continuo l'aggregazione

I nuovi gruppi { cde, ab }:

È un metodo estremamente efficiente

Si dimostra che il metodo di Ward lavora in modo equivalente con le misure di distanza e con la costruzione tra i gruppi così definita

CONFRONTO TRA I VARI METODI

  • LEGAME SEMPLICE
  • Il legame semplice funziona molto bene con gruppi che hanno struttura ma con centroide
  • Il legame semplice funziona malissimo in queste situazioni
  • È invariato per trasformazioni dei dati
  • LEGAME COMPLETO
  • Funziona bene
Dettagli
Publisher
A.A. 2017-2018
19 pagine
SSD Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher ile.87 di informazioni apprese con la frequenza delle lezioni di Analisi Statistica Multivariata e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Milano - Bicocca o del prof Migliorati Sonia.