Data mining- Classificazione non gerarchica

Appunti applicati ad un caso pratico della metodologia statistica della Classificazione non gerarchica. Appunti di data mining basati su appunti personali del publisher presi alle lezioni della …

Esame Data mining

Facoltà Economia

Dal corso del Prof. Davino Cristina

Università Università degli studi di Napoli Federico II

Publisher paolomaz

A.A. 2017-2018

25 pagine

Appunto

Vota 5,0 / 5 (1)

Scarica

Estratto del documento

Dotazione

parcheggi 20 0 20 4,844 52,271 18,870 11,028 a ciascuna regione. Il

diffusione

Rete valore minimo è 1,826

ferroviaria 20 0 20 2,484 10,687 6,478 2,080 corrispondente alla

Uso Mezzi

Pubblici 20 0 20 12,319 31,563 19,775 5,442 regione Sicilia,mentre

Superficie il massimo 11,563

TPL 20 0 20 59,407 607,687 180,389 125,364 rappresenta la regione

Uso Tpl 20 0 20 16,834 397,619 128,973 105,271 Liguria.

Indice

Traffico

Aereo 20 0 20 0,000 711,517 152,831 179,935

Grado

Soddisfazion

e Mezzi 20 0 20 30,032 67,826 47,872 8,124

ogni unità viene assegnata al cluster che ha, rispetto a tutti gli altri clusters, il centroide ad essa più vicino;

il centroide di un cluster è il vettore delle medie delle variabili osservate sulle unità appartenenti a quel gruppo;

La distanza su cui si basa tale metodo è la distanza euclidea;

L’algoritmo su cui si basa tale metodo è un algoritmo iterativo che, ad ogni passo, minimizza la somma delle distanze (al

quadrato) degli n punti dal centroide del cluster di appartenenza;

Il vettore dei centroidi iniziali è stato selezionato casualmente

La tabella raccoglie i dati relativi all’evoluzione

delle varianze intraclasse e interclasse da un

punto di vista puramente numerico. In

statistica la varianza è il valore medio del Varianza\Classi 3 4 5

quadrato degli scarti, cioè la somma dei Intraclasse 48835,699 37346,579 36334,464

quadrati degli scarti per le relative probabilità Interclassi 10566,696 22055,816 23067,930

e viene indicata con i simboli Var(X) oppure

2 Totale 59402,395 59402,395 59402,395

σ (X).

Il grafico riporta l’ evoluzione della varianza nelle

classi, ponendo il problema più visibile. L’analisi 60000

riportata graficamente fornisce un quadro più

chiaro sulla variabilità della distribuzione nelle 50000

classi evidenziando che quest’ultima raggiunge il 40000

suo picco massimo nell’ipotesi k=3 per poi intraclasse

decrescere con K= 4 e restando sostanzialmente 30000

Varianza

la stessa con k=5 20000

10000

0 3 4 5

. Il metodo delle k-means è un criterio delle informazioni a priori,informazioni che

possano indirizzare nella scelta del numero di gruppi.

La tabella ha lo scopo di sintetizzare l’ottimizzazione. Rappresenta la varianza intraclasse iniziale

e finale e riporta i valori corrispondenti alla Traccia W, ottenuta come somma delle varianze e

degli autovalori. È bene fare attenzione alla differenza intercorrente tra il concetto di ripetizione

ed il concetto di iterazione. Al fine di poter scegliere, si è proposta una ripetizione di 10 volte,

considerando che ciascuna di esse parte da una scelta casuale. L’iterazione, invece, ci permette

di capire dopo quante volte c’è convergenza (in questo specifico caso 2). L’obiettivo è effettuare

la ripetizione del passo precedente fino al raggiungimento della convergenza dell’algoritmo; in

altri termini, il punto precedente viene ripetuto fino a raggiungere un’adeguata stabilizzazione

dei gruppi. Varianza intra-classe Varianza intra-classe

Ripetizione Iterazione iniziale finale Traccia(W)

1 2 8,191 6,370 108,291

Con k=3 2 2 7,917 5,746 97,684

3 2 7,639 5,541 94,191

4 2 8,027 5,665 96,300

5 2 8,131 5,588 94,993

6 2 8,154 6,006 102,099

7 2 8,476 5,158 87,684

8 2 8,248 6,356 108,059

9 2 8,511 5,291 89,950

10 2 8,015 5,041 85,705

Statistiche per ogni iterazione

Iterazione Varianza intraclasse Traccia(W) ln(Determinante(W)) Lambda di Wilks

0 8,015 136,249 18,043 0,295

1 5,258 89,382 14,872 0,012

2 5,041 85,705 15,950 0,036

La tabella è caratterizzata da cinque colonne: nella prima è riportato il numero delle iterazioni

corrispondenti alle tre classi, nella seconda la varianza della distribuzione tra le classi, nella

terza la Traccia W, nella quarta il determinante W ed infine nella quinta colonna osserviamo il

valore della lambda di Wilks. Le ultime tre colonne riflettono tre criteri adottabili nella

classificazione non gerarchica: il primo riguarda la variabilità lungo le linee; il secondo è una

misura della variabilità globale di un fenomeno, descritto da una variabilità multipla (riguarda la

variabilità dell’area ed è equivalente al prodotto degli autovalori). il terzo consiste in un test

multivariato per valutare l’ipotesi che i tre gruppi provengano da popolazioni con la stessa

media, con un valore di lambda che varia tra 0 e 1.

Dalla tabella emerge che la varianza è maggiore nell’iterazione 0 e minore nell’iterazione 2. Il

valore della traccia nell’ultime due iterazioni si è ridotto drasticamente rispetto all’iterazione

iniziale proprio per effetto della riduzione della varianza intraclasse.

Andamento traccia (W)

Dal grafico si ottiene una dimostrazione plausibile di ciò che viene espresso nella

tabella precedente. L’andamento della traccia ha un picco massimo nel punto 0, la

linea decresce vertiginosamente fino al livello 1, al di là del quale, decresce

lentamente fornendo una quantità minima di informazioni aggiuntive. Difatti il nostro

obiettivo è proprio quello di selezionare un numero di classi che ci consenta di

ripetere l’algoritmo un numero n di volte finchè non ci sia più un ulteriore guadagno di

informazioni. Traccia(W)

160

140

120

100

Traccia(W) 80

0 0 1 2 3

Iterazione

Decomposizione della varianza per la

classificazione ottimale

Assoluto Percentuale

Intraclasse 48835,699 82,21%

Interclassi 10566,696 17,79%

Totale 59402,395 100,00%

La tabella esprime in termini assoluti e percentuali l’incidenza della varianza intraclasse e

interclasse. La varianza intraclasse rappresenta l’82,21% della varianza totale ,

La varianza all’interno delle classi è alta,mentre quella tra le classi è bassa

Baricentri iniziali delle classi Grado

Dotazione diffusione Rete Uso Mezzi Indice Traffico Soddisfazione

Classe Uso ferrovia parcheggi ferroviaria Pubblici Superficie TPL Uso Tpl Aereo Mezzi

1 6,668 17,974 8,482 20,601 177,811 143,509 191,156 49,122

2 4,634 16,951 6,086 20,144 238,718 126,486 122,180 45,855

3 3,569 21,851 5,836 18,828 106,866 123,865 170,338 49,752

Baricentri delle classi

diffusione Indice Grado

Dotazione Rete Uso Mezzi Superficie Traffico Soddisfazion Somma dei Varianza

Classe Uso ferrovia parcheggi ferroviaria Pubblici TPL Uso Tpl Aereo e Mezzi pesi intraclasse

1 4,146 23,617 5,916 17,362 135,112 126,006 128,455 52,474 11,000 24847,362

2 2,836 9,461 5,400 19,028 228,825 33,372 79,159 37,770 5,000 62159,831

3 8,394 17,580 9,369 27,345 244,354 256,635 311,952 47,845 4,000 111031,309

Il baricentro è un individuo astratto, esso rappresenta l’individuo

• tipo di una determinata classe mentre l’oggetto centrale è un punto

empirico che, nel nostro caso rappresenta una regione.

La prima tabella esprime i valori dei baricentri iniziali, mentre la

• seconda tabella esprime i valori dei baricentri dopo aver effettuato

l’ analisi con k=3. Il baricentro è il punto di equilibrio dei dati,

infatti la media viene detta baricentro dei dati, quindi per ogni

gruppo si calcola il baricentro dei dati (il punto con coordinate pari

alla media delle coordinate dei punti) e si usa come distanza tra due

gruppi la distanza tra i due baricentri. Come è stato effettuato per la

classificazione gerarchica, anche in questo caso è possibile applicare

il t- test al fine di evidenziare quale siano i valori <-2 e >2 che sono

significativi per ciascuna classe.

Definendo le distanza tra i baricentri delle 3 classi,avremo:

1 2 3

1 0 142,180 250,711

2 142,180 0 323,363

3 250,711 323,363 0

La tabella mostra la distanza euclidea tra i centroidi dei gruppi finali. Essa è

• simmetrica, per cui la lettura può essere fatta anche osservando o solo la

parte che giace sulla diagonale principale o quella sottostante. Osserviamo

che la diagonale principale è pari a zero, perché non esiste la distanza del

baricentro da se stesso; ma è chiaramente desumibile che maggiore è la

distanza, maggiore sarà la dissomiglianza tra i tre gruppi. I tre gruppi

sembrano distanti tra loro: la distanza maggiore si osserva tra il secondo e il

terzo, mentre quella minore tra il primo e il secondo.

Oggetti centrali Grado

Dotazione diffusione Rete Uso Mezzi Indice Traffico Soddisfazione

Classe Uso ferrovia parcheggi ferroviaria Pubblici Superficie TPL Uso Tpl Aereo Mezzi

1 (Toscana) 6,555 22,109 6,673 15,330 109,328 106,679 173,329 49,071

2 (Calabria) 2,291 16,101 7,036 21,159 190,021 39,038 140,247 33,528

3 (Lombardia) 7,134 23,414 9,056 23,598 268,303 330,099 361,447 53,420

Distanza fra gli oggetti centrali

1 (Toscana) 2 (Calabria) 3 (Lombardia)

1 (Toscana) 0 111,853 332,675

2 (Calabria) 111,853 0 374,509

3 (Lombardia) 332,675 374,509 0

L’oggetto centrale di una classe è quella regione che meglio

rappresenta la classe in termini di variabili, esso assume

importanza poiché in statistica molto spesso è meglio far

riferimento ad un dato reale e misurato piuttosto che teorico

Risultati per classe

Classe 1 2 3

Oggetti 11 5 4

Somma dei pesi 11 5 4

Varianza intraclasse 24847,362 62159,831 111031,309

Distanza minima al baricentro 55,465 73,070 92,201

Distanza media al baricentro 133,170 190,787 261,731

Distanza massima al baricentro 311,372 387,146 435,286

Piemonte Valle d'Aosta/Vallée d'Aoste Lombardia

Trentino-Alto Adige/Südtirol Molise Liguria

Veneto Basilicata Lazio

Friuli-Venezia Giulia Calabria Campania

Emilia-Romagna Sicilia

Toscana

Umbria

Marche

Abruzzo

Puglia

Sardegna

Con k=4

Ripetizione Iterazione Varianza intra-classe iniziale Varianza intra-classe finale Traccia(W)

1 3 7,505 4,943 79,087

2 3 7,824 4,880 78,077

3 2 8,315 5,197 83,158

4 2 8,096 4,809 76,939

5 2 8,058 4,799 76,779

6 2 7,901 4,943 79,087

7 2 7,882 4,824 77,181

8 2 7,555 4,985 79,760

9 2 8,273 5,111 81,783

10 2 8,138 5,336 85,379

Seppure abbiamo effettuato dieci ripetizioni, l’ottimizzazione in questo

caso si raggiunge nella quinta ripetizione, anziché nella decima

ripetizione come nel caso precedente. Dopo due volte(iterazione=2)

siamo riusciti ad ottenere la convergenza.

Statistiche per ogni iterazione

Iterazione Varianza intraclasse Traccia(W) ln(Determinante(W)) Lambda di Wilks

0 8,058 128,927 16,448 0,060

1 5,558 88,927 14,264 0,007

2 4,799 76,779 13,834 0,004

Dalla tabella e dal grafico a sinistra, si evince

che il livello della Traccia W in 0 si è abbassato

Traccia(W)

140 rispetto a k

Anteprima

Vedrai una selezione di 6 pagine su 25

Data mining- Classificazione non gerarchica Pag. 1

Data mining- Classificazione non gerarchica Pag. 2

Anteprima di 6 pagg. su 25.
Scarica il documento per vederlo tutto.

Scarica

Data mining- Classificazione non gerarchica Pag. 6

Anteprima di 6 pagg. su 25.
Scarica il documento per vederlo tutto.

Scarica

Data mining- Classificazione non gerarchica Pag. 11

Anteprima di 6 pagg. su 25.
Scarica il documento per vederlo tutto.

Scarica

Data mining- Classificazione non gerarchica Pag. 16

Anteprima di 6 pagg. su 25.
Scarica il documento per vederlo tutto.

Scarica

Data mining- Classificazione non gerarchica Pag. 21

Acquista con carta o PayPal

Scarica i documenti tutte le volte che vuoi

Dettagli

SSD

Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher paolomaz di informazioni apprese con la frequenza delle lezioni di Data mining e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli studi di Napoli Federico II o del prof Davino Cristina.

Appunti correlati

Invia appunti e guadagna

Recensioni

5/5

1 recensione

5 stelle

4 stelle

3 stelle

2 stelle

1 stella

Ti è piaciuto questo appunto?

Lenlauret

25 Ottobre 2022

Data mining- Classificazione non gerarchica

Recensioni

Domande e risposte

I migliori insegnanti di Matematica

Salvatore F.

Daniele P.

Matteo S.