Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
Dotazione
parcheggi 20 0 20 4,844 52,271 18,870 11,028 a ciascuna regione. Il
diffusione
Rete valore minimo è 1,826
ferroviaria 20 0 20 2,484 10,687 6,478 2,080 corrispondente alla
Uso Mezzi
Pubblici 20 0 20 12,319 31,563 19,775 5,442 regione Sicilia,mentre
Superficie il massimo 11,563
TPL 20 0 20 59,407 607,687 180,389 125,364 rappresenta la regione
Uso Tpl 20 0 20 16,834 397,619 128,973 105,271 Liguria.
Indice
Traffico
Aereo 20 0 20 0,000 711,517 152,831 179,935
Grado
Soddisfazion
e Mezzi 20 0 20 30,032 67,826 47,872 8,124
ogni unità viene assegnata al cluster che ha, rispetto a tutti gli altri clusters, il centroide ad essa più vicino;
il centroide di un cluster è il vettore delle medie delle variabili osservate sulle unità appartenenti a quel gruppo;
La distanza su cui si basa tale metodo è la distanza euclidea;
L’algoritmo su cui si basa tale metodo è un algoritmo iterativo che, ad ogni passo, minimizza la somma delle distanze (al
quadrato) degli n punti dal centroide del cluster di appartenenza;
Il vettore dei centroidi iniziali è stato selezionato casualmente
La tabella raccoglie i dati relativi all’evoluzione
delle varianze intraclasse e interclasse da un
punto di vista puramente numerico. In
statistica la varianza è il valore medio del Varianza\Classi 3 4 5
quadrato degli scarti, cioè la somma dei Intraclasse 48835,699 37346,579 36334,464
quadrati degli scarti per le relative probabilità Interclassi 10566,696 22055,816 23067,930
e viene indicata con i simboli Var(X) oppure
2 Totale 59402,395 59402,395 59402,395
σ (X).
Il grafico riporta l’ evoluzione della varianza nelle
classi, ponendo il problema più visibile. L’analisi 60000
riportata graficamente fornisce un quadro più
chiaro sulla variabilità della distribuzione nelle 50000
classi evidenziando che quest’ultima raggiunge il 40000
suo picco massimo nell’ipotesi k=3 per poi intraclasse
decrescere con K= 4 e restando sostanzialmente 30000
Varianza
la stessa con k=5 20000
10000
0 3 4 5
. Il metodo delle k-means è un criterio delle informazioni a priori,informazioni che
possano indirizzare nella scelta del numero di gruppi.
La tabella ha lo scopo di sintetizzare l’ottimizzazione. Rappresenta la varianza intraclasse iniziale
e finale e riporta i valori corrispondenti alla Traccia W, ottenuta come somma delle varianze e
degli autovalori. È bene fare attenzione alla differenza intercorrente tra il concetto di ripetizione
ed il concetto di iterazione. Al fine di poter scegliere, si è proposta una ripetizione di 10 volte,
considerando che ciascuna di esse parte da una scelta casuale. L’iterazione, invece, ci permette
di capire dopo quante volte c’è convergenza (in questo specifico caso 2). L’obiettivo è effettuare
la ripetizione del passo precedente fino al raggiungimento della convergenza dell’algoritmo; in
altri termini, il punto precedente viene ripetuto fino a raggiungere un’adeguata stabilizzazione
dei gruppi. Varianza intra-classe Varianza intra-classe
Ripetizione Iterazione iniziale finale Traccia(W)
1 2 8,191 6,370 108,291
Con k=3 2 2 7,917 5,746 97,684
3 2 7,639 5,541 94,191
4 2 8,027 5,665 96,300
5 2 8,131 5,588 94,993
6 2 8,154 6,006 102,099
7 2 8,476 5,158 87,684
8 2 8,248 6,356 108,059
9 2 8,511 5,291 89,950
10 2 8,015 5,041 85,705
Statistiche per ogni iterazione
Iterazione Varianza intraclasse Traccia(W) ln(Determinante(W)) Lambda di Wilks
0 8,015 136,249 18,043 0,295
1 5,258 89,382 14,872 0,012
2 5,041 85,705 15,950 0,036
La tabella è caratterizzata da cinque colonne: nella prima è riportato il numero delle iterazioni
corrispondenti alle tre classi, nella seconda la varianza della distribuzione tra le classi, nella
terza la Traccia W, nella quarta il determinante W ed infine nella quinta colonna osserviamo il
valore della lambda di Wilks. Le ultime tre colonne riflettono tre criteri adottabili nella
classificazione non gerarchica: il primo riguarda la variabilità lungo le linee; il secondo è una
misura della variabilità globale di un fenomeno, descritto da una variabilità multipla (riguarda la
variabilità dell’area ed è equivalente al prodotto degli autovalori). il terzo consiste in un test
multivariato per valutare l’ipotesi che i tre gruppi provengano da popolazioni con la stessa
media, con un valore di lambda che varia tra 0 e 1.
Dalla tabella emerge che la varianza è maggiore nell’iterazione 0 e minore nell’iterazione 2. Il
valore della traccia nell’ultime due iterazioni si è ridotto drasticamente rispetto all’iterazione
iniziale proprio per effetto della riduzione della varianza intraclasse.
Andamento traccia (W)
Dal grafico si ottiene una dimostrazione plausibile di ciò che viene espresso nella
tabella precedente. L’andamento della traccia ha un picco massimo nel punto 0, la
linea decresce vertiginosamente fino al livello 1, al di là del quale, decresce
lentamente fornendo una quantità minima di informazioni aggiuntive. Difatti il nostro
obiettivo è proprio quello di selezionare un numero di classi che ci consenta di
ripetere l’algoritmo un numero n di volte finchè non ci sia più un ulteriore guadagno di
informazioni. Traccia(W)
160
140
120
100
Traccia(W) 80
60
40
20
0 0 1 2 3
Iterazione
Decomposizione della varianza per la
classificazione ottimale
Assoluto Percentuale
Intraclasse 48835,699 82,21%
Interclassi 10566,696 17,79%
Totale 59402,395 100,00%
La tabella esprime in termini assoluti e percentuali l’incidenza della varianza intraclasse e
interclasse. La varianza intraclasse rappresenta l’82,21% della varianza totale ,
La varianza all’interno delle classi è alta,mentre quella tra le classi è bassa
Baricentri iniziali delle classi Grado
Dotazione diffusione Rete Uso Mezzi Indice Traffico Soddisfazione
Classe Uso ferrovia parcheggi ferroviaria Pubblici Superficie TPL Uso Tpl Aereo Mezzi
1 6,668 17,974 8,482 20,601 177,811 143,509 191,156 49,122
2 4,634 16,951 6,086 20,144 238,718 126,486 122,180 45,855
3 3,569 21,851 5,836 18,828 106,866 123,865 170,338 49,752
Baricentri delle classi
diffusione Indice Grado
Dotazione Rete Uso Mezzi Superficie Traffico Soddisfazion Somma dei Varianza
Classe Uso ferrovia parcheggi ferroviaria Pubblici TPL Uso Tpl Aereo e Mezzi pesi intraclasse
1 4,146 23,617 5,916 17,362 135,112 126,006 128,455 52,474 11,000 24847,362
2 2,836 9,461 5,400 19,028 228,825 33,372 79,159 37,770 5,000 62159,831
3 8,394 17,580 9,369 27,345 244,354 256,635 311,952 47,845 4,000 111031,309
Il baricentro è un individuo astratto, esso rappresenta l’individuo
• tipo di una determinata classe mentre l’oggetto centrale è un punto
empirico che, nel nostro caso rappresenta una regione.
La prima tabella esprime i valori dei baricentri iniziali, mentre la
• seconda tabella esprime i valori dei baricentri dopo aver effettuato
l’ analisi con k=3. Il baricentro è il punto di equilibrio dei dati,
infatti la media viene detta baricentro dei dati, quindi per ogni
gruppo si calcola il baricentro dei dati (il punto con coordinate pari
alla media delle coordinate dei punti) e si usa come distanza tra due
gruppi la distanza tra i due baricentri. Come è stato effettuato per la
classificazione gerarchica, anche in questo caso è possibile applicare
il t- test al fine di evidenziare quale siano i valori <-2 e >2 che sono
significativi per ciascuna classe.
Definendo le distanza tra i baricentri delle 3 classi,avremo:
1 2 3
1 0 142,180 250,711
2 142,180 0 323,363
3 250,711 323,363 0
La tabella mostra la distanza euclidea tra i centroidi dei gruppi finali. Essa è
• simmetrica, per cui la lettura può essere fatta anche osservando o solo la
parte che giace sulla diagonale principale o quella sottostante. Osserviamo
che la diagonale principale è pari a zero, perché non esiste la distanza del
baricentro da se stesso; ma è chiaramente desumibile che maggiore è la
distanza, maggiore sarà la dissomiglianza tra i tre gruppi. I tre gruppi
sembrano distanti tra loro: la distanza maggiore si osserva tra il secondo e il
terzo, mentre quella minore tra il primo e il secondo.
Oggetti centrali Grado
Dotazione diffusione Rete Uso Mezzi Indice Traffico Soddisfazione
Classe Uso ferrovia parcheggi ferroviaria Pubblici Superficie TPL Uso Tpl Aereo Mezzi
1 (Toscana) 6,555 22,109 6,673 15,330 109,328 106,679 173,329 49,071
2 (Calabria) 2,291 16,101 7,036 21,159 190,021 39,038 140,247 33,528
3 (Lombardia) 7,134 23,414 9,056 23,598 268,303 330,099 361,447 53,420
Distanza fra gli oggetti centrali
1 (Toscana) 2 (Calabria) 3 (Lombardia)
1 (Toscana) 0 111,853 332,675
2 (Calabria) 111,853 0 374,509
3 (Lombardia) 332,675 374,509 0
L’oggetto centrale di una classe è quella regione che meglio
rappresenta la classe in termini di variabili, esso assume
importanza poiché in statistica molto spesso è meglio far
riferimento ad un dato reale e misurato piuttosto che teorico
Risultati per classe
Classe 1 2 3
Oggetti 11 5 4
Somma dei pesi 11 5 4
Varianza intraclasse 24847,362 62159,831 111031,309
Distanza minima al baricentro 55,465 73,070 92,201
Distanza media al baricentro 133,170 190,787 261,731
Distanza massima al baricentro 311,372 387,146 435,286
Piemonte Valle d'Aosta/Vallée d'Aoste Lombardia
Trentino-Alto Adige/Südtirol Molise Liguria
Veneto Basilicata Lazio
Friuli-Venezia Giulia Calabria Campania
Emilia-Romagna Sicilia
Toscana
Umbria
Marche
Abruzzo
Puglia
Sardegna
Con k=4
Ripetizione Iterazione Varianza intra-classe iniziale Varianza intra-classe finale Traccia(W)
1 3 7,505 4,943 79,087
2 3 7,824 4,880 78,077
3 2 8,315 5,197 83,158
4 2 8,096 4,809 76,939
5 2 8,058 4,799 76,779
6 2 7,901 4,943 79,087
7 2 7,882 4,824 77,181
8 2 7,555 4,985 79,760
9 2 8,273 5,111 81,783
10 2 8,138 5,336 85,379
Seppure abbiamo effettuato dieci ripetizioni, l’ottimizzazione in questo
caso si raggiunge nella quinta ripetizione, anziché nella decima
ripetizione come nel caso precedente. Dopo due volte(iterazione=2)
siamo riusciti ad ottenere la convergenza.
Statistiche per ogni iterazione
Iterazione Varianza intraclasse Traccia(W) ln(Determinante(W)) Lambda di Wilks
0 8,058 128,927 16,448 0,060
1 5,558 88,927 14,264 0,007
2 4,799 76,779 13,834 0,004
Dalla tabella e dal grafico a sinistra, si evince
che il livello della Traccia W in 0 si è abbassato
Traccia(W)
140 rispetto a k