Data Mining- Analisi in Componenti Principali

Progetto sulla metodologia statistica dell'Analisi in Componenti Principali.AutovaloriAutovettoriCoseno al Quadratomatrice varianza-covarianzacerchio delle correlazioniAppunti di data mining …

Esame Data mining

Facoltà Economia

Dal corso del Prof. Davino Cristina

Università Università degli studi di Napoli Federico II

Publisher paolomaz

A.A. 2017-2018

42 pagine

1 download

Appunto

Vota 5,0 / 5 (2)

Scarica

Estratto del documento

Trentino-Alto 5,8 18,1 3,1 26,3 121,5 161,9 2,4 67,8 32230,0 78,0

Adige/Südtirol 4,2 52,3 6,8 15,2 126,2 266,5 269,8 51,2 132239,0 268,0

Veneto

Friuli-Venezia 3,5 12,0 6,2 15,7 277,0 200,8 69,2 52,2 32611,5 156,0

Giulia 11,6 22,4 9,7 31,6 322,2 199,7 82,1 43,0 39085,0 292,0

Liguria 3,9 30,4 7,3 13,5 84,6 121,8 156,8 55,4 126464,9 198,0

Emilia-Romagna 6,6 22,1 6,7 15,3 109,3 106,7 173,3 49,1 94861,5 163,0

Toscana 3,1 20,4 6,1 12,3 156,1 105,1 23,7 51,1 18981,2 106,0

Umbria 2,9 20,8 4,1 13,7 140,1 53,8 31,9 48,7 35947,4 165,0

Marche 8,0 7,7 8,1 31,1 145,2 397,6 711,5 50,5 152992,9 342,0

Lazio 2,5 33,1 5,1 17,9 112,5 64,7 41,0 49,8 26683,8 123,0

Abruzzo 2,6 9,7 6,1 19,0 197,7 51,9 0,0 44,0 5702,0 70,0

Molise 6,8 16,8 10,7 23,1 241,7 99,1 92,8 44,5 83869,8 429,0

Campania 6,1 9,6 7,5 20,4 91,9 38,2 137,1 49,5 62092,9 209,0

Puglia 2,3 4,8 5,5 18,4 87,2 16,8 0,0 41,4 9424,5 57,0

Basilicata 2,3 16,1 7,0 21,2 190,0 39,0 140,2 33,5 29164,5 130,0

Calabria 1,8 6,3 5,9 17,6 61,5 33,5 255,5 30,0 73981,0 197,0

Sicilia 2,2 17,2 4,3 17,0 59,4 107,8 429,8 48,9 29263,3 69,0

Sardegna Statistiche descrittive

Oss. con dati Oss. senza dati

Variabile Osservazioni mancanti mancanti Minimo Massimo Media Deviazione std.

Uso ferrovia 19 0 19 1,826 11,563 4,660 2,571

Dotazione

parcheggi 19 0 19 4,844 52,271 18,607 11,265

diffusione Rete

ferroviaria 19 0 19 2,484 10,687 6,404 2,110

Uso Mezzi

Pubblici 19 0 19 12,319 31,563 19,564 5,507

Superficie TPL 19 0 19 59,407 607,687 178,955 128,631

Uso Tpl 19 0 19 16,834 397,619 127,404 107,915

Indice Traffico

Aereo 19 0 19 0,000 711,517 156,771 183,977

Grado

Soddisfazione

Mezzi 19 0 19 30,032 67,826 47,576 8,234

PIL per regione 19 0 19 3829,300 299469,000 67836,500 71621,663

densità

popolazione 19 0 19 39,000 429,000 184,737 117,575

In questo caso le unità sperimentali, cioè i punti, sono 19 regioni e 10 variabili.

Ad esempio il Piemonte: 4,8 -23,9-7,9-23,8-207,6-158,8-78-53,5-111363-174.

Ciascuna di queste rappresenta le variabili che caratterizza ognuna delle Regioni

oggetto di studio. Prima di iniziare l’analisi multivariata è opportuno trattare i dati da

un punto di vista univariato e bivariato.

La tabella riporta i valori di minimo/ massimo calcolati per ciascuna variabile ed

estratti dai 19 Regioni; ognuno di questi valori è riconducibile alla Regione per la

quale la variabile assume il valore più piccolo o più grande. Ad esempio 0,000 è il

minimo corrispondente alla variabile "traffico aereo "riconducibile al Molise, mentre

2994469,000 è il massimo corrispondente alla variabile "PIL per regione

"riconducibile alla Lombardia.

L’analisi riporta, inoltre, i valori della media ed i valori della deviazione standard per

ciascuna delle 10 variabili.

In sostanza la media è un singolo valore numerico che descrive sinteticamente un

insieme di dati, più precisamente, è quel valore che sostituito a ciascun degli n dati

ne fa rimanere costante la somma. La deviazione standard, invece, ci dice "in media,

quanto ogni valore si allontana dalla media aritmetica dei valori" e nel caso in cui lo

scostamento dalla media è alto, questo è sinonimo di un'alta volatilità, ovvero il

valore dei dati esaminati devia in modo significativo dalla propria media mobile.

Matrice varianza - covarianza

Se X è una matrice dei dati "variabili- unità" la matrice varianza-covarianza è

rappresentata in questo modo :

La variabilità dei sistema k-variato viene sintetizzato con la traccia della matrice

var-cov.

Essa esprime al contempo la variabilità delle singole variabili (sulla diagonale) e

la co-variazione tra le stesse, prese a due a due ( elementi non diagonali).

Standardizzazione dei dati

Quando le variabili rappresentano grandezze non omogenee, oppure quando sono espresse

in unità di misura differenti o, infine , quando hanno campi di variazione molto diversi, i dati

iniziali richiedono un’ulteriore trasformazione che ne renda possibile il confronto.

Tale trasformazione si ottiene lavorando sulla matrice varianza-covarianza mediante la

standardizzazione delle variabili iniziali , ponendo cioè :

con

Dopo la trasformazione, la matrice varianza-covarianza coincide con la matrice di

correlazione.

Tra l’altro scegliendo come tipo ACP "Pearson (n)", la standardizzazione avviene in

automatico, a questo punto la matrice di partenza diviene la matrice di correlazione.

Matrice di correlazione (Pearson n )

( )

Diffusione Indice Grado

Uso Dotazione Rete Uso Mezzi Traffico Soddisfazio PIL per densità

Variabili ferrovia parcheggi ferroviaria Pubblici Superficie TPL Uso Tpl Aereo ne Mezzi regione popolazione

Uso

ferrovia 1 0,029 0,531 0,719 0,336 0,516 0,177 0,197 0,335 0,597

Dotazione

parcheggi 0,029 1 0,104 -0,254 -0,153 0,292 -0,024 0,371 0,386 0,199

Diffusione

Rete

ferroviaria 0,531 0,104 1 0,396 -0,095 0,345 0,226 -0,144 0,521 0,823

Uso Mezzi

Pubblici 0,719 -0,254 0,396 1 0,225 0,463 0,284 0,035 0,174 0,417

Superficie

TPL 0,336 -0,153 -0,095 0,225 1 -0,034 -0,311 -0,213 -0,299 -0,056

Uso Tpl 0,516 0,292 0,345 0,463 -0,034 1 0,640 0,441 0,647 0,533

Indice

Traffico

Aereo 0,177 -0,024 0,226 0,284 -0,311 0,640 1 -0,028 0,629 0,424

Grado

Soddisfazi

one Mezzi 0,197 0,371 -0,144 0,035 -0,213 0,441 -0,028 1 0,231 -0,029

PIL per

regione 0,335 0,386 0,521 0,174 -0,299 0,647 0,629 0,231 1 0,688

densità

popolazion

e 0,597 0,199 0,823 0,417 -0,056 0,533 0,424 -0,029 0,688 1

Autovalori

F1 F2 F3 F4 F5 F6 F7 F8

Autovalore 2,802 1,769 1,278 0,923 0,673 0,283 0,193 0,077

Variabilità

(%) 35,029 22,114 15,977 11,536 8,417 3,541 2,417 0,968

% cumulata 35,029 57,143 73,120 84,656 93,073 96,615 99,032 100,000

Gli autovalori sono numeri che esprimono quanto ciascuna

componente principale riproduce della varianza totale delle variabili

originarie.

Il criterio della variabilità spiega:

affinché le componenti principali rappresentino in modo

soddisfacente le informazioni contenute nei dati iniziali è richiesto

che esse sintetizzino almeno il 75% della varianza delle variabili

originarie.

Nel nostro caso c’è bisogno di 3 componenti principali per spiegare il

73,12% della varianza delle variabili iniziali.

Poichè l’obiettivo è quello di identificare le variabili latenti che

spiegano quanta più informazione (variabilità) della nube originaria,

il primo asse sarà quello individuato dall’autovettore corrispondente

al più grande autovalore, il secondo al secondo autovalore più

grande e così via.

Il passo successivo è quello di scegliere il numero delle componenti principali da

utilizzare nella nostra analisi.

Il numero dei fattori che è necessario considerare per la costruzione dei piani su

cui proiettare i punti è un problema aperto per il quale non esiste una soluzione

univoca e definitiva ma criteri generali che il ricercatore dovrà di volta in volta

valutare. Avremo:

1. Variabilità spiegata

La percentuale di variabilità spiegata è una misura pessimistica dell’effettivo

potere esplicativo degli assi e dipende in maniera determinante, tra l’altro, dalle

dimensioni della tabella iniziale.

2. Criterio dell’ Eigenvalue-one (per le variabili standardizzate)

Se le variabili sono standardizzate ciascuna di esse ha varianza unitaria. In questo

caso non avrebbe senso conservare quei fattori la cui varianza (misurata

dall’autovalore) risultasse minore dell’unità in quanto ciò significherebbe

conservare un fattore che spiega meno di quanto potrebbe spiegare una

qualunque delle variabili osservate.

3. Criterio dello scree-test

Si considerano le CP i cui autovalori precedono il salto massimo di variabilità

spiegata. Scree-plot

La forma dell’istogramma fornisce importanti informazioni sulla

struttura della nube. Un istogramma con autovalori decrescenti in

modo "regolare" indica una nube di forma più o meno sferica.

Irregolarità nell’istogramma indicano, al contrario, un

allontanamento dalla situazione di sfericità e la presenza di una

forma della nube.

In questo caso, il numero delle CP da considerare è 5 in quanto

dalla 6° CP la quota di variabilità aggiuntiva spiegata è molto bassa.

Ciò conferma la non univocità delle soluzioni individuate dai diversi

criteri appena definiti e della eccessiva severità legata al principio

di variabilità spiegata. Autovettore

F1 F2 F3 F4 F5 F6 F7 F8

Uso ferrovia 0,497 -0,220 -0,272 0,085 -0,127 -0,006 0,732 0,267

Dotazione

parcheggi 0,072 0,507 -0,349 0,474 0,389 0,477 0,030 -0,109

diffusione

Rete

ferroviaria 0,376 -0,099 0,188 0,701 -0,207 -0,388 -0,238 -0,267

Uso Mezzi

Pubblici 0,461 -0,318 -0,009 -0,196 -0,255 0,648 -0,364 -0,176

Superficie TPL 0,038 -0,500 -0,488 -0,103 0,559 -0,252 -0,131 -0,327

Uso Tpl 0,503 0,265 -0,011 -0,199 0,288 -0,246 -0,405 0,574

Indice Traffico

Aereo 0,337 0,193 0,567 -0,269 0,393 -0,017 0,305 -0,456

Grado

Soddisfazione

Mezzi 0,161 0,476 -0,457 -0,339 -0,419 -0,279 -0,021 -0,412

Ad ogni autovalore è associato un autovettore.

Statisticamente, l’autovettore è il peso di ciascuna variabile originaria

nella nuova componente principale .

Permettono di individuare quali variabili contribuiscono di più alla

formazione delle singole componenti principali.

Nel nostro esempio, l’uso totale del Trasporto Pubblico Locale

contribuisce alla formazione della prima componente principale.

Invece, “la dotazione di parcheggi” contribuisce alla formazione della

seconda componente principale per oltre il 50%.

Prendendo in considerazione l’obiettivo dell’ ACP, cioè l’asse che

meglio rappresenta l’andamento della nube (che massimizza la

variabilità dei punti proiettati), si dimostra che questo non passa

necessariamente per l’origine, ma certamente passa per il baricentro

della nube stessa.

Ci riferiamo al piano che passa per il baricentro della nube ,

geometricamente si trasla il piano e si elimina la media (centratura

delle variabili), che diventa la nuova origine.

Geometricamente i nuovi assi rappresentano gli autovettori.

Questi hanno due caratteristiche fondamentali, infatti:

Sono di norma uguale a 1, per convenzione.

•

Infatti, gli assi che potremmo prendere per la nube di punti sono

infiniti in quanto individuata la direzione di massimo allungamento,

qualsiasi asse su questa potrà esser preso in riferimento (senza

neanche tener conto del verso) .

Sono a 2 a 2 ortogonali, in quanto gli assi non pos

Anteprima

Vedrai una selezione di 10 pagine su 42