Analisi in componenti principali
Obiettivi
L'analisi in componenti principali nasce con l'obiettivo di analizzare i dati tenendo conto del loro carattere multidimensionale, ed è considerata una tecnica di rappresentazione dei dati definita su precisi criteri algebrici e geometrici. L'ACP è un metodo fattoriale per la sintesi di "p" variabili quantitative, tra loro correlate, attraverso l'identificazione di h<p variabili latenti (non osservate), dette componenti principali, ognuna pesata sulla base dell'importanza "u" (del contributo).
Tale economia non si ottiene, cioè, riducendo il numero delle variabili di partenza bensì eliminando la ridondanza di informazioni che deriva dall'avere osservato variabili fra loro correlate. Le componenti principali godono delle seguenti proprietà:
- Sono tra loro non correlate (ortogonali) e legate linearmente alle variabili di partenza
- Sono determinate in ordine decrescente rispetto alla percentuale di variabilità spiegata
Qualora non sia possibile rappresentare totalmente la variabilità originaria con meno di p variabili, l'ACP si limita a rappresentare la maggior parte di questa variabilità con un minor numero di variabili. L'obiettivo dell'ACP è quello di trovare il miglior asse, il miglior piano su cui proiettare i punti-unità, facendo in modo che le distanze originarie tra tutte le coppie di punti siano rappresentate in proiezione con la minima distorsione possibile.
Metodi
- ACP (analisi in componenti principali): per variabili quantitative
- ACM (analisi delle corrispondenze multiple): per variabili qualitative
- ACB (analisi delle corrispondenze binarie): per tabelle di contingenza
Rappresentazione congiunta di un approccio fattoriale
Fasi: Il teorema generale di Huygens, o teorema degli assi paralleli, ci assicura che l'asse di varianza massima passa certamente per il punto medio delle nube, per cui sarà sufficiente determinare la direzione, che costituirà la prima componente principale. Si procederà poi, secondo quella che viene definita una gerarchia di aggiustamento, col definire il miglior piano, il miglior spazio a tre dimensioni e così via, tenendo presente che tale gerarchia gode del principio di eredità, nel senso che il primo piano principale contiene la prima direzione principale, ecc.
Il problema dunque è simile a quello della regressione e consiste nel ricercare un aggiustamento, nel senso dei minimi quadrati, della nube dei punti iniziali. Mentre, però, nella regressione i minimi quadrati vengono calcolati parallelamente ad una direzione definita e individuata dalla variabile dipendente, nell'ACP i minimi quadrati sono perpendicolari alla direzione cercata, potendo così parlare di minimi quadrati ortogonali.
Approccio geometrico all'ACP
L'obiettivo dell'ACP di individuare una o più variabili latenti si concretizza, in un'ottica geometrica, nell'individuare uno spazio di dimensione ridotta su cui proiettare la nube dei punti originari e studiare le distanze tra i vari punti proiettati. Tali proiezioni costituiscono un'approssimazione della relazione esistenti tra i vari punti.
Matrice dei dati
Indice Grado Uso Mezzi Superficie Uso Tpl Traffico Soddisfazione diffusione Pubblici TPL Aereo e Mezzi Dotazione Rete PIL per densità REGIONE Uso ferrovia parcheggi ferroviaria regione popolazione
4,8 23,9 7,9 23,8 207,6 158,8 78,0 53,5 111363,0 174,0 Piemonte
5,2 10,3 2,5 19,0 607,7 25,6 0,0 39,9 3829,3 39,0 Valled'Aosta/Vallée d'Aoste
7,1 23,4 9,1 23,6 268,3 330,1 361,4 53,4 299469,0 419,0 Lombardia
5,8 18,1 3,1 26,3 121,5 161,9 2,4 67,8 32230,0 78,0 Trentino-Alto Adige/Südtirol
4,2 52,3 6,8 15,2 126,2 266,5 269,8 51,2 132239,0 268,0 Veneto
3,5 12,0 6,2 15,7 277,0 200,8 69,2 52,2 32611,5 156,0 Friuli-Venezia Giulia
11,6 22,4 9,7 31,6 322,2 199,7 82,1 43,0 39085,0 292,0 Liguria
3,9 30,4 7,3 13,5 84,6 121,8 156,8 55,4 126464,9 198,0 Emilia-Romagna
6,6 22,1 6,7 15,3 109,3 106,7 173,3 49,1 94861,5 163,0 Toscana
3,1 20,4 6,1 12,3 156,1 105,1 23,7 51,1 18981,2 106,0 Umbria
2,9 20,8 4,1 13,7 140,1 53,8 31,9 48,7 35947,4 165,0 Marche
8,0 7,7 8,1 31,1 145,2 397,6 711,5 50,5 152992,9 342,0 Lazio
2,5 33,1 5,1 17,9 112,5 64,7 41,0 49,8 26683,8 123,0 Abruzzo
2,6 9,7 6,1 19,0 197,7 51,9 0,0 44,0 5702,0 70,0 Molise
6,8 16,8 10,7 23,1 241,7 99,1 92,8 44,5 83869,8 429,0 Campania
6,1 9,6 7,5 20,4 91,9 38,2 137,1 49,5 62092,9 209,0 Puglia
2,3 4,8 5,5 18,4 87,2 16,8 0,0 41,4 9424,5 57,0 Basilicata
2,3 16,1 7,0 21,2 190,0 39,0 140,2 33,5 29164,5 130,0 Calabria
1,8 6,3 5,9 17,6 61,5 33,5 255,5 30,0 73981,0 197,0 Sicilia
2,2 17,2 4,3 17,0 59,4 107,8 429,8 48,9 29263,3 69,0 Sardegna
Statistiche descrittive
Oss. con dati Oss. senza dati Variabile Osservazioni mancanti mancanti Minimo Massimo Media Deviazione std.
Uso ferrovia 19 0 19 1,826 11,563 4,660 2,571
Dotazione parcheggi 19 0 19 4,844 52,271 18,607 11,265
diffusione Rete ferroviaria 19 0 19 2,484 10,687 6,404 2,110
Uso Mezzi Pubblici 19 0 19 12,319 31,563 19,564 5,507
Superficie TPL 19 0 19 59,407 607,687 178,955 128,631
Uso Tpl 19 0 19 16,834 397,619 127,404 107,915
Indice Traffico Aereo 19 0 19 0,000 711,517 156,771 183,977
Grado Soddisfazione Mezzi 19 0 19 30,032 67,826 47,576 8,234
PIL per regione 19 0 19 3829,300 299469,000 67836,500 71621,663
densità popolazione 19 0 19 39,000 429,000 184,737 117,575
In questo caso le unità sperimentali, cioè i punti, sono 19 regioni e 10 variabili. Ad esempio il Piemonte: 4,8 -23,9-7,9-23,8-207,6-158,8-78-53,5-111363-174. Ciascuna di queste rappresenta le variabili che caratterizzano ognuna delle Regioni oggetto di studio. Prima di iniziare l'analisi multivariata è opportuno trattare i dati da un punto di vista univariato e bivariato. La tabella riporta i valori di minimo/massimo calcolati per ciascuna variabile ed estratti dai 19 regioni; ognuno di questi valori è riconducibile alla Regione per la quale la variabile assume il valore più piccolo o più grande. Ad esempio 0,000 è il minimo corrispondente alla variabile "traffico aereo" riconducibile al Molise, mentre 2994469,000 è il massimo corrispondente alla variabile "PIL per regione" riconducibile alla Lombardia.
L'analisi riporta, inoltre, i valori della media ed i valori della deviazione standard per ciascuna delle 10 variabili. In sostanza la media è un singolo valore numerico che descrive sinteticamente un insieme di dati, più precisamente, è quel valore che sostituito a ciascun degli n dati ne fa rimanere costante la somma. La deviazione standard, invece, ci dice "in media, quanto ogni valore si allontana dalla media aritmetica dei valori" e nel caso in cui lo scostamento dalla media è alto, questo è sinonimo di un'alta volatilità, ovvero il valore dei dati esaminati devia in modo significativo dalla propria media mobile.
Matrice varianza - covarianza
Se X è una matrice dei dati "variabili- unità" la matrice varianza-covarianza è rappresentata in questo modo: La variabilità dei sistema k-variato viene sintetizzato con la traccia della matrice var-cov. Essa esprime al contempo la variabilità delle singole variabili (sulla diagonale) e la co-variazione tra le stesse, prese a due a due (elementi non diagonali).
Standardizzazione dei dati
Quando le variabili rappresentano grandezze non omogenee, oppure quando sono espresse in unità di misura differenti o, infine, quando hanno campi di variazione molto diversi, i dati iniziali richiedono una standardizzazione.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.