Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
Trentino-Alto 5,8 18,1 3,1 26,3 121,5 161,9 2,4 67,8 32230,0 78,0
Adige/Südtirol 4,2 52,3 6,8 15,2 126,2 266,5 269,8 51,2 132239,0 268,0
Veneto
Friuli-Venezia 3,5 12,0 6,2 15,7 277,0 200,8 69,2 52,2 32611,5 156,0
Giulia 11,6 22,4 9,7 31,6 322,2 199,7 82,1 43,0 39085,0 292,0
Liguria 3,9 30,4 7,3 13,5 84,6 121,8 156,8 55,4 126464,9 198,0
Emilia-Romagna 6,6 22,1 6,7 15,3 109,3 106,7 173,3 49,1 94861,5 163,0
Toscana 3,1 20,4 6,1 12,3 156,1 105,1 23,7 51,1 18981,2 106,0
Umbria 2,9 20,8 4,1 13,7 140,1 53,8 31,9 48,7 35947,4 165,0
Marche 8,0 7,7 8,1 31,1 145,2 397,6 711,5 50,5 152992,9 342,0
Lazio 2,5 33,1 5,1 17,9 112,5 64,7 41,0 49,8 26683,8 123,0
Abruzzo 2,6 9,7 6,1 19,0 197,7 51,9 0,0 44,0 5702,0 70,0
Molise 6,8 16,8 10,7 23,1 241,7 99,1 92,8 44,5 83869,8 429,0
Campania 6,1 9,6 7,5 20,4 91,9 38,2 137,1 49,5 62092,9 209,0
Puglia 2,3 4,8 5,5 18,4 87,2 16,8 0,0 41,4 9424,5 57,0
Basilicata 2,3 16,1 7,0 21,2 190,0 39,0 140,2 33,5 29164,5 130,0
Calabria 1,8 6,3 5,9 17,6 61,5 33,5 255,5 30,0 73981,0 197,0
Sicilia 2,2 17,2 4,3 17,0 59,4 107,8 429,8 48,9 29263,3 69,0
Sardegna Statistiche descrittive
Oss. con dati Oss. senza dati
Variabile Osservazioni mancanti mancanti Minimo Massimo Media Deviazione std.
Uso ferrovia 19 0 19 1,826 11,563 4,660 2,571
Dotazione
parcheggi 19 0 19 4,844 52,271 18,607 11,265
diffusione Rete
ferroviaria 19 0 19 2,484 10,687 6,404 2,110
Uso Mezzi
Pubblici 19 0 19 12,319 31,563 19,564 5,507
Superficie TPL 19 0 19 59,407 607,687 178,955 128,631
Uso Tpl 19 0 19 16,834 397,619 127,404 107,915
Indice Traffico
Aereo 19 0 19 0,000 711,517 156,771 183,977
Grado
Soddisfazione
Mezzi 19 0 19 30,032 67,826 47,576 8,234
PIL per regione 19 0 19 3829,300 299469,000 67836,500 71621,663
densità
popolazione 19 0 19 39,000 429,000 184,737 117,575
In questo caso le unità sperimentali, cioè i punti, sono 19 regioni e 10 variabili.
Ad esempio il Piemonte: 4,8 -23,9-7,9-23,8-207,6-158,8-78-53,5-111363-174.
Ciascuna di queste rappresenta le variabili che caratterizza ognuna delle Regioni
oggetto di studio. Prima di iniziare l’analisi multivariata è opportuno trattare i dati da
un punto di vista univariato e bivariato.
La tabella riporta i valori di minimo/ massimo calcolati per ciascuna variabile ed
estratti dai 19 Regioni; ognuno di questi valori è riconducibile alla Regione per la
quale la variabile assume il valore più piccolo o più grande. Ad esempio 0,000 è il
minimo corrispondente alla variabile "traffico aereo "riconducibile al Molise, mentre
2994469,000 è il massimo corrispondente alla variabile "PIL per regione
"riconducibile alla Lombardia.
L’analisi riporta, inoltre, i valori della media ed i valori della deviazione standard per
ciascuna delle 10 variabili.
In sostanza la media è un singolo valore numerico che descrive sinteticamente un
insieme di dati, più precisamente, è quel valore che sostituito a ciascun degli n dati
ne fa rimanere costante la somma. La deviazione standard, invece, ci dice "in media,
quanto ogni valore si allontana dalla media aritmetica dei valori" e nel caso in cui lo
scostamento dalla media è alto, questo è sinonimo di un'alta volatilità, ovvero il
valore dei dati esaminati devia in modo significativo dalla propria media mobile.
Matrice varianza - covarianza
Se X è una matrice dei dati "variabili- unità" la matrice varianza-covarianza è
rappresentata in questo modo :
La variabilità dei sistema k-variato viene sintetizzato con la traccia della matrice
var-cov.
Essa esprime al contempo la variabilità delle singole variabili (sulla diagonale) e
la co-variazione tra le stesse, prese a due a due ( elementi non diagonali).
Standardizzazione dei dati
Quando le variabili rappresentano grandezze non omogenee, oppure quando sono espresse
in unità di misura differenti o, infine , quando hanno campi di variazione molto diversi, i dati
iniziali richiedono un’ulteriore trasformazione che ne renda possibile il confronto.
Tale trasformazione si ottiene lavorando sulla matrice varianza-covarianza mediante la
standardizzazione delle variabili iniziali , ponendo cioè :
con
Dopo la trasformazione, la matrice varianza-covarianza coincide con la matrice di
correlazione.
Tra l’altro scegliendo come tipo ACP "Pearson (n)", la standardizzazione avviene in
automatico, a questo punto la matrice di partenza diviene la matrice di correlazione.
Matrice di correlazione (Pearson n )
( )
Diffusione Indice Grado
Uso Dotazione Rete Uso Mezzi Traffico Soddisfazio PIL per densità
Variabili ferrovia parcheggi ferroviaria Pubblici Superficie TPL Uso Tpl Aereo ne Mezzi regione popolazione
Uso
ferrovia 1 0,029 0,531 0,719 0,336 0,516 0,177 0,197 0,335 0,597
Dotazione
parcheggi 0,029 1 0,104 -0,254 -0,153 0,292 -0,024 0,371 0,386 0,199
Diffusione
Rete
ferroviaria 0,531 0,104 1 0,396 -0,095 0,345 0,226 -0,144 0,521 0,823
Uso Mezzi
Pubblici 0,719 -0,254 0,396 1 0,225 0,463 0,284 0,035 0,174 0,417
Superficie
TPL 0,336 -0,153 -0,095 0,225 1 -0,034 -0,311 -0,213 -0,299 -0,056
Uso Tpl 0,516 0,292 0,345 0,463 -0,034 1 0,640 0,441 0,647 0,533
Indice
Traffico
Aereo 0,177 -0,024 0,226 0,284 -0,311 0,640 1 -0,028 0,629 0,424
Grado
Soddisfazi
one Mezzi 0,197 0,371 -0,144 0,035 -0,213 0,441 -0,028 1 0,231 -0,029
PIL per
regione 0,335 0,386 0,521 0,174 -0,299 0,647 0,629 0,231 1 0,688
densità
popolazion
e 0,597 0,199 0,823 0,417 -0,056 0,533 0,424 -0,029 0,688 1
Autovalori
F1 F2 F3 F4 F5 F6 F7 F8
Autovalore 2,802 1,769 1,278 0,923 0,673 0,283 0,193 0,077
Variabilità
(%) 35,029 22,114 15,977 11,536 8,417 3,541 2,417 0,968
% cumulata 35,029 57,143 73,120 84,656 93,073 96,615 99,032 100,000
Gli autovalori sono numeri che esprimono quanto ciascuna
componente principale riproduce della varianza totale delle variabili
originarie.
Il criterio della variabilità spiega:
affinché le componenti principali rappresentino in modo
soddisfacente le informazioni contenute nei dati iniziali è richiesto
che esse sintetizzino almeno il 75% della varianza delle variabili
originarie.
Nel nostro caso c’è bisogno di 3 componenti principali per spiegare il
73,12% della varianza delle variabili iniziali.
Poichè l’obiettivo è quello di identificare le variabili latenti che
spiegano quanta più informazione (variabilità) della nube originaria,
il primo asse sarà quello individuato dall’autovettore corrispondente
al più grande autovalore, il secondo al secondo autovalore più
grande e così via.
Il passo successivo è quello di scegliere il numero delle componenti principali da
utilizzare nella nostra analisi.
Il numero dei fattori che è necessario considerare per la costruzione dei piani su
cui proiettare i punti è un problema aperto per il quale non esiste una soluzione
univoca e definitiva ma criteri generali che il ricercatore dovrà di volta in volta
valutare. Avremo:
1. Variabilità spiegata
La percentuale di variabilità spiegata è una misura pessimistica dell’effettivo
potere esplicativo degli assi e dipende in maniera determinante, tra l’altro, dalle
dimensioni della tabella iniziale.
2. Criterio dell’ Eigenvalue-one (per le variabili standardizzate)
Se le variabili sono standardizzate ciascuna di esse ha varianza unitaria. In questo
caso non avrebbe senso conservare quei fattori la cui varianza (misurata
dall’autovalore) risultasse minore dell’unità in quanto ciò significherebbe
conservare un fattore che spiega meno di quanto potrebbe spiegare una
qualunque delle variabili osservate.
3. Criterio dello scree-test
Si considerano le CP i cui autovalori precedono il salto massimo di variabilità
spiegata. Scree-plot
La forma dell’istogramma fornisce importanti informazioni sulla
struttura della nube. Un istogramma con autovalori decrescenti in
modo "regolare" indica una nube di forma più o meno sferica.
Irregolarità nell’istogramma indicano, al contrario, un
allontanamento dalla situazione di sfericità e la presenza di una
forma della nube.
In questo caso, il numero delle CP da considerare è 5 in quanto
dalla 6° CP la quota di variabilità aggiuntiva spiegata è molto bassa.
Ciò conferma la non univocità delle soluzioni individuate dai diversi
criteri appena definiti e della eccessiva severità legata al principio
di variabilità spiegata. Autovettore
F1 F2 F3 F4 F5 F6 F7 F8
Uso ferrovia 0,497 -0,220 -0,272 0,085 -0,127 -0,006 0,732 0,267
Dotazione
parcheggi 0,072 0,507 -0,349 0,474 0,389 0,477 0,030 -0,109
diffusione
Rete
ferroviaria 0,376 -0,099 0,188 0,701 -0,207 -0,388 -0,238 -0,267
Uso Mezzi
Pubblici 0,461 -0,318 -0,009 -0,196 -0,255 0,648 -0,364 -0,176
Superficie TPL 0,038 -0,500 -0,488 -0,103 0,559 -0,252 -0,131 -0,327
Uso Tpl 0,503 0,265 -0,011 -0,199 0,288 -0,246 -0,405 0,574
Indice Traffico
Aereo 0,337 0,193 0,567 -0,269 0,393 -0,017 0,305 -0,456
Grado
Soddisfazione
Mezzi 0,161 0,476 -0,457 -0,339 -0,419 -0,279 -0,021 -0,412
Ad ogni autovalore è associato un autovettore.
Statisticamente, l’autovettore è il peso di ciascuna variabile originaria
nella nuova componente principale .
Permettono di individuare quali variabili contribuiscono di più alla
formazione delle singole componenti principali.
Nel nostro esempio, l’uso totale del Trasporto Pubblico Locale
contribuisce alla formazione della prima componente principale.
Invece, “la dotazione di parcheggi” contribuisce alla formazione della
seconda componente principale per oltre il 50%.
Prendendo in considerazione l’obiettivo dell’ ACP, cioè l’asse che
meglio rappresenta l’andamento della nube (che massimizza la
variabilità dei punti proiettati), si dimostra che questo non passa
necessariamente per l’origine, ma certamente passa per il baricentro
della nube stessa.
Ci riferiamo al piano che passa per il baricentro della nube ,
geometricamente si trasla il piano e si elimina la media (centratura
delle variabili), che diventa la nuova origine.
Geometricamente i nuovi assi rappresentano gli autovettori.
Questi hanno due caratteristiche fondamentali, infatti:
Sono di norma uguale a 1, per convenzione.
•
Infatti, gli assi che potremmo prendere per la nube di punti sono
infiniti in quanto individuata la direzione di massimo allungamento,
qualsiasi asse su questa potrà esser preso in riferimento (senza
neanche tener conto del verso) .
Sono a 2 a 2 ortogonali, in quanto gli assi non pos