Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
CT
X X
C
S
n 1
La matrice di correlazione mostra invece tutte le correlazioni (r) di tutte le possibili coppie delle variabili; è
una matrice simmetrica con elementi lungo la diagonale principale pari a 1 (correlazione con se stessa).
NB: La matrice di covarianza sui dati autoscalati corrisponde alla matrice di correlazione sui dati originali
a seconda del trattamento dei dati che ho fatto uso la matrice adatta.
14/10/15 Tecniche di proiezione - PCA
PCA rientra nel capitolo delle tecniche di proiezione: trovare il modo migliore per rappresentare i nostri dati
e visualizzarli con lo scopo di filtrare i dati e determinare i possibili dati eliminabili. Si tratta di un sottospazio
nel quale proiettare i nostri dati, scelto in modo da ottenere la minima distorsione dei dati (variabili ridotti
per mantenere l’informazione più importante). Le nuove variabili vengono anche definite variabili latenti.
Scatterplot: usato per visualizzare la configurazione dei dati.
Dove vediamo contemporaneamente lo spazio degli oggetti (i punti che corrispondono ai campioni) e lo
spazio delle variabili (vediamo le variabili originali) abbiamo il biplot.
Il vettore nello spazio geometrico è la distanza dall’origine del punto che abbiamo rappresentato. Se abbiamo
un sistema di due sole variabili ogni vettore è rappresentato dai valori delle X e delle X dei due punti. Norma
del vettore OP (lunghezza vettore) = radice della somma delle X del vettore colonna al quadrato.
La direzione di ogni vettore può essere manipolata tramite la moltiplicazione con uno scalare, detto lambda,
che è l’autovalore: è lo scalare che moltiplicato per le variabili originali mi permette di ottenere una
trasformazione di tutti i miei punti secondo una rotazione nello spazio (trasformazione angolare degli assi
quindi). Le nuove coordinate verranno identificate dalla lettera T. I vettori che definiscono le direzioni sono
chiamati autovettori; si assume che siano standardizzati così da avere lunghezza unitaria.
Le due nuove coordinate sono trasformazioni espresse secondo la formula delle matrice di rotazione; si tratta
di una trasformazione lineare. Infatti le nostre nuove variabili sono date da combinazioni lineare delle
variabili originali moltiplicate per determinati coefficienti (a) dipendenti dall’angolo di rotazione scelto.
Questo coefficiente viene scelto in base all’importanza delle variabili originali: le variabili più importanti
hanno il coefficiente di rotazione più elevato, quindi non si perde importanza.
Le trasformazioni lineari vengono interpretate come cambiamenti del sistema di riferimento.
La PCA è un metodo non parametrico (non interveniamo sui dati) che permette di ridurre la complessità del
sistema.
Es. peso e altezza degli individui plottando i dati vediamo una elevata varianza dei dati lungo T1, con una
seconda varianza lungo T2. Dato che le variabili originali X1 e X2 sono correlate, utilizzo delle nuove variabili
non correlate (T1e2), le quali non sono correlate. La rotazione viene fatta in modo da far passare la prima
componente lungo la prima direzione di varianza maggiore e la seconda componente lungo la seconda
componente di varianza perpendicolare al primo (nel caso di altre componenti si procede sempre così,
mantenendo l’ortogonalità). Gli autovettori sono le direzioni delle mie nuove componenti.
Ovviamente diversi valori di alfa mi generano diverse variabili, quindi se non scelgo l’angolo alfa ottimale non
ottengo la rappresentatività originale. Il migliore asse è quello che determina il minor spostamento dalla loro
posizione iniziare scopo è minimizzare la distanza P-P’ ed allo stesso tempo massimizzare la varianza lungo
ciascun asse.
Nel caso di p variabili, il processo continua fino a determinare p componenti ortogonali tra loro il numero
delle variabili originarie corrisponde al numero di componenti principali generate. Il processo di filtratura
viene fatto dall’operatore.
I coefficienti scelti, come detto prima, sono in funzione dell’importanza che la mia variabili del sistema
originario aveva, e vengono detti loadings (peso), indicati con la lettera l minuscola. La sommatoria dei
coefficienti al quadrato farà sempre 1. I coefficienti sono determinati in modo tale che la varianza di tm (una
PC) sia massima e che le nuove variabili tm siano mutualmente ortogonali.
Le coordinate dei nuovi oggetti sono dette scores, nel cui rispettivo grafico degli scores vengono proiettati
gli oggetti. Mentre il grafico dei loadings mi permette di vedere quanto le mie variabili originali pesano nel
mio nuovo sistema di riferimento della PC1 e PC2. Il biplot proietta sia i loadings che gli scores.
NB: l’interpretazione del nuovo sistema è molto soggettiva.
Gli outliers sono quelli molto diversi dallo spazio strutturale.
Es. vini con metalli
Può servire ad esempio per la tipizzazione degli alimenti: metto in tabella tutte le varie componenti di diversi
eleminti, faccio una PCA e posso vedere quali provengono da diverse zone magari (molto usata in fatti nella
chimica degli alimenti).
Le frecce sono le variabili originali quando le due variabili sono sovrapposte ho che le due variabili,
secondo le mie due componenti scelte, sono hanno sostanzialmente la stessa informazione.
Procedimento matematico
In pratica si lavora sulla matrice di covarianza (S) ottenuta dalla matrice dei dati X il sistema devi prima
diagonalizzare tale matrice, in modo da rendere zero tutti gli elementi fuori dalla diagonale principale.
Operando in questo modo elimino la correlazione tra le variabili (covarianza nulla), così in questo modo passo
alla ortogonalità, e ottengo la matrice degli autovalori (quella diagonalizzata). Ogni componente ha quindi la
sua varianza determinata dal valore di ogni cella lungo la diagonale, in ordine decrescente.
Gli autovettori della matrice di covarianza sono vettori a lunghezza unitaria che definiscono le direzioni delle
componenti principali. I singoli elementi degli autovettori sono i coefficienti loadings delle singole variabili
nelle combinazioni lineari (PC): sono cioè i pesi delle variabili originarie e rappresentano l’importanza di
quella specifica variabile originale nella relativa PC.
La matrice di loadings riporta nelle colonne gli autovettori, mentre nelle righe le variabili originali, è possibile
quindi vedere quando ogni variabili originaria pesa in ogni PC. Gli autovalori rappresentano la varianza
associata a ciascuna PC ed è, in generale, che gli autovalori più piccoli siano associati a variabilità dovute a
rumore od informazione non rilevante. In questo modo posso affermare con buona certezza che le
componenti con un autovettore più piccolo sono dovute a rumore o informazione molto ridondante. Ora si
procede alla scelta delle PC più significative, con un grado di soggettività.
La varianza totale del mio sistema delle PC è dato dalla traccia della mia matrice degli autovalori lungo la
diagonale fino ad m, ossia le componenti che scelgo più quelle restanti non scelte. Per ogni componente
inoltre viene fornita la varianza spiegata: considero solo la prima componente/fratto la somma di tutte le
altre X 100 per avere la %. È importante che la mia nuova interpretazione sia il più possibile basata sulle
componenti significative.
Abbiamo diagonalizzazione perché si deve annullare la covarianza tra le diverse PC.
Scelta delle componenti
Come faccio a determinare il numero delle PC significative? Esistono dei metodi matematici.
Lo scree plot è il grafico delle mie componenti con i rispettivi autovalori.
- Un modo per scegliere è osservare l’andamento della curva quando abbiamo un plateau abbiamo
sostanzialmente un modellamento della variabilità dei dati, errore sperimentale, variabilità delle
misurazioni ecc.
- Un altro modo è il calcolo dell’autovalore medio e poi si considerano tutte le variabili con un
autovalore maggiore o uguale dell’autovalore medio. Questo è calcolato automaticamente dal
sistema indicato come CAEC.
- Altro criterio che molti usano è scegliere tutte le componenti con autovalore maggiore di 1 (non
sempre coincide con il valore di AEC).
Nella matrice delle loadings posso vedere quando rappresentate le mie variabili originali sono rappresentate
da ciascuna PC. Questo mi permette di scegliere una combinazione adeguata di PC se voglio avere una
visualizzazione (grafica) più significativa.
I dati vengono visti nel sistema delle PC secondo visuali controllate per qualità e quantità a volte una
variabile è molto rappresentata in una PC, tuttavia se tale PC spiega una varianza bassissima, non è molto
informativa.
Come assunti di base abbiamo:
- La non linearità dei dati si viene a perdere (viene trasformata);
- Essendo ortogonali portano informazioni diversi;
- Essendo non parametrico la risposta è univoca indipendentemente dagli user l’interpretazione è
soggettiva.
- Essendo una multivariata, un elemento è tirato a destra non solo dall’autovettore in quella direzione,
ma anche dal vettore della direzione opposto per correlazione inversa.
È importante scalare le variabili?
I risultati della PCA sono influenzati dalla scalatura, soprattutto quando rappresentano entità diverse, hanno
valori molto diversi (unità di misura differenti) o hanno varianze non confrontabili.
Matrice covarianza dati scalati; Matrice correlazione dati originali (questo differenza vale ovviamente
solo se ho fatto la scalatura). La matrice di covarianza sui dati autoscalati corrisponde alla matrice di
correlazione sui dati originali.
20/10/15 Tecniche di proiezione - Cluster
Una cosa importante è: cosa spiega la PCA? Osservando il grafico noi abbiamo una spiegazione di una certa
% della varianza, variabile a seconda delle PC scelte. Tutte le considerazioni che abbiamo fatto quindi, sono
sì vere, ma l’altra % restante? Questa mancanza può essere spiegata con l’analisi cluster dato che si basa sul
100% dell’informazione del dataset, oltre a permettere l’identificazione in modo non soggettivo dei gruppi
partendo dagli scores della PCA.
La cluster analysis è il processo che mi permette di ricavare dei gruppi partendo dai dati esplorano i dati
ma non li modellano (non avremo un modello che mi permette di inserire nuovi dati in questi gruppi, questo
sarà la classificazione).
NB: metodi cluster qualitativi; metodi classificazione quantitativi.
Chiamiamo classe il metodo di raggruppamento individuato dalla cluster. Lo step successivo sarà quello di
creare un modello di classificazione che, sulla base delle classi stabilite, mi permette di inserire nuovi dati. La
cluster parte da dati non strutturati e crea delle classi, mentre i modelli di classificazione par