Chemiometria, prof: E. Papa

Contenuti

(1) Introduzione – matrici

(2) Metodi chemiometrici: trattamento dei dati, (tipi scalatura, valori mancanti, creazione dataset)

(3) Tecniche di proiezione PCA, CLUSTER e MDS: principi e teoria, scelta componenti principali, tipi di distanze, background matematico, interpretazione.

(4) Data modelling: regressione MLR e principal component regression (PCR), definizioni, concetto di bias, fitting, validazione interna ed esterna, parametri statistici (R2, Q2, etc.). Algoritmi genetici, selezione stepwise.
Modelli di classificazione k-NN, analisi discriminanti (LDA, QDA), CART.

(5) REACH ed implicazioni europee, freely available database.

Esame Chemiometria

Facoltà Scienze matematiche fisiche e naturali

Dal corso del Prof. Papa Ester

Università Università degli Studi dell' Insubria

Publisher filippo.lunghini

A.A. 2015-2016

35 pagine

Appunto

Vota 4,0 / 5 (1)

Scarica

Estratto del documento

CT

X X

 C

S 

n 1

La matrice di correlazione mostra invece tutte le correlazioni (r) di tutte le possibili coppie delle variabili; è

una matrice simmetrica con elementi lungo la diagonale principale pari a 1 (correlazione con se stessa). 

NB: La matrice di covarianza sui dati autoscalati corrisponde alla matrice di correlazione sui dati originali

a seconda del trattamento dei dati che ho fatto uso la matrice adatta.

14/10/15 Tecniche di proiezione - PCA

PCA rientra nel capitolo delle tecniche di proiezione: trovare il modo migliore per rappresentare i nostri dati

e visualizzarli con lo scopo di filtrare i dati e determinare i possibili dati eliminabili. Si tratta di un sottospazio

nel quale proiettare i nostri dati, scelto in modo da ottenere la minima distorsione dei dati (variabili ridotti

per mantenere l’informazione più importante). Le nuove variabili vengono anche definite variabili latenti.

Scatterplot: usato per visualizzare la configurazione dei dati.

Dove vediamo contemporaneamente lo spazio degli oggetti (i punti che corrispondono ai campioni) e lo

spazio delle variabili (vediamo le variabili originali) abbiamo il biplot.

Il vettore nello spazio geometrico è la distanza dall’origine del punto che abbiamo rappresentato. Se abbiamo

un sistema di due sole variabili ogni vettore è rappresentato dai valori delle X e delle X dei due punti. Norma

del vettore OP (lunghezza vettore) = radice della somma delle X del vettore colonna al quadrato.

La direzione di ogni vettore può essere manipolata tramite la moltiplicazione con uno scalare, detto lambda,

che è l’autovalore: è lo scalare che moltiplicato per le variabili originali mi permette di ottenere una

trasformazione di tutti i miei punti secondo una rotazione nello spazio (trasformazione angolare degli assi

quindi). Le nuove coordinate verranno identificate dalla lettera T. I vettori che definiscono le direzioni sono

chiamati autovettori; si assume che siano standardizzati così da avere lunghezza unitaria.

Le due nuove coordinate sono trasformazioni espresse secondo la formula delle matrice di rotazione; si tratta

di una trasformazione lineare. Infatti le nostre nuove variabili sono date da combinazioni lineare delle

variabili originali moltiplicate per determinati coefficienti (a) dipendenti dall’angolo di rotazione scelto.

Questo coefficiente viene scelto in base all’importanza delle variabili originali: le variabili più importanti

hanno il coefficiente di rotazione più elevato, quindi non si perde importanza.

Le trasformazioni lineari vengono interpretate come cambiamenti del sistema di riferimento.

La PCA è un metodo non parametrico (non interveniamo sui dati) che permette di ridurre la complessità del

sistema. 

Es. peso e altezza degli individui plottando i dati vediamo una elevata varianza dei dati lungo T1, con una

seconda varianza lungo T2. Dato che le variabili originali X1 e X2 sono correlate, utilizzo delle nuove variabili

non correlate (T1e2), le quali non sono correlate. La rotazione viene fatta in modo da far passare la prima

componente lungo la prima direzione di varianza maggiore e la seconda componente lungo la seconda

componente di varianza perpendicolare al primo (nel caso di altre componenti si procede sempre così,

mantenendo l’ortogonalità). Gli autovettori sono le direzioni delle mie nuove componenti.

Ovviamente diversi valori di alfa mi generano diverse variabili, quindi se non scelgo l’angolo alfa ottimale non

ottengo la rappresentatività originale. Il migliore asse è quello che determina il minor spostamento dalla loro



posizione iniziare scopo è minimizzare la distanza P-P’ ed allo stesso tempo massimizzare la varianza lungo

ciascun asse. 

Nel caso di p variabili, il processo continua fino a determinare p componenti ortogonali tra loro il numero

delle variabili originarie corrisponde al numero di componenti principali generate. Il processo di filtratura

viene fatto dall’operatore.

I coefficienti scelti, come detto prima, sono in funzione dell’importanza che la mia variabili del sistema

originario aveva, e vengono detti loadings (peso), indicati con la lettera l minuscola. La sommatoria dei

coefficienti al quadrato farà sempre 1. I coefficienti sono determinati in modo tale che la varianza di tm (una

PC) sia massima e che le nuove variabili tm siano mutualmente ortogonali.

Le coordinate dei nuovi oggetti sono dette scores, nel cui rispettivo grafico degli scores vengono proiettati

gli oggetti. Mentre il grafico dei loadings mi permette di vedere quanto le mie variabili originali pesano nel

mio nuovo sistema di riferimento della PC1 e PC2. Il biplot proietta sia i loadings che gli scores.

NB: l’interpretazione del nuovo sistema è molto soggettiva.

Gli outliers sono quelli molto diversi dallo spazio strutturale.

Es. vini con metalli

Può servire ad esempio per la tipizzazione degli alimenti: metto in tabella tutte le varie componenti di diversi

eleminti, faccio una PCA e posso vedere quali provengono da diverse zone magari (molto usata in fatti nella

chimica degli alimenti). 

Le frecce sono le variabili originali quando le due variabili sono sovrapposte ho che le due variabili,

secondo le mie due componenti scelte, sono hanno sostanzialmente la stessa informazione.

Procedimento matematico 

In pratica si lavora sulla matrice di covarianza (S) ottenuta dalla matrice dei dati X il sistema devi prima

diagonalizzare tale matrice, in modo da rendere zero tutti gli elementi fuori dalla diagonale principale.

Operando in questo modo elimino la correlazione tra le variabili (covarianza nulla), così in questo modo passo

alla ortogonalità, e ottengo la matrice degli autovalori (quella diagonalizzata). Ogni componente ha quindi la

sua varianza determinata dal valore di ogni cella lungo la diagonale, in ordine decrescente.

Gli autovettori della matrice di covarianza sono vettori a lunghezza unitaria che definiscono le direzioni delle

componenti principali. I singoli elementi degli autovettori sono i coefficienti loadings delle singole variabili

nelle combinazioni lineari (PC): sono cioè i pesi delle variabili originarie e rappresentano l’importanza di

quella specifica variabile originale nella relativa PC.

La matrice di loadings riporta nelle colonne gli autovettori, mentre nelle righe le variabili originali, è possibile

quindi vedere quando ogni variabili originaria pesa in ogni PC. Gli autovalori rappresentano la varianza

associata a ciascuna PC ed è, in generale, che gli autovalori più piccoli siano associati a variabilità dovute a

rumore od informazione non rilevante. In questo modo posso affermare con buona certezza che le

componenti con un autovettore più piccolo sono dovute a rumore o informazione molto ridondante. Ora si

procede alla scelta delle PC più significative, con un grado di soggettività.

La varianza totale del mio sistema delle PC è dato dalla traccia della mia matrice degli autovalori lungo la

diagonale fino ad m, ossia le componenti che scelgo più quelle restanti non scelte. Per ogni componente

inoltre viene fornita la varianza spiegata: considero solo la prima componente/fratto la somma di tutte le

altre X 100 per avere la %. È importante che la mia nuova interpretazione sia il più possibile basata sulle

componenti significative.

Abbiamo diagonalizzazione perché si deve annullare la covarianza tra le diverse PC.

Scelta delle componenti

Come faccio a determinare il numero delle PC significative? Esistono dei metodi matematici.

Lo scree plot è il grafico delle mie componenti con i rispettivi autovalori.



- Un modo per scegliere è osservare l’andamento della curva quando abbiamo un plateau abbiamo

sostanzialmente un modellamento della variabilità dei dati, errore sperimentale, variabilità delle

misurazioni ecc.

- Un altro modo è il calcolo dell’autovalore medio e poi si considerano tutte le variabili con un

autovalore maggiore o uguale dell’autovalore medio. Questo è calcolato automaticamente dal

sistema indicato come CAEC.

- Altro criterio che molti usano è scegliere tutte le componenti con autovalore maggiore di 1 (non

sempre coincide con il valore di AEC).

Nella matrice delle loadings posso vedere quando rappresentate le mie variabili originali sono rappresentate

da ciascuna PC. Questo mi permette di scegliere una combinazione adeguata di PC se voglio avere una

visualizzazione (grafica) più significativa. 

I dati vengono visti nel sistema delle PC secondo visuali controllate per qualità e quantità a volte una

variabile è molto rappresentata in una PC, tuttavia se tale PC spiega una varianza bassissima, non è molto

informativa.

Come assunti di base abbiamo:

- La non linearità dei dati si viene a perdere (viene trasformata);

- Essendo ortogonali portano informazioni diversi; 

- Essendo non parametrico la risposta è univoca indipendentemente dagli user l’interpretazione è

soggettiva.

- Essendo una multivariata, un elemento è tirato a destra non solo dall’autovettore in quella direzione,

ma anche dal vettore della direzione opposto per correlazione inversa.

È importante scalare le variabili?

I risultati della PCA sono influenzati dalla scalatura, soprattutto quando rappresentano entità diverse, hanno

valori molto diversi (unità di misura differenti) o hanno varianze non confrontabili.

 

Matrice covarianza dati scalati; Matrice correlazione dati originali (questo differenza vale ovviamente

solo se ho fatto la scalatura). La matrice di covarianza sui dati autoscalati corrisponde alla matrice di

correlazione sui dati originali.

20/10/15 Tecniche di proiezione - Cluster

Una cosa importante è: cosa spiega la PCA? Osservando il grafico noi abbiamo una spiegazione di una certa

% della varianza, variabile a seconda delle PC scelte. Tutte le considerazioni che abbiamo fatto quindi, sono

sì vere, ma l’altra % restante? Questa mancanza può essere spiegata con l’analisi cluster dato che si basa sul

100% dell’informazione del dataset, oltre a permettere l’identificazione in modo non soggettivo dei gruppi

partendo dagli scores della PCA. 

La cluster analysis è il processo che mi permette di ricavare dei gruppi partendo dai dati esplorano i dati

ma non li modellano (non avremo un modello che mi permette di inserire nuovi dati in questi gruppi, questo

sarà la classificazione).

 

NB: metodi cluster qualitativi; metodi classificazione quantitativi.

Chiamiamo classe il metodo di raggruppamento individuato dalla cluster. Lo step successivo sarà quello di

creare un modello di classificazione che, sulla base delle classi stabilite, mi permette di inserire nuovi dati. La

cluster parte da dati non strutturati e crea delle classi, mentre i modelli di classificazione par

Anteprima

Vedrai una selezione di 8 pagine su 35