Chemiometria
Introduzione - matrici
Chemiometria = metrica dei dati chimici, branca dell'analisi multivariata (analisi di insieme di dati complessi, rappresentati da più variabili). Nata inizialmente nell'ambito economico (infatti si chiamava econometria). Usato moltissimo in farmaceutica. Estrarre informazione rilevante dai dati eliminare informazione ridondante.
Complessità: nell'insieme dei dati ci sono diversi effetti da elaborare e discriminare cosa è rilevante e cosa no. Abbiamo effetti non lineari di disturbo dei dati, olistici e sinergici (dati che vanno nello stesso senso con lo stesso trend, e ciò porta a variabili altamente correlate), rumore (presente in ogni analisi sperimentale).
La chemiometria ha come scopo quello di confrontare diversi metodi di analisi per giungere a un consenso e (soprattutto) di sviluppare modelli per riprodurre i dati analizzati e predirne di nuovi.
Pretrattamento dei dati
- Variabili costanti per tutti i campioni si definiscono degeneri non sono informative data l'assenza di varianza.
- Scaling tecniche di scalatura che permettono di analizzare meglio i dati.
Matrici X (n, p) = n righe x p colonne; Xij = singolo elemento della matrice. X = matrice; x = vettore colonna della matrice; x = singolo valore della matrice. Nel caso si possono anche avere risposte categoriche (es. mutageno o non mutageno), ossia secondo una classe (definite tramite numeri ma non continui).
Quando faremo regressione invece si avranno variabili indipendenti, le X predittori, e i valori dipendenti, le Y risposte con un valore continuo (una o più risposte). Ogni colonna di una matrice si chiama vettore, è quindi una matrice di dimensione (n, 1); il centroide è invece il vettore delle medie. Un vettore è una lista di n elementi (numeri) ed in algebra il vettore è sempre inteso come vettore colonna.
Matrice trasposta = scambiare righe con colonne. Matrice quadrata = n uguale a p; rettangolare = n diverso da p; Diagonale principale = insieme degli elementi che hanno lo stesso indice. Traccia di una matrice = solo per matrici quadrate, somma degli elementi della diagonale principale.
Matrice simmetrica = solo per matrici quadrate, gli elementi corrispondenti, a parte la diagonale principale, sono uguali. Matrice unità = matrice con tutti 1, si indica con J. Matrice diagonale = matrice quadrata con tutti gli elementi, a parte quelli della diagonale principale pari a 0; se gli elementi lungo la diagonale principale sono 1 si dice matrice identità.
Norma e operazioni sulle matrici
La norma (o lunghezza) del vettore = radice quadrata della somma dei quadrati dei suoi elementi, corrisponde alla moltiplicazione della matrice A per la sua trasposta AT. Se il vettore è normale (o normalizzato) ha la norma pari a 1.
Somma algebrica di matrici: solo se le matrici hanno lo stesso n e p. Prodotto per uno scalare: moltiplicare ogni elemento per lo scalare. Prodotto di matrici: numero di colonne X1 = numero di righe X2. L'ordine del prodotto è fondamentale, se ho due matrici A e B con n, p e p, n AB = n x n; mentre BA = p x p. Se moltiplico una matrice con la matrice identità i valori non cambiano.
Valori mancanti
Le scelte sono in funzione del tipo di informazione che voglio mantenere: posso eliminare delle righe (perdendo quindi il campione che si riferiva a un sito rilevante), oppure delle colonne (per eliminare delle variabili non misurate in tutti i campioni). La scelta è arbitraria, ad esempio se si vuole ottenere una risposta più precisa possibile si tengono tutte le risposte.
I migliori metodi sono sostituzione con media della variabile, regressione della variabile (migliore), o similarità per valori strutturalmente vicina o sostituzione con PCA (ovviamente qui sarà presente del bias).
Trattamento dei dati
- Analisi esplorativa: trarre informazione dai dati, quindi solo interpretazione ma senza modellamento. Cluster e PCA.
- Regressione: sviluppo modello applicabile anche a dati nuovi.
Trasportare sempre dati in tabella in grafici per visualizzare l'informazione. La scelta del metodo di analisi multivariata dipende dalla natura del problema e dal tipo di dati. Variabili qualitative o categoriche dividono solo il campione in diverse classi; quelle binarie o dicotomiche hanno invece solo due classi (presenza assenza). Variabili quantitative modelli regressione; variabili qualitative modelli classificazione.
Tipologie di variabili
Quantitative: discrete (numeri naturali) oppure continue (numeri reali); qualitative: nominali (nome della categoria di appartenenza) oppure ordinali (ranking delle categorie, es. tossicità alta, media, bassa). Distribuzione bimodale: si distribuiscono in due famiglie, secondo due valori della X ad esempio. Distribuzione normale: caso migliore nelle analisi di regressione, pochi dati con valori alti e bassi e molti dati in corrispondenza del valore medio.
A seconda della distribuzione si stabilisce quale analisi applicare ai dati: es. analisi bimodale ovviamente si fanno analisi di classificazione. Trasformazioni di una variabile: passaggio essenziale per stabilizzare la varianza, avvicinarsi di più a una distribuzione normale (scopo principale) o linearizzare la relazione tra le variabili.
Una delle trasformazioni più comuni è il logaritmo: della variabile stessa, sommando uno o fare l'inverso della variabile; oppure quadratica (poco usata). Ce ne sono molte altre (Todeschini), ma trasformare troppo i dati con algoritmi più complessi si rischia di manipolare troppo i dati.
Scalatura delle variabili
La scalatura delle variabili si effettua molto per permettere il confronto tra variabili con dimensioni numeriche troppo distinte. Deve ovviamente essere realizzata su tutte le variabili contemporaneamente, è un pretrattamento dei dati molto importante ed alcuni metodi di modellamento implicano la scalatura dei dati. Si può evitare solo quando tutte le variabili rappresentano la stessa quantità, le loro scale di misura sono le stesse e le varianze sono almeno confrontabili.
La scalatura può essere fatta in diversi modi:
- Centratura rispetto al valore medio: ad ogni oggetto si sottrae la media (la matrice media ha lo stesso valore per ogni colonna per ogni riga)
- Scalatura sul valore massimo: elemento della matrice originaria diviso il valore massimo della distribuzione
- Scalatura di intervallo: ogni singolo oggetto meno il minimo, diviso il valore massimo meno il minimo
- Scalatura unitaria: divisione per la deviazione standard
- Autoscaling: centratura divisa la deviazione standard
Provare diverse tipologie di scalatura ragionevoli per verificare che tipologia di risultato si ottenga devono essere congrue le previsioni, altrimenti ho manipolato i dati in modo errato.
Associazione tra variabili
Molto utile proiettare i campioni in grafico. Il grado di avvicinamento alla curva mi definisce quanto sono correlate, mentre la formula matematica mi indica il tipo di distribuzione.
Se c'è associazione lineare tra due variabili un parametro importante da misurare è la covarianza, ossia un indice di quanto le variabili variano insieme positiva o negativa se aumentano o diminuiscono insieme, oppure nulla se non esiste associazione lineare. A differenza della covarianza, la varianza e la deviazione standard operano solo su 1 dimensione.
Il coefficiente di correlazione (è correlato alla varianza ma non sono la stessa cosa) si definisce con r1,2 (della variabili uno con la variabile 2) e si definisce come la covarianza tra le due variabili diviso il prodotto delle due deviazioni standard (in formula r = S12/S1*S2). Quando siamo in presenza di associazione nulla NON significa indipendenza! Ma solo che non c'è correlazione lineare.
Le variabili possono essere correlate tra di loro, ma non significa che abbiamo lo stesso significato; hanno però la stessa proprietà di descrivere il mio sistema e quindi possono essere scambiate nel mio studio (es. una variabile sperimentale è difficile da interpretare e quindi posso ricorrere ad una variabile più facile da ottenere).
La matrice di covarianza permette di mostrare le covarianze delle variabili del mio sistema (almeno due!) secondo tutte le possibili coppie. Si tratta di una matrice quadrata (p, p) simmetrica (ovviamente, dato che la correlazione tra la variabile 1,2 è la stessa della variabile 2,1). I valori della varianza di ciascuna variabile sono invece gli elementi della variabile principale.
La matrice di correlazione mostra invece tutte le correlazioni (r) di tutte le possibili coppie delle variabili; è una matrice simmetrica con elementi lungo la diagonale principale pari a 1 (correlazione con se stessa). NB: La matrice di covarianza sui dati autoscalati corrisponde alla matrice di correlazione sui dati originali a seconda del trattamento dei dati che ho fatto uso la matrice adatta.
Tecniche di proiezione - PCA
PCA rientra nel capitolo delle tecniche di proiezione: trovare il modo migliore per rappresentare i nostri dati e visualizzarli con lo scopo di filtrare i dati e determinare i possibili dati eliminabili. Si tratta di un sottospazio nel quale proiettare i nostri dati, scelto in modo da ottenere la minima distorsione dei dati (variabili ridotte per mantenere l'informazione più importante). Le nuove variabili vengono anche definite variabili latenti.
Scatterplot: usato per visualizzare la configurazione dei dati. Dove vediamo contemporaneamente lo spazio degli oggetti (i punti che corrispondono ai campioni) e lo spazio delle variabili (vediamo le variabili originali) abbiamo il biplot.
Il vettore nello spazio geometrico è la distanza dall'origine del punto che abbiamo rappresentato. Se abbiamo un sistema di due sole variabili ogni vettore è rappresentato dai valori delle X e delle X dei due punti. Norma del vettore OP (lunghezza vettore) = radice della somma delle X del vettore colonna al quadrato.
La direzione di ogni vettore può essere manipolata tramite la moltiplicazione con uno scalare, detto lambda, che è l'autovalore: è lo scalare che moltiplicato per le variabili originali mi permette di ottenere una trasformazione di tutti i miei punti secondo una rotazione nello spazio (trasformazione angolare degli assi quindi). Le nuove coordinate verranno identificate dalla lettera T. I vettori che definiscono le direzioni sono chiamati autovettori; si assume che siano standardizzati così da avere lunghezza unitaria.
Le due nuove coordinate sono trasformazioni espresse secondo la formula delle matrice di rotazione; si tratta di una trasformazione lineare. Infatti le nostre nuove variabili sono date da combinazioni lineare delle variabili originali moltiplicate per determinati coefficienti (a) dipendenti dall'angolo di rotazione scelto. Questo coefficiente viene scelto in base all'importanza delle variabili originali: le variabili più importanti hanno il coefficiente di rotazione più elevato, quindi non si perde importanza.
Le trasformazioni lineari vengono interpretate come cambiamenti del sistema di riferimento. La PCA è un metodo non parametrico (non interveniamo sui dati) che permette di ridurre la complessità del sistema. Es. peso e altezza degli individui plottando i dati vediamo una elevata varianza dei dati lungo T1, con una seconda varianza lungo T2. Dato che le variabili originali X1 e X2 sono correlate, utilizzo delle nuove variabili non correlate (T1e2), le quali non sono correlate. La rotazione viene fatta in modo da far passare la prima componente lungo la prima direzione di varianza maggiore e la seconda componente lungo la seconda componente di varianza perpendicolare al primo (nel caso di altre componenti si procede sempre così, mantenendo l'ortogonalità).
Gli autovettori sono le direzioni delle mie nuove componenti. Ovviamente diversi valori di alfa mi generano diverse variabili, quindi se non scelgo l'angolo alfa ottimale non ottengo la rappresentatività originale. Il migliore asse è quello che determina il minor spostamento dalla loro posizione iniziale scopo è minimizzare la distanza P-P' ed allo stesso tempo massimizzare la varianza lungo ciascun asse.
Nel caso di p variabili, il processo continua fino a determinare p componenti ortogonali tra loro il numero delle variabili originarie corrisponde al numero di componenti principali generate. Il processo di filtratura viene fatto dall'operatore. I coefficienti scelti, come detto prima, sono in funzione dell'importanza che la mia variabili del sistema originario aveva, e vengono detti loadings (peso), indicati con la lettera l minuscola. La sommatoria dei coefficienti al quadrato farà sempre 1. I coefficienti sono determinati in modo tale che la varianza di tm (una PC) sia massima e che le nuove variabili tm siano mutualmente ortogonali.
Le coordinate dei nuovi oggetti sono dette scores, nel cui rispettivo grafico degli scores vengono proiettati gli oggetti. Mentre il grafico dei loadings mi permette di vedere quanto le mie variabili originali pesano nel mio nuovo sistema di riferimento della PC1 e PC2. Il biplot proietta sia i loadings che gli scores.
NB: l'interpretazione del nuovo sistema è molto soggettiva. Gli outliers sono quelli molto diversi dallo spazio strutturale. Es. vini con metalli. Può servire ad esempio per la tipizzazione degli alimenti: metto in tabella tutte le varie componenti di diversi elementi, faccio una PCA e posso vedere quali provengono da diverse zone magari (molto usata in fatto nella chimica degli alimenti). Le frecce sono le variabili originali quando le due variabili sono sovrapposte ho che le due variabili, secondo le mie due componenti scelte, sono hanno sostanzialmente la stessa informazione.
Procedimento matematico
In pratica si lavora sulla matrice di covarianza (S) ottenuta dalla matrice dei dati X il sistema devia prima diagonalizzare tale matrice, in modo da rendere zero tutti gli elementi fuori dalla diagonale principale. Operando in questo modo elimino la correlazione tra le variabili (covarianza nulla), così in questo modo passo alla ortogonalità, e ottengo la matrice degli autovalori (quella diagonalizzata). Ogni componente ha quindi la sua varianza determinata dal valore di ogni cella lungo la diagonale, in ordine decrescente.
Gli autovettori della matrice di covarianza sono vettori a lunghezza unitaria che definiscono le direzioni delle componenti principali. I singoli elementi degli autovettori sono i coefficienti loadings delle singole variabili nelle combinazioni lineari (PC): sono cioè i pesi delle variabili originarie e rappresentano l'importanza di quella specifica variabile originale nella relativa PC.
La matrice di loadings riporta nelle colonne gli autovettori, mentre nelle righe le variabili originali, è possibile quindi vedere quando ogni variabile originaria pesa in ogni PC. Gli autovalori rappresentano la varianza associata a ciascuna PC ed è, in generale, che gli autovalori più piccoli siano associati a variabilità dovute a rumore od informazione non rilevante. In questo modo posso affermare con buona certezza che le componenti con un autovettore più piccolo sono dovute a rumore o informazione molto ridondante. Ora si procede alla scelta delle PC più significative, con un grado di soggettività.
La varianza totale del mio sistema delle PC è dato dalla traccia della mia matrice degli autovalori lungo la diagonale fino ad m, ossia le componenti che scelgo più quelle restanti non scelte. Per ogni componente inoltre viene fornita la varianza spiegata: considero solo la prima componente/fratto la somma di tutte le altre X 100 per avere la %. È importante che la mia nuova interpretazione sia il più possibile basata sulle componenti significative. Abbiamo diagonalizzazione perché si deve annullare la covarianza tra le diverse PC.
Scelta delle componenti
Come faccio a determinare il numero delle PC significative? Esistono dei metodi matematici. Lo scree plot è il grafico delle mie componenti con i rispettivi autovalori.
- Un modo per scegliere è osservare l'andamento della curva quando abbiamo un plateau abbiamo sostanzialmente un modellamento della variabilità dei dati, errore sperimentale, variabilità delle misurazioni ecc.
- Un altro modo è il calcolo dell'autovalore medio e poi si considerano tutte le variabili con un autovalore maggiore o uguale dell'autovalore medio. Questo è calcolato automaticamente dal sistema indicato come CAEC.
- Altro criterio che molti usano è scegliere tutte le componenti con autovalore maggiore di 1 (non sempre coincide con il valore di AEC).
Nella matrice delle loadings posso vedere quando rappresentate le mie variabili originali sono rappresentate da ciascuna PC. Questo mi permette di scegliere una combinazione adeguata di PC se voglio avere una visualizzazione (grafica) più significativa. I dati vengono visti nel sistema delle PC secondo visuali controllate per qualità e quantità a volte una variabile è molto rappresentata in una PC, tuttavia se tale PC spiega una varianza bassissima, non è molto informativa.
Come assunti di base abbiamo:
- La non linearità dei dati si viene a perdere (viene trasformata);
- Essendo ortogonali portano informazioni diversi;
- Essendo non parametrico la risposta è univoca indipendentemente dagli user l'interpretazione è soggettiva.
- Essendo una multivariata, un elemento è tirato a destra non solo dall'autovettore in quella direzione, ma anche dal vettore della direzione opposto per correlazione inversa.
È importante scalare le variabili per migliorare l'analisi multivariata e ottenere risultati coerenti e significativi.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
-
Chimica analitica con elementi di chemiometria
-
Chimica analitica elettrochimica chemiometria - esercizi
-
Chemiometria e analisi dati in chimica
-
Riassunto esame linguistica Italiana, prof. Papa, libro consigliato Dal Mondo Alle Parole, Papa, Cacia, Verdiani