vuoi
o PayPal
tutte le volte che vuoi
ClustalW: un programma di allineamento multiplo
Uno dei programmi oggi più diffusi di allineamento multiplo che utilizza una strategia di tipo progressivo è ClustalW. Questo programma applica progressivamente l'algoritmo di allineamento dinamico a coppie di sequenze. Descriviamo i passaggi chiave di cui consiste la versione base del metodo.
FASE 1
Nella prima fase, vengono allineate tutte le sequenze (proteiche o nucleotidiche) con tutte le sequenze. Per esempio, supponiamo di avere 6 sequenze (A, B, C, D, E, F). Si allinea la sequenza A con la sequenza B, poi con la sequenza C, poi con la sequenze D, poi con la sequenza E e poi con la sequenza F. Poi si allinea la sequenza B con la sequenza C, poi con la sequenza D, poi con la sequenza E e poi con la sequenza F. Si continua allineando la sequenza C con la D, poi con la E e infine con la F. Si allinea poi la sequenza D con la E e poi con la F. Infine la sequenza E viene allineata con la F. Ovviamente la F viene allineata con la A, poi con la B, poi con la C, poi...
con la D e poi con la E, ma non lo scriviamo dato che questi allineamenti sono stati già inseriti elencando quelli precedenti. Lo stesso vale per l'allineamento di D con A ad esempio e così via. FASE 2 Una volta ottenuti tutti i possibili allineamenti, si misura il grado di somiglianza di ciascuna coppia di sequenze allineate. Si possono utilizzare svariati sistemi di misura. Uno dei più semplici è la percentuale di residui identici. Questa percentuale può essere convertita in distanza calcolando la percentuale di residui diversi (100 - percentuale di residui identici) ed essere inclusa in una matrice NxN, detta matrice delle distanze. FASE 3 La matrice delle distanze è utilizzata per costruire un albero guida attraverso il metodo neighbor joining (vedi prossimo argomento). Un albero guida è un grafico che raggruppa gli oggetti di un insieme in base al grado di somiglianza reciproca. Supponiamo di ottenere un albero guida delgenere:Dall'albero possiamo notare che la sequenza 2 e la sequenza 3 sono tra loro più simili, come la sequenza 4 e 5 sono tra loro più simili. Quindi il programma, in questo caso semplificato, procederebbe allineando la sequenza 2 con la sequenza 3. Poi continua allineando la sequenza 2-3 (cioè le due sequenze già allineate) con la sequenza 1. Infine allinea la sequenza 1-2-3 (cioè le tre sequenze già allineate) con la sequenza 4-5 (che sono le altre due sequenze già allineate tra loro). In definitiva, è come se l'allineamento multiplo venisse ricomposto a partire da tanti allineamenti a coppie. Tutte le sequenze, quindi, vengono allineate progressivamente seguendo le indicazioni dell'albero guida. Si inizia prima ad allineare le sequenze più simili e poi a queste vengono progressivamente aggiunte quelle più distanti. Le indel presenti negli allineamenti già effettuati rimangono fisse nei passaggi.
Vediamo più in dettaglio come si possono allineare due gruppi di sequenze utilizzando un algoritmo dinamico per l'allineamento a coppie. Supponiamo di voler fare un allineamento multiplo di 6 sequenze (1, 2, 3, 4, 5, 6). Forniamo al programma CLUSTALW queste sei sequenze. Il programma procede, come detto precedentemente, a fare tutti i possibili allineamenti a coppie tra le sei sequenze (fase 1); calcola il punteggio di ogni allineamento e la percentuale di residui diversi e da questi valori ottiene una matrice di distanza (fase 2); utilizzando la matrice di distanza, costruisce un albero guida (fase 3). Abbiamo detto che grazie all'utilizzo dell'albero guida procede con un allineamento progressivo. Supponiamo che il programma sia arrivato ad allineare tra loro le sequenze 1-2-3-4 e le sequenze 5-6 e supponiamo che voglia allineare la sequenza 1-2-3-4 con la sequenza 5-6. Procede disponendo le seguenti sequenze in una matrice come quella riportata di seguito:
(ovviamente le sequenze riportate sono esemplificative):
In ciascuna casella viene riportato il punteggio relativo all'allineamento tra tutti i residui di una colonna di un allineamento multiplo con tutti i residui della corrispondente colonna dell'altro allineamento. Per esempio, consideriamo i residui ela casella evidenziati nel disegno sopra riportato. Vediamo come si procede per calcolare il punteggio da inserire in quella casella evidenziata. Si considerano tutti i possibili appaiamenti tra i residui di una colonna e quelli della riga. Cioè consideriamo gli allineamenti T→V; T→I; L→V; L→I; K→V; K→I; K→V; K→I. Si calcola il punteggio relativo a ciascun allineamento e si fa la media: punteggio ottenuto dalla somma dei vari punteggi diviso il numero di allineamenti fatti. Il valore ottenuto si inserisce nella casella. Una volta approntata la matrice dinamica secondo questo schema, si calcola il percorso che definisce il miglior allineamento tra i due gruppi
di sequenze.Il metodo progressivo adottato da CLustal, per sua natura, non consente di correggere a posteriori errori nell'allineamento commessi durante le prime fasi del procedimento.
Gli errori si verificano più frequentemente quando le sequenze da allineare sono evolutivamente distanti. Il metodo progressivo, infatti, impone di allineare prima le sequenze più simili, per le quali la precisione attesa nell'allineamento è maggiore. Le sequenze molto simili contengono singolarmente meno informazione rispetto a quelle più distanti, poiché sono il risultato di un periodo evolutivo relativamente breve durante il quale non tutti i residui sono stati sufficientemente esposti a mutazione.
Pertanto, le posizioni che appaiono conservate all'interno di questo gruppo di sequenze affini possono essere semplicemente conseguenza di una evoluzione troppo breve piuttosto che di pressione selettiva. Questo fatto può distorcere
possibile modo per formattare il testo utilizzando tag HTML potrebbe essere il seguente:l'allineamento, perché la distribuzione dei punteggi calcolati nella matrice dinamica tenderanno a far coincidere il più possibile i residui simili anche a scapito dell'introduzione di indel che potrebbero invece migliorare la somiglianza complessiva delle sequenze. Per ovviare a questa potenziale distorsione, ClustalW associa a ciascuna sequenza un peso che è proporzionale alla distanza dalla radice dell'albero guida: più la sequenza è distante e più pesa. Questo peso, a sua volta, entra in gioco nel calcolo dei punteggi iniziali della matrice dinamica. L'effetto della pesatura così concepita è di diminuire il contributo delle sequenze molto vicine evolutivamente alla formazione del punteggio iniziale nella matrice dinamica ed esaltare quello di sequenze più distanti evolutivamente. Uno