0 AB AC AD AE BC BD BE CD CE DE
La somma delle distanze è divisa per 4 perché, quando tutte le distanze vengono sommate, ciascun ramo è contato 4
volte. Ad esempio: D = L + L , D = L + L , D = L + L , D = L + L . Quando si sommano, L è contato 4 volte
AB a b AC a c AD a d AE a e a
Supponiamo che, dalla matrice delle distanze, A e B siano le sequenze più vicine, che quindi abbiano la distanza D minore
tra tutte le sequenze della matrice. Esse sono più distanti dalle altre sequenze perché sono quelle che si assomigliano
di più, pertanto vanno connesse allo stesso nodo.
A tal punto è necessario calcolare nuovamente la lunghezza dell’albero. Rispetto all’albero iniziale, c’è un segmento in
più, il segmento L XY. 1
L = (D + D + D + D + D + D ) – 3 (L + L ) – 2 (L + L + L )
XY AC AD AE BC BD BE aX bX c d e
6 L + L =D
aX bX AB
1
L + L + L = (D + D + D )
c d e CD CE DE
2
La lunghezza totale del nuovo albero è: S = L + L + L + L + L + L
ab XY aX bX c d e
A tal punto, A e B sono considerato come un unico nodo; si può calcolare una nuova matrice delle distanze, utilizzata
per fare un altro raggruppamento e per costruire un nuovo albero, utilizzato per calcolare una nuova matrice delle
distanze.
Esempio:
Fase 3: Allineamento progressivo in base all’ordine dato dall’albero
Le sequenze sono progressivamente allineate seguendo le indicazioni dell’albero guida. Si inizia ad allineare le sequenze
più simili e poi, a queste vengono progressivamente aggiunte quelle più distanti. È come se l’allineamento multiplo
venisse ricomposto a partire da allineamenti a coppie.
Il metodo dell’allineamento progressivo, però, presenta degli svantaggi:
• un errore commesso negli allineamenti iniziali si propaga durante tutta la procedura
• non c’è garanzia di trovare l’allineamento ottimale
• con un’omologia iniziale inferiore al 15%, i risultati possono essere poco affidabili
• idealmente tutte le sequenze input devono avere un certo grado di somiglianza e lunghezze paragonabili per
evitare l’eccessiva inserzione di gap
Per migliorare l’accuratezza degli allineamenti e minimizzare la probabilità di errore, si possono adottare diversi
accorgimenti:
Pesatura delle sequenze È una procedura impiegata quando nel gruppo iniziale ci sono sequenze
evolutivamente vicine, quindi molto conservate, e altre più distanti. Le sequenze
molto simili contengono meno informazioni rispetto a quelle più distanti, perché
sono il risultato di un periodo evolutivo relativamente breve durante il quale non
tutti i residui sono stati sufficientemente esposti a mutazione. Pertanto, le posizioni
che appaiono conservate all'interno di questo gruppo di sequenze affini possono
essere semplicemente conseguenza di un'evoluzione troppo breve piuttosto che di
pressione selettiva. La presenza di queste zone conservate può influenzare e
distorcere le fasi successive della costruzione dell'allineamento multiplo. Sequenze
evolutivamente più distanti, possono contenere informazioni importanti; tuttavia,
queste sono più difficili da allineare.
Per ovviare a questa distorsione, Clustal W associa a ciascuna sequenza un peso che
è proporzionale alla distanza dalle altre sequenze. Per prima cosa si assegna alla
radice all'albero guida, poi si attribuisce un peso alla sequenza direttamente
proporzionale alla distanza della radice: più è distante, più pesa.
Correzione penalizzazione Uno dei problemi principali da risolvere per ottenere allineamenti affidabili è il
delle indel corretto posizionamento delle indel, che dipende dai parametri utilizzati nella
funzione di penalizzazione w(k) = g + kg .
op ex
g : penalizzazione per inserimento di un’indel
op
kg : penalizzazione per allungamento di un’indel
ex
Ricordiamo che la difficoltà nel corretto posizionamento delle indel aumenta con
l’aumentare della distanza delle sequenze che si allineano, perché avranno più
gap.
Per questo motivo, in Clustal W è stata prevista la variazione dinamica dei due
parametri della funzione di penalizzazione delle indel:
• i parametri sono fatti variare a seconda della matrice di sostituzione scelta
• g aumenta se le sequenze da allineare hanno alta similarità (sequenze simili
op
→ meno gap)
• g è proporzionale alle lunghezze delle sequenze da allineare (sequenze brevi
op
→ meno gap sequenze lunghe → più gap)
• g è proporzionale alla differenza di lunghezza delle sequenze da allineare
ex
(piccola differenza → gap più brevi differenza grande → gap più lunghi)
Inoltre, la funzione di penalizzazione potrebbe non essere adeguata lungo tutta
la lunghezza delle sequenze, poiché potrebbero esserci alcune zone in cui le indel
sono più probabili che in altre. Clustal W può variare i pesi di penalizzazione in
funzione della posizione dell’allineamento nella quale devono essere applicati:
• g diminuisce in regioni propense ai gap (es. loop esposti al solvente)
op
• g aumenta nelle 8 posizioni fiancheggianti un gap (gap vicini sono
op
improbabili)
• g diminuisce se ci sono almeno 5 residui idrofilici consecutivi (zone
op
potenzialmente esposte al solvente)
• g si moltiplica per un valore calcolato (Pascarella & Argos, 1991) sulle
op
frequenze relative con cui un certo residuo può avere un gap affianco
Variazione matrice di punteggio Abbiamo detto che le matrici di punteggio sono tarate per valutare le
probabilità di sostituzione amminoacidica tra sequenze separate da un
certo periodo evolutivo. Clustal W sceglie la matrice di punteggio in base
alla differenza attesa tra le sequenze o tra gruppi di sequenze che devono
essere allineate. Per esempio, se i due gruppi differiscono tra lo 0 e il 20%
dei residui, si utilizza la PAM20; se differiscono tra il 40% il 60%, si seleziona
la PAM120, e così via.
Grazie a questi accorgimenti, Clustal W fornisce allineamenti multipli
affidabili.
Clustal W è diventato negli anni un metodo di riferimento per i biologi. Il programma però non è stato sostanzialmente
più aggiornato dalla sua messa a punto nel 1994 e quindi permangono i suoi limiti, specialmente nel caso in cui si
debbano allineare molte sequenze distanti tra loro. La ricerca in questo ambito è andata avanti fino a proporre nuovi
algoritmi capaci di calcolare allineamenti multipli più precisi anche nelle condizioni in cui Clustal W mostra i suoi limiti.
Alcuni di questi programmi si possono considerare un'estensione di Clustal W perché usano la sua logica abbinata a un
diverso sistema per quantificare la somiglianza tra le sequenze basato sulla coerenza. Ciò significa che, se abbiamo tre
sequenze A, B e C e allineiamo A con B e B con C e mettiamo insieme i due allineamenti in modo da ottenere un
allineamento multiplo a 3 sequenze, in modo implicito abbiamo definito anche l’allineamento da A e C. Questo
allineamento, però, può essere diverso (incoerente) rispetto a quello che si otterrebbe allineando direttamente A con
C. Allora si può cercare un allineamento multiplo che massimizzi la coerenza tra gli allineamenti a coppie contenuti
nell’allineamento multiplo e quelli ottenuti direttamente allineando le singole sequenze.
T-COFFEE
T-Coffee è uno dei primi programmi a utilizzare la logica della coerenza ed è stato sviluppato in collaborazione con uno
degli autori di Clustal W, Desmond Higgins (Notredame et al. 2000). T-Coffee è l'acronimo di Tree-based consistenty
objective function for alignment evaluation e rappresenta un sistema per trovare, attraverso un procedimento
progressivo del tutto simile a Clustal W, un allineamento multiplo che sia il più possibile coerente con un insieme di
vincoli esterni. I vincoli consistono in un insieme di allineamenti a coppie, locali e globali, tra le sequenze da allineare, al
quale l'allineamento multiplo finale deve conformarsi il più possibile.
Il procedimento che segue il programma prevede le seguenti fasi:
Fase 1: Costruzione degli allineamenti a coppie locali e globali
Per N sequenze si avranno N(N-1)/2 allineamenti di ciascun tipo.
Fase 2: Derivazione vincoli primari
Dall'insieme degli allineamenti così ottenuti si derivano i vincoli primari. A ciascuna coppia di residui appaiati in un
allineamento viene assegnato un peso direttamente proporzionale alla somiglianza tra le rispettive sequenze. Come
abbiamo detto più volte, l'accuratezza di un allineamento è proporzionale alla somiglianza tra le sequenze. Per esempio,
supponiamo di avere due sequenze A e B, che sono simili per l'88% dei residui. Supponiamo che nell'allineamento a
coppie la glicina in posizione 20 di A corrisponda all’alanina in posizione 21 di B. Alla coppia Gly (A20) – Ala (B21) si
assegna il peso 88. I vincoli ottenuti da ciascun tipo di allineamento vengono combinati a formare la lista dei vincoli
primari. Se la coppia Gly (A20) – Ala (B21) è presente nell’insieme degli allineamenti locali e globali, allora
complessivamente le viene assegnato un peso che è pari alla somma dei due pesi originali (per esempio 88 + 88 = 176).
Se una coppia è presente solo in un tipo di allineamento, allora mantiene il suo peso originale.
Fase 3: Costruzione dei vincoli estesi
Ancora più utile ai fini dell’allineamento multiplo è capire quante volte la stessa coppia di residui delle sequenze A e B
si ritrova appaiata coerentemente in altri allineamenti della collezione prodotta nella fase 1. La procedura prevede l’uso
di triplette di sequenze in cui due membri sono sempre la sequenza A e B e la terza ciascuna delle sequenze rimanenti.
Il programma valuta quante volte l’appaiamento Gly (A20) – Ala (B21) che si verifica in A-B si trova anche in A-C e B-C.
A quella coppia di residui è attribuito un peso che riflette il proprio grado di coerenza e che dipende dal peso delle
coppie delle sequenze in cui è presente.
T-Coffee produce allineamenti migliori di Clustal W. Tuttavia, il principale svantaggio del programma è rappresentato
dalla maggiore complessità algoritmica che lo rende dispendioso dal punto di vista del calcolo. Pertanto, per numeri
elevati di sequenze, generalmente maggiori di 100, la sua esecuzione su calcolatori desktop diventa problematica.
Una variante del programma chiamata 3D-Coffee (O’ Sullivan et al. 2004) sfrutta l’informazione sulla struttura
tridimensionale delle proteine comprese nel gruppo da allineare. La disponibilità dell’informazione strutturale è
utilizzata per calcolare allineamento a
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
-
Riassunto esame Metodologie biomolecolari e bioinformatiche, Prof. Melfi Raffaella, libro consigliato Fondamenti di…
-
Riassunto esame Biochimica di proteine e sistemi, Prof. F. Polticelli, libro consigliato Introduzione alla struttur…
-
Bioinformatica - 2 modulo Appunti
-
Riassunto esame Psicologia clinica, Prof. Gandino Gabriella, libro consigliato Il Rorschach di coppia, Gabriella Ga…