6 T Coffee

In questo documento si fa cenno ai programmi più moderni utilizzati per l'allineamento multiplo, come il programma T-COFFEE. Documento basato su appunti personali del publisher presi …

Esame Bioinformatica

Facoltà Scienze matematiche fisiche e naturali

Dal corso del Prof. Barucca Marco

Università Università Politecnica delle Marche - Ancona

Publisher nazario.angeloro

A.A. 2018-2019

4 pagine

Appunto

Vota 3,0 / 5 (1)

Scarica

Estratto del documento

MULTIPLO DI SEQUENZE

ClustalW è divenuto negli anni un metodo di riferimento per i biologi. Il programma però non è stato sostanzialmente più aggiornato dalla sua messa a punto nel 1994 e quindi permangono i suoi limiti, specialmente nel caso in cui si debbano allineare molte sequenze distanti. Nonostante ciò, il programma mantiene ancora una sua grandissima utilità. La ricerca in questo ambito è andata avanti fino a proporre nuovi algoritmi capaci di calcolare allineamenti multipli più precisi, almeno in teoria, anche nelle condizioni in cui ClustalW mostra i suoi limiti. Alcuni di questi programmi però si possono considerare un'estensione di ClustalW, perché usano sostanzialmente la sua logica abbinata a un diverso sistema per quantificare la somiglianza tra sequenze, basato sulla coerenza (consistency). Ciò significa che: se abbiamo tre sequenze A, B, C e allineiamo A con B e B con C e mettiamo insieme i due.

allineamenti in modo daottenere uno a tre sequenze, implicitamente abbiamo definito anche l'allineamento tra A e C. Quest'allineamento multiplo implicito, però, può essere diverso (incoerente) rispetto a quello che otterremmo allineando A e C. Allora si può cercare un allineamento multiplo che massimizzi la coerenza tra gli allineamenti a coppie contenuti nell'allineamento multiplo e quelli ottenuti direttamente allineando le singole sequenze.

T-Coffee

T-Coffee è uno dei primi programmi a utilizzare la logica della coerenza. Una grossa limitazione di ClustalW è data dalla natura greedy (avido, ingordo in italiano) dell'algoritmo, nel senso che esso dipende essenzialmente dall'allineamento iniziale della prima coppia di sequenze. Una volta che i gap vengono inseriti nelle primissime fasi dell'allineamento, questi vengono fissati ed eventuali errori commessi in queste fasi non possono essere corretti. Questo problema determina

La possibilità di propagazione degli errori all'interno dell'allineamento. Al contrario, T-Coffee permette di fare modifiche, anche se da un certo punto in poi anche in questo programma non potranno essere apportate modifiche per correggere eventuali errori nell'allineamento. Vediamo le diverse fasi in cui opera questo programma:

FASE 1

Vengono fatti tutti i possibili allineamenti globali a coppie tra tutte le sequenze input, cioè ogni sequenza input viene allineata in modo globale con ciascuna sequenza input (esattamente come fa ClustalW nella fase 1). Vengono fatti anche tutti i possibili allineamenti locali a coppie tra tutte le sequenze input, cioè ogni sequenza input viene allineata con allineamento locale con ciascuna sequenza input (es: abbiamo le sequenze A, B e C; vengono fatti allineamenti locali tra A e B, A e C, B e C) e vengono presi, per ogni coppia di sequenze, i primi 10 migliori allineamenti locali.

FASE 2

A ciascuna coppia di residui appaiati sia

sequenza 2; il sesto residuo della sequenza 1 non è appaiato con alcun residuo della sequenza 2 e per questo non viene riportato nella tabella; il settimo residuo della sequenza 1 è appaiato con il settimo residuo della sequenza 2. Nell'allineamento locale, invece, vengono individuati segmenti di sequenze che presentano una somiglianza significativa. Ad esempio, nel seguente allineamento locale: Residui 1 2 3 4 5 6 7 SEQ1 A C A – G – T C A SEQ2 A G – T G C T – T Vengono individuati i seguenti segmenti allineati: Segmento 1: Residui 1-3 di SEQ1 e residui 1-3 di SEQ2 Segmento 2: Residui 5-7 di SEQ1 e residui 5-7 di SEQ2 Ad ogni segmento allineato viene assegnato un punteggio che riflette la loro somiglianza o identità. Ad esempio, nel caso dell'allineamento locale sopra riportato, i segmenti allineati avrebbero i seguenti punteggi: Segmento 1: Punteggio 60 Segmento 2: Punteggio 60 Questi punteggi possono essere utilizzati per valutare la qualità dell'allineamento e per confrontare diverse sequenze.

sequenza 2(questo non è un errore ma il fatto che il quinto residuo della prima sequenza non sia appaiato con il quinto residuo della seconda sequenza ma con il sesto residuo di quest'ultima dipende dalla presenza di un gap nella posizione 5 della sequenza 1); il settimo residuo della sequenza 1 è appaiato con il settimo residuo della sequenza 2. A ciascun appaiamento è associato un peso (W o Weight) che è direttamente proporzionale all'identità o somiglianza tra i residui amminoacidici appaiati. Quelle due stesse sequenze vengono allineate anche con un allineamento locale. Anche ai residui di queste due sequenze appaiati con allineamento locale viene assegnato un determinato peso. Per esempio, si avrà:

Residui SEQ1 Residui SEQ2 WEIGHT (peso, W)

1 1 30

2 2 30

3 3 30

15 22 10

16 23 10

FASE 3

A partire dalle due librerie globale e locale viene creata un'unica libreria primaria mediante una semplice operazione di addizione. Se una coppia di

residui appaiati tra loro si riscontra sia nell'allineamento globale di due sequenze che in quello locale delle stesse due sequenze, quell'appaiamento viene annotato una sola volta e il peso corrispondente sarà la somma del peso dato all'appaiamento dei due residui nell'allineamento globale e del peso dato all'appaiamento dei due residui nell'allineamento locale. Quindi facendo riferimento all'esempio di sopra, unendo le due librerie si avrà:

Residui SEQ1	Residui SEQ2	WEIGHT (peso, W)
1	1	60 + 30 = 90
2	2	60 + 30 = 90
3	3	40
4	6	60
5	7	60
15	22	10
16	23	10

FASE 4

Questa fase prevede l'estensione della libreria primaria. In questa fase si cerca di capire quante volte una determinata coppia di residui presente in un allineamento tra due sequenze si ritrova appaiata in altri allineamenti della collezione prodotta nel passo 1. Supponiamo di avere quattro sequenze: A, B, C e D.

SEQA → A C A G T C A

SEQB → A G T G C T T

SEQC → A G T G C A C

ASEQDA G A T C C T

Attenzione: le sequenze sopra riportate non sono ancora allineate. Quindi, supponiamo che il programma abbia avviato la fase 1 e abbia allineato la sequenza A con la sequenza B ottenendo il seguente allineamento:

SEQA A C A – G – T C A

SEQB A G – T G C T – T

Supponiamo che nella libreria primaria sia stato assegnato un peso pari a 60 alla coppia di residui A-A. Consideriamo ora l’allineamento delle sequenze A e B attraverso la sequenza C:

SEQA A C A – G – T C A

SEQC A G – T G C A C A

SEQB A G – T G C T – T

Vediamo che la coppia A-A la ritroviamo anche in prima posizione nell’allineamento tra A e C e in prima posizione nell’allineamento tra C e B. Concludiamo, quindi, che c’è un allineamento indiretto tra il residuo in posizione 1 della sequenza A e il residuo in posizione 1 della sequenza B attraverso la sequenza C. Supponiamo che il programma abbia dato peso pari a 66 alla coppia A-A

C è 76.

Anteprima

Vedrai una selezione di 1 pagina su 4

Acquista con carta o PayPal

Scarica i documenti tutte le volte che vuoi

Dettagli

SSD

Ingegneria industriale e dell'informazione ING-INF/06 Bioingegneria elettronica e informatica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher nazario.angeloro di informazioni apprese con la frequenza delle lezioni di Bioinformatica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università Politecnica delle Marche - Ancona o del prof Barucca Marco.

Appunti correlati

Invia appunti e guadagna

Recensioni

3/5

1 recensione

5 stelle

4 stelle

3 stelle

2 stelle

1 stella

Ti è piaciuto questo appunto?

-Ladyfreedom-

27 Novembre 2022

6 T Coffee

MULTIPLO DI SEQUENZE

Recensioni

Domande e risposte

I migliori insegnanti di Informatica

Salvatore F.

Andrea D.

Pietro S.