Estratto del documento

0 AB AC AD AE BC BD BE CD CE DE

La somma delle distanze è divisa per 4 perché, quando tutte le distanze vengono sommate, ciascun ramo è contato 4

volte. Ad esempio: D = L + L , D = L + L , D = L + L , D = L + L . Quando si sommano, L è contato 4 volte

AB a b AC a c AD a d AE a e a

Supponiamo che, dalla matrice delle distanze, A e B siano le sequenze più vicine, che quindi abbiano la distanza D minore

tra tutte le sequenze della matrice. Esse sono più distanti dalle altre sequenze perché sono quelle che si assomigliano

di più, pertanto vanno connesse allo stesso nodo.

A tal punto è necessario calcolare nuovamente la lunghezza dell’albero. Rispetto all’albero iniziale, c’è un segmento in

più, il segmento L XY. 1

L = (D + D + D + D + D + D ) – 3 (L + L ) – 2 (L + L + L )

XY AC AD AE BC BD BE aX bX c d e

6 L + L =D

aX bX AB

1

L + L + L = (D + D + D )

c d e CD CE DE

2

La lunghezza totale del nuovo albero è: S = L + L + L + L + L + L

ab XY aX bX c d e

A tal punto, A e B sono considerato come un unico nodo; si può calcolare una nuova matrice delle distanze, utilizzata

per fare un altro raggruppamento e per costruire un nuovo albero, utilizzato per calcolare una nuova matrice delle

distanze.

Esempio:

Fase 3: Allineamento progressivo in base all’ordine dato dall’albero

Le sequenze sono progressivamente allineate seguendo le indicazioni dell’albero guida. Si inizia ad allineare le sequenze

più simili e poi, a queste vengono progressivamente aggiunte quelle più distanti. È come se l’allineamento multiplo

venisse ricomposto a partire da allineamenti a coppie.

Il metodo dell’allineamento progressivo, però, presenta degli svantaggi:

• un errore commesso negli allineamenti iniziali si propaga durante tutta la procedura

• non c’è garanzia di trovare l’allineamento ottimale

• con un’omologia iniziale inferiore al 15%, i risultati possono essere poco affidabili

• idealmente tutte le sequenze input devono avere un certo grado di somiglianza e lunghezze paragonabili per

evitare l’eccessiva inserzione di gap

Per migliorare l’accuratezza degli allineamenti e minimizzare la probabilità di errore, si possono adottare diversi

accorgimenti:

Pesatura delle sequenze È una procedura impiegata quando nel gruppo iniziale ci sono sequenze

evolutivamente vicine, quindi molto conservate, e altre più distanti. Le sequenze

molto simili contengono meno informazioni rispetto a quelle più distanti, perché

sono il risultato di un periodo evolutivo relativamente breve durante il quale non

tutti i residui sono stati sufficientemente esposti a mutazione. Pertanto, le posizioni

che appaiono conservate all'interno di questo gruppo di sequenze affini possono

essere semplicemente conseguenza di un'evoluzione troppo breve piuttosto che di

pressione selettiva. La presenza di queste zone conservate può influenzare e

distorcere le fasi successive della costruzione dell'allineamento multiplo. Sequenze

evolutivamente più distanti, possono contenere informazioni importanti; tuttavia,

queste sono più difficili da allineare.

Per ovviare a questa distorsione, Clustal W associa a ciascuna sequenza un peso che

è proporzionale alla distanza dalle altre sequenze. Per prima cosa si assegna alla

radice all'albero guida, poi si attribuisce un peso alla sequenza direttamente

proporzionale alla distanza della radice: più è distante, più pesa.

Correzione penalizzazione Uno dei problemi principali da risolvere per ottenere allineamenti affidabili è il

delle indel corretto posizionamento delle indel, che dipende dai parametri utilizzati nella

funzione di penalizzazione w(k) = g + kg .

op ex

g : penalizzazione per inserimento di un’indel

op

kg : penalizzazione per allungamento di un’indel

ex

Ricordiamo che la difficoltà nel corretto posizionamento delle indel aumenta con

l’aumentare della distanza delle sequenze che si allineano, perché avranno più

gap.

Per questo motivo, in Clustal W è stata prevista la variazione dinamica dei due

parametri della funzione di penalizzazione delle indel:

• i parametri sono fatti variare a seconda della matrice di sostituzione scelta

• g aumenta se le sequenze da allineare hanno alta similarità (sequenze simili

op

→ meno gap)

• g è proporzionale alle lunghezze delle sequenze da allineare (sequenze brevi

op

→ meno gap sequenze lunghe → più gap)

• g è proporzionale alla differenza di lunghezza delle sequenze da allineare

ex

(piccola differenza → gap più brevi differenza grande → gap più lunghi)

Inoltre, la funzione di penalizzazione potrebbe non essere adeguata lungo tutta

la lunghezza delle sequenze, poiché potrebbero esserci alcune zone in cui le indel

sono più probabili che in altre. Clustal W può variare i pesi di penalizzazione in

funzione della posizione dell’allineamento nella quale devono essere applicati:

• g diminuisce in regioni propense ai gap (es. loop esposti al solvente)

op

• g aumenta nelle 8 posizioni fiancheggianti un gap (gap vicini sono

op

improbabili)

• g diminuisce se ci sono almeno 5 residui idrofilici consecutivi (zone

op

potenzialmente esposte al solvente)

• g si moltiplica per un valore calcolato (Pascarella & Argos, 1991) sulle

op

frequenze relative con cui un certo residuo può avere un gap affianco

Variazione matrice di punteggio Abbiamo detto che le matrici di punteggio sono tarate per valutare le

probabilità di sostituzione amminoacidica tra sequenze separate da un

certo periodo evolutivo. Clustal W sceglie la matrice di punteggio in base

alla differenza attesa tra le sequenze o tra gruppi di sequenze che devono

essere allineate. Per esempio, se i due gruppi differiscono tra lo 0 e il 20%

dei residui, si utilizza la PAM20; se differiscono tra il 40% il 60%, si seleziona

la PAM120, e così via.

Grazie a questi accorgimenti, Clustal W fornisce allineamenti multipli

affidabili.

Clustal W è diventato negli anni un metodo di riferimento per i biologi. Il programma però non è stato sostanzialmente

più aggiornato dalla sua messa a punto nel 1994 e quindi permangono i suoi limiti, specialmente nel caso in cui si

debbano allineare molte sequenze distanti tra loro. La ricerca in questo ambito è andata avanti fino a proporre nuovi

algoritmi capaci di calcolare allineamenti multipli più precisi anche nelle condizioni in cui Clustal W mostra i suoi limiti.

Alcuni di questi programmi si possono considerare un'estensione di Clustal W perché usano la sua logica abbinata a un

diverso sistema per quantificare la somiglianza tra le sequenze basato sulla coerenza. Ciò significa che, se abbiamo tre

sequenze A, B e C e allineiamo A con B e B con C e mettiamo insieme i due allineamenti in modo da ottenere un

allineamento multiplo a 3 sequenze, in modo implicito abbiamo definito anche l’allineamento da A e C. Questo

allineamento, però, può essere diverso (incoerente) rispetto a quello che si otterrebbe allineando direttamente A con

C. Allora si può cercare un allineamento multiplo che massimizzi la coerenza tra gli allineamenti a coppie contenuti

nell’allineamento multiplo e quelli ottenuti direttamente allineando le singole sequenze.

T-COFFEE

T-Coffee è uno dei primi programmi a utilizzare la logica della coerenza ed è stato sviluppato in collaborazione con uno

degli autori di Clustal W, Desmond Higgins (Notredame et al. 2000). T-Coffee è l'acronimo di Tree-based consistenty

objective function for alignment evaluation e rappresenta un sistema per trovare, attraverso un procedimento

progressivo del tutto simile a Clustal W, un allineamento multiplo che sia il più possibile coerente con un insieme di

vincoli esterni. I vincoli consistono in un insieme di allineamenti a coppie, locali e globali, tra le sequenze da allineare, al

quale l'allineamento multiplo finale deve conformarsi il più possibile.

Il procedimento che segue il programma prevede le seguenti fasi:

Fase 1: Costruzione degli allineamenti a coppie locali e globali

Per N sequenze si avranno N(N-1)/2 allineamenti di ciascun tipo.

Fase 2: Derivazione vincoli primari

Dall'insieme degli allineamenti così ottenuti si derivano i vincoli primari. A ciascuna coppia di residui appaiati in un

allineamento viene assegnato un peso direttamente proporzionale alla somiglianza tra le rispettive sequenze. Come

abbiamo detto più volte, l'accuratezza di un allineamento è proporzionale alla somiglianza tra le sequenze. Per esempio,

supponiamo di avere due sequenze A e B, che sono simili per l'88% dei residui. Supponiamo che nell'allineamento a

coppie la glicina in posizione 20 di A corrisponda all’alanina in posizione 21 di B. Alla coppia Gly (A20) – Ala (B21) si

assegna il peso 88. I vincoli ottenuti da ciascun tipo di allineamento vengono combinati a formare la lista dei vincoli

primari. Se la coppia Gly (A20) – Ala (B21) è presente nell’insieme degli allineamenti locali e globali, allora

complessivamente le viene assegnato un peso che è pari alla somma dei due pesi originali (per esempio 88 + 88 = 176).

Se una coppia è presente solo in un tipo di allineamento, allora mantiene il suo peso originale.

Fase 3: Costruzione dei vincoli estesi

Ancora più utile ai fini dell’allineamento multiplo è capire quante volte la stessa coppia di residui delle sequenze A e B

si ritrova appaiata coerentemente in altri allineamenti della collezione prodotta nella fase 1. La procedura prevede l’uso

di triplette di sequenze in cui due membri sono sempre la sequenza A e B e la terza ciascuna delle sequenze rimanenti.

Il programma valuta quante volte l’appaiamento Gly (A20) – Ala (B21) che si verifica in A-B si trova anche in A-C e B-C.

A quella coppia di residui è attribuito un peso che riflette il proprio grado di coerenza e che dipende dal peso delle

coppie delle sequenze in cui è presente.

T-Coffee produce allineamenti migliori di Clustal W. Tuttavia, il principale svantaggio del programma è rappresentato

dalla maggiore complessità algoritmica che lo rende dispendioso dal punto di vista del calcolo. Pertanto, per numeri

elevati di sequenze, generalmente maggiori di 100, la sua esecuzione su calcolatori desktop diventa problematica.

Una variante del programma chiamata 3D-Coffee (O’ Sullivan et al. 2004) sfrutta l’informazione sulla struttura

tridimensionale delle proteine comprese nel gruppo da allineare. La disponibilità dell’informazione strutturale è

utilizzata per calcolare allineamento a

Anteprima
Vedrai una selezione di 19 pagine su 89
Riassunto esame Bioinformatica, Prof. Sferra Gabriella, libro consigliato Bioinformatica - Dalla sequenza alla struttura delle proteine, Pascarella Pag. 1 Riassunto esame Bioinformatica, Prof. Sferra Gabriella, libro consigliato Bioinformatica - Dalla sequenza alla struttura delle proteine, Pascarella Pag. 2
Anteprima di 19 pagg. su 89.
Scarica il documento per vederlo tutto.
Riassunto esame Bioinformatica, Prof. Sferra Gabriella, libro consigliato Bioinformatica - Dalla sequenza alla struttura delle proteine, Pascarella Pag. 6
Anteprima di 19 pagg. su 89.
Scarica il documento per vederlo tutto.
Riassunto esame Bioinformatica, Prof. Sferra Gabriella, libro consigliato Bioinformatica - Dalla sequenza alla struttura delle proteine, Pascarella Pag. 11
Anteprima di 19 pagg. su 89.
Scarica il documento per vederlo tutto.
Riassunto esame Bioinformatica, Prof. Sferra Gabriella, libro consigliato Bioinformatica - Dalla sequenza alla struttura delle proteine, Pascarella Pag. 16
Anteprima di 19 pagg. su 89.
Scarica il documento per vederlo tutto.
Riassunto esame Bioinformatica, Prof. Sferra Gabriella, libro consigliato Bioinformatica - Dalla sequenza alla struttura delle proteine, Pascarella Pag. 21
Anteprima di 19 pagg. su 89.
Scarica il documento per vederlo tutto.
Riassunto esame Bioinformatica, Prof. Sferra Gabriella, libro consigliato Bioinformatica - Dalla sequenza alla struttura delle proteine, Pascarella Pag. 26
Anteprima di 19 pagg. su 89.
Scarica il documento per vederlo tutto.
Riassunto esame Bioinformatica, Prof. Sferra Gabriella, libro consigliato Bioinformatica - Dalla sequenza alla struttura delle proteine, Pascarella Pag. 31
Anteprima di 19 pagg. su 89.
Scarica il documento per vederlo tutto.
Riassunto esame Bioinformatica, Prof. Sferra Gabriella, libro consigliato Bioinformatica - Dalla sequenza alla struttura delle proteine, Pascarella Pag. 36
Anteprima di 19 pagg. su 89.
Scarica il documento per vederlo tutto.
Riassunto esame Bioinformatica, Prof. Sferra Gabriella, libro consigliato Bioinformatica - Dalla sequenza alla struttura delle proteine, Pascarella Pag. 41
Anteprima di 19 pagg. su 89.
Scarica il documento per vederlo tutto.
Riassunto esame Bioinformatica, Prof. Sferra Gabriella, libro consigliato Bioinformatica - Dalla sequenza alla struttura delle proteine, Pascarella Pag. 46
Anteprima di 19 pagg. su 89.
Scarica il documento per vederlo tutto.
Riassunto esame Bioinformatica, Prof. Sferra Gabriella, libro consigliato Bioinformatica - Dalla sequenza alla struttura delle proteine, Pascarella Pag. 51
Anteprima di 19 pagg. su 89.
Scarica il documento per vederlo tutto.
Riassunto esame Bioinformatica, Prof. Sferra Gabriella, libro consigliato Bioinformatica - Dalla sequenza alla struttura delle proteine, Pascarella Pag. 56
Anteprima di 19 pagg. su 89.
Scarica il documento per vederlo tutto.
Riassunto esame Bioinformatica, Prof. Sferra Gabriella, libro consigliato Bioinformatica - Dalla sequenza alla struttura delle proteine, Pascarella Pag. 61
Anteprima di 19 pagg. su 89.
Scarica il documento per vederlo tutto.
Riassunto esame Bioinformatica, Prof. Sferra Gabriella, libro consigliato Bioinformatica - Dalla sequenza alla struttura delle proteine, Pascarella Pag. 66
Anteprima di 19 pagg. su 89.
Scarica il documento per vederlo tutto.
Riassunto esame Bioinformatica, Prof. Sferra Gabriella, libro consigliato Bioinformatica - Dalla sequenza alla struttura delle proteine, Pascarella Pag. 71
Anteprima di 19 pagg. su 89.
Scarica il documento per vederlo tutto.
Riassunto esame Bioinformatica, Prof. Sferra Gabriella, libro consigliato Bioinformatica - Dalla sequenza alla struttura delle proteine, Pascarella Pag. 76
Anteprima di 19 pagg. su 89.
Scarica il documento per vederlo tutto.
Riassunto esame Bioinformatica, Prof. Sferra Gabriella, libro consigliato Bioinformatica - Dalla sequenza alla struttura delle proteine, Pascarella Pag. 81
Anteprima di 19 pagg. su 89.
Scarica il documento per vederlo tutto.
Riassunto esame Bioinformatica, Prof. Sferra Gabriella, libro consigliato Bioinformatica - Dalla sequenza alla struttura delle proteine, Pascarella Pag. 86
1 su 89
D/illustrazione/soddisfatti o rimborsati
Acquista con carta o PayPal
Scarica i documenti tutte le volte che vuoi
Dettagli
SSD
Ingegneria industriale e dell'informazione ING-INF/06 Bioingegneria elettronica e informatica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher lory.amicone di informazioni apprese con la frequenza delle lezioni di Bioinformatica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi del Molise o del prof Sferra Gabriella.
Appunti correlati Invia appunti e guadagna

Domande e risposte

Hai bisogno di aiuto?
Chiedi alla community