Anteprima
Vedrai una selezione di 4 pagine su 12
Bioinformatica 3 Pag. 1 Bioinformatica 3 Pag. 2
Anteprima di 4 pagg. su 12.
Scarica il documento per vederlo tutto.
Bioinformatica 3 Pag. 6
Anteprima di 4 pagg. su 12.
Scarica il documento per vederlo tutto.
Bioinformatica 3 Pag. 11
1 su 12
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

PROBLEMI DI ALLINEAMENTO

Distinguiamo diverse tipologie di allineamento:

Prima distinzione: tra allineamento a coppie ed allineamento multiplo

 Allineamento tra coppie di sequenze: date due sequenze, bisogna applicare dei meccanismi in modo da

massimizzare la parte coincidente tra le due sequenze. Se sono sequenze di 5-7-10 basi userò un metodo,

se sono sequenze di 3000-4000 basi comincerò ad avere dei problemi nel tenere conto di tutte le possibili

operazioni che è possibile fare per tentare di massimizzare la parte sovrapponibile della sequenza.

 Allineamento di sequenze multiple: è un ambito più generico in cui si ha un allineamento multiplo di

sequenze. Date N sequenze, con N maggiore uguale a 3, ci sono delle tecniche che si applicano

complessivamente a tutte le sequenze in questione, allo scopo di massimizzare la parte coincidente e di

farsi sostituire la % di similitudine fra queste sequenze.

Seconda distinzione: date due sequenze di riferimento la cosa più naturale da fare, se considerate nella loro

interezza, è vedere qual è la parte sovrapponibile, quindi coincidente tra le due. Si parla in questo caso di

allineamento globale cioè viene considerata la sequenza unica nella sua interezza, con tutte le basi di cui è

composta. Ma ci sono tantissimi fenomeni biologici in cui può avere senso l’individuazione di una

particolare sottosequenza, all’interno di una sequenza più ampia. Quindi in questo caso l’ampiezza delle due

sequenze può essere notevolmente differente l’una dall’altra e il mio obiettivo è quello di vedere se una data

combinazione è ripetuta all’interno di alcune sequenze o al contrario vedere qual è la sequenza appartenente

alla stessa famiglia e vedere la parte di distinzione che si forma all’interno della sequenza.

Sono tecniche bioinformatiche, il processo biologico a monte di tutto a volte interessa quello che prevede

l’intera sequenza, a che cosa somiglia, per questo si fa uno studio di genetica (polimorfismi, mutazioni ecc)

si vuole vedere se c’è una parte ripetuta di sequenze appartenenti alla stessa famiglia o al contrario se c’è una

parte distintiva che compare solamente ad un contesto associato per esempio ad una malattia, tumore.

In base all’obiettivo si utilizzano le tecniche informatiche per trovare le informazioni.

Quindi l’allineamento globale allinea sequenze lungo la loro posizione.

Allineamento locale determina la sottosequenza più lunga che dà il grado di informazione di massima

similarità. ALLINEAMENTO TRA DUE SEQUENZE

LN-ITKSAGK….. Il trattino (-) si riferisce ad una tecnica computazionale che viene utilizzata per tentare di

massimizzare, aumentare il numero di basi coincidenti tra due sequenze, senza di questo non avrei

coincidenze.

Queste tecniche in maniera autonoma provano ad inserire questi Gap (salti) all’interno delle due sequenze

allo scopo di massimizzare a valle dell’inserimento del Gap, il numero di basi coincidenti. Può essere che

abbia buon fine come può essere che non lo abbia, allora non serve usare il gap ma la sequenza così com’è.

Di contro, nella parte locale, vado a vedere nella sottosequenza se c’è una particolare corrispondenza, una

zona conservata tra le sequenze.

Primo step: allineamento tra due sequenze. È il caso in cui si hanno due sequenze che si devono analizzare e

vedere qual è la parte sovrapponibile fra le due.

AGTTT

A_TGT

Si nota che ci sono delle basi identiche che si trovano nella stessa posizione e quindi già si ha una

coincidenza, dopodiché si possono utilizzare dei gap che provocano uno spostamento verso destra di

uno/ due posti (dipende da quanti gap si inseriscono) il cui scopo è quello di massimizzare la parte

coincidente. Questi Gap vengono inseriti da un calcolatore.

In blu si osserva una non coincidenza quindi le basi

non sono uguali, ma è una sostituzione T con G, cioè

una sostituzione tra basi più probabili.

Questi algoritmi tengono conto anche della diversa

tipologia di sostituzione: quando si ha una non

coincidenza si possono considerare non coincidenze

forti o deboli e in base alla conoscenza biologica dire

che la sostituzione T con G è meno grave di A con T o

G con A ecc.

Stessa cosa sarà vera anche per le sequenze proteiche

con gli amminoacidi.

Nelle sostituzioni con gli amminoacidi alcune verranno

considerate più probabili, altre saranno considerate

meno probabili e quindi trattate in un altro modo.

EDIT DISTANCE (la distanza di Edit): è il numero di cambiamenti necessari per poter effettuare

l’allineamento ideale, cioè con due sequenze

perfettamente coincidenti.

In quest’immagine, la distanza di Edit è 2, perché devo

fare due operazioni per rendere le due

stringhe/sequenze perfettamente coincidenti.

I calcolatori inseriscono uno o più gap per vedere a valle se aumentano o meno le parti di sequenze/ le basi

coincidenti. Un Gap è un’operazione che deve avere un punteggio negativo allo scopo di vedere se

l’allineamento a valle migliora o no.

Ci saranno dei punteggi, nel caso di coincidenze, sicuramente positivi, e ci saranno altri punteggi nel caso di

sostituzioni quindi se le parti sono conservate saranno positivi, se le parti sono meno conservate possono

essere nulli o addirittura negativi. Il gap ha sicuramente un punteggio negativo che deve essere compensato

dalle coincidenze o sostituzioni probabili a valle dell’inserimento.

Quanto costa un gap, quanto costa una sostituzione, dipende da quello che vado a fare e tipicamente hanno

dei costi diversi in base al dominio funzionale che io considero. Se le sequenze sono nucleotidiche c’è una

variabilità molto più bassa (4 possibili valori), se le sequenze sono proteiche si avrà una variabilità più alta

(20 possibili valori).

Il gap avrà quindi un costo e un punteggio negativo, una sostituzione avrà un costo e un punteggio positivo a

seconda del caso in cui la sostituzione sia più probabile evolutivamente. Date due sequenze in generale, i

possibili allineamenti che si possono creare sono multipli, diversi, non univoci e molto spesso con uguale

punteggio.

Dall’immagine si evidenziano delle sequenze, sulla prima riga vi è la sequenza più lunga e sulla seconda

quella più corta. Se si inizia da sinistra le coincidenze sono zero, si nota però che se si inseriscono due Gap,

si creano delle coincidenze nelle prime tre basi totalmente identiche ma comunque anche nelle ultime due

basi si hanno delle sostituzioni probabili che possono tornare utili all’analisi.

La stessa cosa se si inserisce il Gap all’inizio e questo è fisso perché si creano tre coincidenze.

Non ce n’è uno più adatto perché in realtà sono identici, perché se calcoliamo con l’unico parametro che fino

ad adesso conosciamo ovvero l’Edit Distance, entrambi gli allineamenti hanno distanza 4, hanno un peso

identico.

La Distanza di Edit è 4 perché sono necessarie 4 operazioni per far coincidere la seconda sequenza con la

prima. Si considera la seconda perché è più corta come lunghezza, quindi è quella su cui si deve intervenire

per poter farla coincidere con la prima. La stessa cosa avverrà con gli amminoacidi in cui ci sono 20 possibili

basi, quindi verrà fatto un discorso diverso. Il primo metodo utilizzato (1970) è una tecnica che

consentiva di avere alcune informazioni circa la

similarità di due sequenze. Immaginiamo di avere

una sequenza genica (GENE A) e una seconda

sequenza genica (GENE B).

La prima viene inserita lungo le colonne della

matrice, la seconda lungo le righe della matrice,

quindi si utilizza una matrice bidimensionale.

Sulle colonne si mette l’informazione relativa al

Gene A, sulle righe la sequenza del Gene B.

Si incrociano righe e colonne;

Se c’è la coincidenza si mette la X, se non c’è la

coincidenza si lascia lo spazio vuoto.

Se i due geni fossero perfettamente coincidenti,

vedrei una serie di X lungo la diagonale principale (caselle in rosso) che stanno a sottolineare questo tipo di

coincidenza.

Ci saranno delle differenze tra le sequenze geniche del gene A e del gene B, per cui queste X possono

comparire in zone diverse della matrice e diverse dalla diagonale principale.

Questa è una sequenza genica relativa alla

scimmia, ad un pesce e ad un roditore che

vede il confronto del citocromo umano, della

scimmia, del pesce e del roditore.

Scimmia e pesce hanno un tipo di

informazione, uomo contro scimmia hanno

un aspetto diverso, funziona anche uomo

contro pesce, non funziona uomo contro

roditore.

Ci dà una certa informazione circa la

similarità di due sequenze geniche, proteiche

ecc…

Quanto sono simili? È più simile uomo-scimmia o uomo-pesce?

È complicato avere un parametro che dica se queste due

sequenze sono simili al 60% o se la similitudine tra queste

due sequenze è maggiore in un punto o nulla in un altro, ciò

è difficile da stabilire. Ci sono solo ipotesi qualitative

difficilmente valutate.

Si possono fare però delle considerazioni: per esempio se

lungo la diagonale principale ci sono delle interruzioni,

significa che all’interno ci sono dei Gap, delle parti

mancanti o non coincidenti.

Si può anche avere il discorso che, se si ha un allineamento

lungo la diagonale e dopodiché ci si deve spostare di uno o

due punti per avere di nuovo l’allineamento, ci indica in

questo caso che c’è un’inserzione o cancellazione delle basi

che si deve andare ad inserire e che dà delle informazioni di carattere biologico.

Esiste un sito web con l’intento di costruire la Dot Matrix relativo all’allineamento di due sequenze in cui si

hanno dei vantaggi e degli svantaggi:

VANTAGGI

 Si trovano tutti i possibili match fra due sequenze, ovunque esse siano si riesce ad identificare, nella dot

matrix, la diagonale principale spostata verso sinistra o verso destra e a vedere gli allineamenti.

 Si possono trovare sequenze ripetute sia dirette che inverse. Se c’è un allineamento locale si prendono le

parti di una singola sequenza e si vanno a ritrovare all’interno di una sequenza più ampia.

 Utile per un’ispezione visuale rapida. C’è un sito web che costruisce dot matrix per un allineamento

delle sequenze.

SVANTAGGI

 Ispezione visuale, non c’è un numero, quindi questo potrebbe essere un problema.

 Metodo non completamente automatizzabile

C’è un altro parametro fondamentale da evidenzia

Dettagli
A.A. 2023-2024
12 pagine
SSD Scienze matematiche e informatiche INF/01 Informatica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher carlotta199622 di informazioni apprese con la frequenza delle lezioni di Bioinformatica 3 e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Palermo o del prof Li Donni Anna.