vuoi
o PayPal
tutte le volte che vuoi
PROBLEMI DI ALLINEAMENTO
Distinguiamo diverse tipologie di allineamento:
Prima distinzione: tra allineamento a coppie ed allineamento multiplo
Allineamento tra coppie di sequenze: date due sequenze, bisogna applicare dei meccanismi in modo da
massimizzare la parte coincidente tra le due sequenze. Se sono sequenze di 5-7-10 basi userò un metodo,
se sono sequenze di 3000-4000 basi comincerò ad avere dei problemi nel tenere conto di tutte le possibili
operazioni che è possibile fare per tentare di massimizzare la parte sovrapponibile della sequenza.
Allineamento di sequenze multiple: è un ambito più generico in cui si ha un allineamento multiplo di
sequenze. Date N sequenze, con N maggiore uguale a 3, ci sono delle tecniche che si applicano
complessivamente a tutte le sequenze in questione, allo scopo di massimizzare la parte coincidente e di
farsi sostituire la % di similitudine fra queste sequenze.
Seconda distinzione: date due sequenze di riferimento la cosa più naturale da fare, se considerate nella loro
interezza, è vedere qual è la parte sovrapponibile, quindi coincidente tra le due. Si parla in questo caso di
allineamento globale cioè viene considerata la sequenza unica nella sua interezza, con tutte le basi di cui è
composta. Ma ci sono tantissimi fenomeni biologici in cui può avere senso l’individuazione di una
particolare sottosequenza, all’interno di una sequenza più ampia. Quindi in questo caso l’ampiezza delle due
sequenze può essere notevolmente differente l’una dall’altra e il mio obiettivo è quello di vedere se una data
combinazione è ripetuta all’interno di alcune sequenze o al contrario vedere qual è la sequenza appartenente
alla stessa famiglia e vedere la parte di distinzione che si forma all’interno della sequenza.
Sono tecniche bioinformatiche, il processo biologico a monte di tutto a volte interessa quello che prevede
l’intera sequenza, a che cosa somiglia, per questo si fa uno studio di genetica (polimorfismi, mutazioni ecc)
si vuole vedere se c’è una parte ripetuta di sequenze appartenenti alla stessa famiglia o al contrario se c’è una
parte distintiva che compare solamente ad un contesto associato per esempio ad una malattia, tumore.
In base all’obiettivo si utilizzano le tecniche informatiche per trovare le informazioni.
Quindi l’allineamento globale allinea sequenze lungo la loro posizione.
Allineamento locale determina la sottosequenza più lunga che dà il grado di informazione di massima
similarità. ALLINEAMENTO TRA DUE SEQUENZE
LN-ITKSAGK….. Il trattino (-) si riferisce ad una tecnica computazionale che viene utilizzata per tentare di
massimizzare, aumentare il numero di basi coincidenti tra due sequenze, senza di questo non avrei
coincidenze.
Queste tecniche in maniera autonoma provano ad inserire questi Gap (salti) all’interno delle due sequenze
allo scopo di massimizzare a valle dell’inserimento del Gap, il numero di basi coincidenti. Può essere che
abbia buon fine come può essere che non lo abbia, allora non serve usare il gap ma la sequenza così com’è.
Di contro, nella parte locale, vado a vedere nella sottosequenza se c’è una particolare corrispondenza, una
zona conservata tra le sequenze.
Primo step: allineamento tra due sequenze. È il caso in cui si hanno due sequenze che si devono analizzare e
vedere qual è la parte sovrapponibile fra le due.
AGTTT
A_TGT
Si nota che ci sono delle basi identiche che si trovano nella stessa posizione e quindi già si ha una
coincidenza, dopodiché si possono utilizzare dei gap che provocano uno spostamento verso destra di
uno/ due posti (dipende da quanti gap si inseriscono) il cui scopo è quello di massimizzare la parte
coincidente. Questi Gap vengono inseriti da un calcolatore.
In blu si osserva una non coincidenza quindi le basi
non sono uguali, ma è una sostituzione T con G, cioè
una sostituzione tra basi più probabili.
Questi algoritmi tengono conto anche della diversa
tipologia di sostituzione: quando si ha una non
coincidenza si possono considerare non coincidenze
forti o deboli e in base alla conoscenza biologica dire
che la sostituzione T con G è meno grave di A con T o
G con A ecc.
Stessa cosa sarà vera anche per le sequenze proteiche
con gli amminoacidi.
Nelle sostituzioni con gli amminoacidi alcune verranno
considerate più probabili, altre saranno considerate
meno probabili e quindi trattate in un altro modo.
EDIT DISTANCE (la distanza di Edit): è il numero di cambiamenti necessari per poter effettuare
l’allineamento ideale, cioè con due sequenze
perfettamente coincidenti.
In quest’immagine, la distanza di Edit è 2, perché devo
fare due operazioni per rendere le due
stringhe/sequenze perfettamente coincidenti.
I calcolatori inseriscono uno o più gap per vedere a valle se aumentano o meno le parti di sequenze/ le basi
coincidenti. Un Gap è un’operazione che deve avere un punteggio negativo allo scopo di vedere se
l’allineamento a valle migliora o no.
Ci saranno dei punteggi, nel caso di coincidenze, sicuramente positivi, e ci saranno altri punteggi nel caso di
sostituzioni quindi se le parti sono conservate saranno positivi, se le parti sono meno conservate possono
essere nulli o addirittura negativi. Il gap ha sicuramente un punteggio negativo che deve essere compensato
dalle coincidenze o sostituzioni probabili a valle dell’inserimento.
Quanto costa un gap, quanto costa una sostituzione, dipende da quello che vado a fare e tipicamente hanno
dei costi diversi in base al dominio funzionale che io considero. Se le sequenze sono nucleotidiche c’è una
variabilità molto più bassa (4 possibili valori), se le sequenze sono proteiche si avrà una variabilità più alta
(20 possibili valori).
Il gap avrà quindi un costo e un punteggio negativo, una sostituzione avrà un costo e un punteggio positivo a
seconda del caso in cui la sostituzione sia più probabile evolutivamente. Date due sequenze in generale, i
possibili allineamenti che si possono creare sono multipli, diversi, non univoci e molto spesso con uguale
punteggio.
Dall’immagine si evidenziano delle sequenze, sulla prima riga vi è la sequenza più lunga e sulla seconda
quella più corta. Se si inizia da sinistra le coincidenze sono zero, si nota però che se si inseriscono due Gap,
si creano delle coincidenze nelle prime tre basi totalmente identiche ma comunque anche nelle ultime due
basi si hanno delle sostituzioni probabili che possono tornare utili all’analisi.
La stessa cosa se si inserisce il Gap all’inizio e questo è fisso perché si creano tre coincidenze.
Non ce n’è uno più adatto perché in realtà sono identici, perché se calcoliamo con l’unico parametro che fino
ad adesso conosciamo ovvero l’Edit Distance, entrambi gli allineamenti hanno distanza 4, hanno un peso
identico.
La Distanza di Edit è 4 perché sono necessarie 4 operazioni per far coincidere la seconda sequenza con la
prima. Si considera la seconda perché è più corta come lunghezza, quindi è quella su cui si deve intervenire
per poter farla coincidere con la prima. La stessa cosa avverrà con gli amminoacidi in cui ci sono 20 possibili
basi, quindi verrà fatto un discorso diverso. Il primo metodo utilizzato (1970) è una tecnica che
consentiva di avere alcune informazioni circa la
similarità di due sequenze. Immaginiamo di avere
una sequenza genica (GENE A) e una seconda
sequenza genica (GENE B).
La prima viene inserita lungo le colonne della
matrice, la seconda lungo le righe della matrice,
quindi si utilizza una matrice bidimensionale.
Sulle colonne si mette l’informazione relativa al
Gene A, sulle righe la sequenza del Gene B.
Si incrociano righe e colonne;
Se c’è la coincidenza si mette la X, se non c’è la
coincidenza si lascia lo spazio vuoto.
Se i due geni fossero perfettamente coincidenti,
vedrei una serie di X lungo la diagonale principale (caselle in rosso) che stanno a sottolineare questo tipo di
coincidenza.
Ci saranno delle differenze tra le sequenze geniche del gene A e del gene B, per cui queste X possono
comparire in zone diverse della matrice e diverse dalla diagonale principale.
Questa è una sequenza genica relativa alla
scimmia, ad un pesce e ad un roditore che
vede il confronto del citocromo umano, della
scimmia, del pesce e del roditore.
Scimmia e pesce hanno un tipo di
informazione, uomo contro scimmia hanno
un aspetto diverso, funziona anche uomo
contro pesce, non funziona uomo contro
roditore.
Ci dà una certa informazione circa la
similarità di due sequenze geniche, proteiche
ecc…
Quanto sono simili? È più simile uomo-scimmia o uomo-pesce?
È complicato avere un parametro che dica se queste due
sequenze sono simili al 60% o se la similitudine tra queste
due sequenze è maggiore in un punto o nulla in un altro, ciò
è difficile da stabilire. Ci sono solo ipotesi qualitative
difficilmente valutate.
Si possono fare però delle considerazioni: per esempio se
lungo la diagonale principale ci sono delle interruzioni,
significa che all’interno ci sono dei Gap, delle parti
mancanti o non coincidenti.
Si può anche avere il discorso che, se si ha un allineamento
lungo la diagonale e dopodiché ci si deve spostare di uno o
due punti per avere di nuovo l’allineamento, ci indica in
questo caso che c’è un’inserzione o cancellazione delle basi
che si deve andare ad inserire e che dà delle informazioni di carattere biologico.
Esiste un sito web con l’intento di costruire la Dot Matrix relativo all’allineamento di due sequenze in cui si
hanno dei vantaggi e degli svantaggi:
VANTAGGI
Si trovano tutti i possibili match fra due sequenze, ovunque esse siano si riesce ad identificare, nella dot
matrix, la diagonale principale spostata verso sinistra o verso destra e a vedere gli allineamenti.
Si possono trovare sequenze ripetute sia dirette che inverse. Se c’è un allineamento locale si prendono le
parti di una singola sequenza e si vanno a ritrovare all’interno di una sequenza più ampia.
Utile per un’ispezione visuale rapida. C’è un sito web che costruisce dot matrix per un allineamento
delle sequenze.
SVANTAGGI
Ispezione visuale, non c’è un numero, quindi questo potrebbe essere un problema.
Metodo non completamente automatizzabile
C’è un altro parametro fondamentale da evidenzia