Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
DOT PLOT
Per mettere a confronto due sequenze si può usare il DOT PLOT ovvero una rappresentazione intuitiva con diagramma a tabella che evidenziano le corrispondenze. Si può lavorare su un singolo nucleotide o su finestre (confronto più flessibile). Per valutare quanto due sequenze sono simili è indispensabile avere uno schema di punteggio per quantificare l'allineamento considerato (Es. +1 per caratteri identici, -1 per caratteri differenti e gap).
Valutazione dell'allineamento
Due sono gli algoritmi ottimi per studiare l'allineamento di due sequenze. Viene detto ottimo quando garantisce la miglior soluzione possibile, ovvero non esiste un altro modo di allineare le sequenze che mette in luce un punteggio maggiore.
- Allineamento globale (o algoritmo di Needleman-Wunsch): due sequenze di lunghezza comparabile sono allineanti in modo tale da trovare la migliore similarità tra le due sequenze intere.
- Allineamento locale (o algoritmo...)
A | C | G | T | |
---|---|---|---|---|
A | 10 | -5 | 0 | -5 |
C | -5 | 10 | -5 | 0 |
G | 0 | -5 | 10 | -5 |
T | -5 | 0 | -5 | 10 |
G | A | A | T | C | ||
---|---|---|---|---|---|---|
-4 | -8 | -12 | -16 | -20 | ||
C | -4 | |||||
A | -8 | |||||
T | -12 | |||||
A | -16 | |||||
C | -20 |
- Il punteggio ottimo globale è unicamente quello presente nell'ultima casella in basso a dx, 17.
- Ripercorro a ritroso i percorsi delle frecce di spostamento (a volte possono essere più frecce) da 17a 0: freccia diagonale significa corrispondenza di basi (base sx e base alto), spostamento verticale(Base sx, Gap alto) e orizzontale (Base alto, gap sx) prendo una base con un Gap. L'allineamento ottimo non è uno solo:
- GA-ATC e CATA-C
- GAAT-C e CA-TAC
- GAAT-C e C-ATAC
- GAAT-C e -CATAC
- Non esiste perciò un modo migliore di allineare le sequenze per ottenere un punteggio maggiore di 17. Devo riportare tutti gli allineamenti!
- Cosa vuol dire avere un gap nella soluzione? L'idea è che vogliamo mettere in corrispondenza le sequenze nel miglior modo possibile e questo a volte implica il saltare delle basi (porzione di sequenze) perché magari in una parte più
globale viene rappresentata dalla quarta opzione data dalla presenza dello zero, indicando che non possono esserci valori negativi nelle celle. Vado a inizializzare con 0 la prima riga e la prima colonna; poi vado a riempire la cella con le stesse regole di prima. Nel momento in cui viene identificata una quarta opzione il punteggio massimo è semplicemente il valore massimo all'interno della tabella, a prescindere dalla posizione da esso occupata (non più ultima cella in basso a dx). Anche qui viene poi ripercorso l'andamento delle frecce a ritroso e solitamente copre solo una porzione delle sequenze (ove presenti frecce).
NB. Questi algoritmi possono essere usati sia su sequenze nucleotidiche (4) sia su sequenze amminoacidiche (20).
Matrici di sostituzioni: BLOSUM
Una matrice di sostituzione ha il compito di valutare il peso delle sostituzioni di AAs differenti, valutando il loro grado di similarità biologico: sostituzioni più plausibili in natura hanno
un punteggio positivo edelevato. Per quanto riguarda BLOSUM, il procedimento prevede di analizzare sequenze amminoacidiche inrelazione evolutiva tra loro e valutare i punteggi in base alle sostituzioni presenti in natura. Dalle sequenzevengono ottenuti dei multi-allineamenti e ne sono estratti dei blocchi da valutare (parte di allineamentoprivo di gap e con un certo grado di conservazione). Ciò provoca un problema di circolarità in quanto i blocchi derivano da un allineamento, ma questo deriva da una matrice di sostituzione, che deve essere una condizione iniziale: alla prima iterazione si applica uno schema per cui il match=1 e mismatch=0. Si basa quindi sull'idea di collezionare un gran numero di sequenze di proteine per valutare le sostituzioni più ricorrenti e verosimili in natura.
Esempio. Abbiamo 6 sequenze e 4 posizioni, andiamo a contare l'occorrenza dei vari caratteri quindi 24 in tutto divise in 14 A, 4 B e 6 C; il procedimento per ottenere la
BLOSUM prevede di calcolare le frequenze di appaiamento. Guardando quindi gli allenamenti in direzione verticale andiamo a calcolare l'occorrenza delle diverse coppie possibili: andiamo a determinare il numero di possibili appaiamenti (4 posizioni * 6 coppie / 2 elementi) e andiamo a calcolare la frequenza di ciascun tipo di appaiamento (AB= nella prima posizione si allinea 5 volte, 3 sulla terza posizione e 0 sulle altre 2). I numeri vengono elaborati calcolando le proporzioni attese ovvero il prodotto delle frequenze dei singoli simboli (se le basi sono 6 diverse moltiplico anche per 2); le proporzioni attese vengono confrontate con quelle calcolate facendo 2 volte il logaritmo in base due delle proporzioni osservate fratto le proporzioni attese. Quest'operazione ci restituisce un valore che viene arrotondato all'intero più vicino che ci restituisce la matrice di sostituzione. La matrice ottenuta è simmetrica e conterrà i punteggi che dobbiamo utilizzare negli.Algoritmi come quelli ottimo ecc. La matrice BLOSUM reale è sempre simmetrica; il significato biologico dei punteggi ci dice che un punteggio positivo relativamente elevato riguarda una sostituzione che è comune, viceversa punteggi negativi sono relativi a sostituzioni tra acidi differenti rispetto alle loro proprietà chimico-fisiche e quindi meno osservate in natura perché vanno a variare le caratteristiche strutturali e quindi funzionali.
La matrice BLOSUM è sempre correlata ad un numero che è la % che abbiamo utilizzato per raggruppare sequenze con identità superiore alla soglia stessa. Andando a raggruppare le sequenze più simili quello che otteniamo è una collezione di sequenze molto vicine tra loro. Se la soglia è invece bassa otteniamo una collezione di sequenze più distanti e meno simili (livello di identità più basso). Le conseguenze sull'applicazione è che la BLOSUM con un numero
alto sarà adatta a confrontare sequenze simili tra loro. Esempio. Se abbiamo BLOSUM85 sequenze con 86% di similarità vengono contate come una (cluster) mentre con 84% di similarità vengono contate come distinte. NB. Identità e similarità sono proprietà quantitative. Identità = numero di AAs identici.
73. BLAST L'allineamento ottimo ci garantisce la soluzione migliore possibile rispetto al punteggio stabilito quindi alla matrice di sostituzione. In generale gli algoritmi ottimi sono molto onerosi dal punto di vista computazionale e in particolare l'utilizzo più comune dell'operazione di allineamento è la ricerca di similarità tra la mia sequenza e le sequenze disponibili in banca dati. Questo vuol dire fare milioni di allineamenti e quindi rende impossibile l'utilizzo dell'algoritmo ottimo. Per fare fronte a questo problema si utilizzano soluzioni euristiche ovvero che non garantiscono la migliore.
soluzione possibili.BLAST è un algoritmo che affronta questo problema ovvero ottimizzare la ricerca di una sequenza all'interno di una vasta collezione di sequenze in cui andare a cercare similarità per effettuare delle valutazioni e derivare nuove conoscenze sulla sequenza che vogliamo indagare.
BLAST è l'algoritmo di allineamento di sequenze più utilizzato ed è in realtà una famiglia di programmi di analisi di sequenza che funziona sia per le sequenze amminoacidiche sia per quelle nucleotidiche. All'interno della famiglia troviamo:
- BLASTP che consente di confrontare una sequenza amminoacidica con un database di sequenze amminoacidiche
- BLASTN che consente di confrontare una sequenza nucleotidica con un database di sequenze nucleotidiche
- BLASTX prende una sequenza nucleotidica e la traduce in sei diverse sequenze amminoacidiche che vengono confrontate col database di sequenze amminoacidiche
- TBLASTN prende una
sequenza amminoacidica e la confronta con le 6 sequenze amminoacidiche che derivano da una sequenza nucleotidica
TBLASTX traduce la sequenza nucleotidica sia del database che della query in 6 sequenze amminoacidiche ottenendo quindi 36 sequenze da confrontare.
Procedimento di BLASTP:
- Compilo il vocabolario di parole di lunghezza prefissata; quindi, se la lunghezza è pari a 3 andremo a ottenere tutte le sequenze di 3 AAs. Quindi si ottiene una lista di sotto-sequenze di lunghezza fissata W, derivate dalla sequenza in input (query).
- Le sotto-sequenze vengono affiancate alle sequenze che sono simili a quelle originali sopra una certa soglia: la somiglianza si basa su una matrice di sostituzione. Si ottiene un vocabolario esteso che contiene sia le sequenze originali che quelle simili a esse.
- Con questo vocabolario si cerca nel database delle corrispondenze.
- Trovata la corrispondenza, si cerca di estendere amonte e a valle.