Appunti completi Bioinformatica e genomica funzionale

Appunti completi del corso Bioinformatica e genomica funzionale erogato a distanza dalla prof Linda Pattini per la validità di 5 crediti. Gli appunti sono scritti in italiano e espongono …

Esame Bioinformatica e genomica funzionale

Facoltà Ingegneria dei sistemi

Dal corso del Prof. Pattini Linda

Università Politecnico di Milano

Publisher carusomarta.98

A.A. 2020-2021

57 pagine

3 download

Appunti esame

Vota 4,0 / 5 (2)

Scarica

Estratto del documento

DOT PLOT

Per mettere a confronto due sequenze si può usare il DOT PLOT ovvero una rappresentazione intuitiva con diagramma a tabella che evidenziano le corrispondenze. Si può lavorare su un singolo nucleotide o su finestre (confronto più flessibile). Per valutare quanto due sequenze sono simili è indispensabile avere uno schema di punteggio per quantificare l'allineamento considerato (Es. +1 per caratteri identici, -1 per caratteri differenti e gap).

Valutazione dell'allineamento

Due sono gli algoritmi ottimi per studiare l'allineamento di due sequenze. Viene detto ottimo quando garantisce la miglior soluzione possibile, ovvero non esiste un altro modo di allineare le sequenze che mette in luce un punteggio maggiore.

Allineamento globale (o algoritmo di Needleman-Wunsch): due sequenze di lunghezza comparabile sono allineanti in modo tale da trovare la migliore similarità tra le due sequenze intere.
Allineamento locale (o algoritmo...)

di Smith-Waterman): due sequenze sono allineanti in modo tale da trovare la migliore somiglianza tra sub-sequenze. Esempio. GAATC e CATAC come possono essere allineate? Allineamento globale: 1) Bisogna identificare un punteggio: gap = -4 e matrice di sostituzione

	A	C	G	T
A	10	-5	0	-5
C	-5	10	-5	0
G	0	-5	10	-5
T	-5	0	-5	10

Lo schema di punteggio può privilegiare le sostituzioni tra basi dello stesso tipo e penalizzare quelle di tipo diverso (A e G sono purine mentre C e T sono pirimidine). 2) Produco una matrice per inizializzare il procedimento:

		G	A	A	T	C
		-4	-8	-12	-16	-20
C	-4
A	-8
T	-12
A	-16
C	-20

Riga 2 e colonna 2: Inserisco i valori di -4 per gli eventi di Gap, aumentando il numero di Gap scorrendo a dx e in basso. Colonna 3: CG considero la corrispondenza tra basi, per riempire AG valuto i 3 movimenti (verso il basso e verso dx corrispondono ad inserimenti di Gap e quindi a -4, 0 in diagonale per l'allineamento della base in sequenza AG) ottenendo -4,-9 e -12 e scelgo il punteggio massimo per completare la cella -4. Si completa lacolonna scegliendo sempre tra le 3 relative opzioni disponibili

Il punteggio ottimo globale è unicamente quello presente nell'ultima casella in basso a dx, 17.
Ripercorro a ritroso i percorsi delle frecce di spostamento (a volte possono essere più frecce) da 17a 0: freccia diagonale significa corrispondenza di basi (base sx e base alto), spostamento verticale(Base sx, Gap alto) e orizzontale (Base alto, gap sx) prendo una base con un Gap. L'allineamento ottimo non è uno solo:
1. GA-ATC e CATA-C
2. GAAT-C e CA-TAC
3. GAAT-C e C-ATAC
4. GAAT-C e -CATAC
Non esiste perciò un modo migliore di allineare le sequenze per ottenere un punteggio maggiore di 17. Devo riportare tutti gli allineamenti!
Cosa vuol dire avere un gap nella soluzione? L'idea è che vogliamo mettere in corrispondenza le sequenze nel miglior modo possibile e questo a volte implica il saltare delle basi (porzione di sequenze) perché magari in una parte più

distante troviamo un pezzo di sequenza che è simile e può avere una corrispondenza migliore. Nelle sequenze biologiche trova un grande riscontro perché le sequenze non sono rigidamente simili: se c'è un'insertione c'è una base in più rispetto all'altra sequenza, se c'è una delezione c'è una base in meno rispetto all'altra sequenza. Il punteggio, essendo assegnato dall'utente, è un grado di libertà che assegna variabilità ai risultati. Si perde apparentemente quindi in oggettività e, per ovviare a questo problema, sono stati inseriti in letteratura degli schemi di punteggio. Analiticamente: - x e y = sequenze da allineare - F = la matrice di procedura - s = la matrice di sostituzione - d = il gap lineare di penalità - Si prende il max tra 3 opzioni (nel sistema rispettivamente diagonale, verticale e orizzontale) Allineamento locale L'unica differenza con l'allineamento

globale viene rappresentata dalla quarta opzione data dalla presenza dello zero, indicando che non possono esserci valori negativi nelle celle. Vado a inizializzare con 0 la prima riga e la prima colonna; poi vado a riempire la cella con le stesse regole di prima. Nel momento in cui viene identificata una quarta opzione il punteggio massimo è semplicemente il valore massimo all'interno della tabella, a prescindere dalla posizione da esso occupata (non più ultima cella in basso a dx). Anche qui viene poi ripercorso l'andamento delle frecce a ritroso e solitamente copre solo una porzione delle sequenze (ove presenti frecce).

NB. Questi algoritmi possono essere usati sia su sequenze nucleotidiche (4) sia su sequenze amminoacidiche (20).

Matrici di sostituzioni: BLOSUM

Una matrice di sostituzione ha il compito di valutare il peso delle sostituzioni di AAs differenti, valutando il loro grado di similarità biologico: sostituzioni più plausibili in natura hanno

un punteggio positivo edelevato. Per quanto riguarda BLOSUM, il procedimento prevede di analizzare sequenze amminoacidiche inrelazione evolutiva tra loro e valutare i punteggi in base alle sostituzioni presenti in natura. Dalle sequenzevengono ottenuti dei multi-allineamenti e ne sono estratti dei blocchi da valutare (parte di allineamentoprivo di gap e con un certo grado di conservazione). Ciò provoca un problema di circolarità in quanto i blocchi derivano da un allineamento, ma questo deriva da una matrice di sostituzione, che deve essere una condizione iniziale: alla prima iterazione si applica uno schema per cui il match=1 e mismatch=0. Si basa quindi sull'idea di collezionare un gran numero di sequenze di proteine per valutare le sostituzioni più ricorrenti e verosimili in natura.

Esempio. Abbiamo 6 sequenze e 4 posizioni, andiamo a contare l'occorrenza dei vari caratteri quindi 24 in tutto divise in 14 A, 4 B e 6 C; il procedimento per ottenere la

BLOSUM prevede di calcolare le frequenze di appaiamento. Guardando quindi gli allenamenti in direzione verticale andiamo a calcolare l'occorrenza delle diverse coppie possibili: andiamo a determinare il numero di possibili appaiamenti (4 posizioni * 6 coppie / 2 elementi) e andiamo a calcolare la frequenza di ciascun tipo di appaiamento (AB= nella prima posizione si allinea 5 volte, 3 sulla terza posizione e 0 sulle altre 2). I numeri vengono elaborati calcolando le proporzioni attese ovvero il prodotto delle frequenze dei singoli simboli (se le basi sono 6 diverse moltiplico anche per 2); le proporzioni attese vengono confrontate con quelle calcolate facendo 2 volte il logaritmo in base due delle proporzioni osservate fratto le proporzioni attese. Quest'operazione ci restituisce un valore che viene arrotondato all'intero più vicino che ci restituisce la matrice di sostituzione. La matrice ottenuta è simmetrica e conterrà i punteggi che dobbiamo utilizzare negli.

Algoritmi come quelli ottimo ecc. La matrice BLOSUM reale è sempre simmetrica; il significato biologico dei punteggi ci dice che un punteggio positivo relativamente elevato riguarda una sostituzione che è comune, viceversa punteggi negativi sono relativi a sostituzioni tra acidi differenti rispetto alle loro proprietà chimico-fisiche e quindi meno osservate in natura perché vanno a variare le caratteristiche strutturali e quindi funzionali.

La matrice BLOSUM è sempre correlata ad un numero che è la % che abbiamo utilizzato per raggruppare sequenze con identità superiore alla soglia stessa. Andando a raggruppare le sequenze più simili quello che otteniamo è una collezione di sequenze molto vicine tra loro. Se la soglia è invece bassa otteniamo una collezione di sequenze più distanti e meno simili (livello di identità più basso). Le conseguenze sull'applicazione è che la BLOSUM con un numero

alto sarà adatta a confrontare sequenze simili tra loro. Esempio. Se abbiamo BLOSUM85 sequenze con 86% di similarità vengono contate come una (cluster) mentre con 84% di similarità vengono contate come distinte. NB. Identità e similarità sono proprietà quantitative. Identità = numero di AAs identici.

73. BLAST L'allineamento ottimo ci garantisce la soluzione migliore possibile rispetto al punteggio stabilito quindi alla matrice di sostituzione. In generale gli algoritmi ottimi sono molto onerosi dal punto di vista computazionale e in particolare l'utilizzo più comune dell'operazione di allineamento è la ricerca di similarità tra la mia sequenza e le sequenze disponibili in banca dati. Questo vuol dire fare milioni di allineamenti e quindi rende impossibile l'utilizzo dell'algoritmo ottimo. Per fare fronte a questo problema si utilizzano soluzioni euristiche ovvero che non garantiscono la migliore.

soluzione possibili.

BLAST è un algoritmo che affronta questo problema ovvero ottimizzare la ricerca di una sequenza all'interno di una vasta collezione di sequenze in cui andare a cercare similarità per effettuare delle valutazioni e derivare nuove conoscenze sulla sequenza che vogliamo indagare.

BLAST è l'algoritmo di allineamento di sequenze più utilizzato ed è in realtà una famiglia di programmi di analisi di sequenza che funziona sia per le sequenze amminoacidiche sia per quelle nucleotidiche. All'interno della famiglia troviamo:

BLASTP che consente di confrontare una sequenza amminoacidica con un database di sequenze amminoacidiche
BLASTN che consente di confrontare una sequenza nucleotidica con un database di sequenze nucleotidiche
BLASTX prende una sequenza nucleotidica e la traduce in sei diverse sequenze amminoacidiche che vengono confrontate col database di sequenze amminoacidiche
TBLASTN prende una

sequenza amminoacidica e la confronta con le 6 sequenze amminoacidiche che derivano da una sequenza nucleotidica

TBLASTX traduce la sequenza nucleotidica sia del database che della query in 6 sequenze amminoacidiche ottenendo quindi 36 sequenze da confrontare.

Procedimento di BLASTP:

Compilo il vocabolario di parole di lunghezza prefissata; quindi, se la lunghezza è pari a 3 andremo a ottenere tutte le sequenze di 3 AAs. Quindi si ottiene una lista di sotto-sequenze di lunghezza fissata W, derivate dalla sequenza in input (query).
Le sotto-sequenze vengono affiancate alle sequenze che sono simili a quelle originali sopra una certa soglia: la somiglianza si basa su una matrice di sostituzione. Si ottiene un vocabolario esteso che contiene sia le sequenze originali che quelle simili a esse.
Con questo vocabolario si cerca nel database delle corrispondenze.
Trovata la corrispondenza, si cerca di estendere amonte e a valle.

Anteprima

Vedrai una selezione di 13 pagine su 57