A G – T C C C A T
| = allineamento positivo, i nucleotidi coincidono
– = gap
Agli allineamenti si attribuiscono dei punteggi. Ad esempio potremmo stabilire di dare un
punteggio uguale a 1 quando l’allineamento è positivo e uguale a 0 quando si verifica
mismatch o siamo in presenza di un gap.
Analizzando sequenze più lunghe si fa uso delle matrici.
Matrici a punti o dot matrix Una sequenza viene posta
orizzontalmente e l’altra verticalmente e si
attribuisce un asterisco (*) quando si ha un
allineamento positivo.
Le zone delle sequenze più simili
localmente si distribuiscono su diagonali
I dot plots mostrano le identità, ma non
tengono in considerazione la similarità.
Per questo è utile utilizzare matrici di
punteggio, in cui ad ogni coppia viene
attribuito uno score che sostituisce gli
asterischi (*).
Dato un sistema di punteggi serve un algoritmo che trovi l’allineamento con lo score più
elevato, cioè servono algoritmi di allineamento.
Tra questi ci sono gli algoritmi dinamici di allineamento.
Il dinamismo di un algoritmo consiste nel fatto che ogni operazione determina l'operazione
successiva, scartando una serie di altre operazioni inutili. Dunque, una serie di decisioni è
effettuata ad ogni passo dell’allineamento per trovare la coppia di residui con il miglior
punteggio per quel passo. In un algoritmo di allineamento dinamico un percorso ottimale è
identificato dall’estensione graduale di sotto percorsi localmente ottimali.
La programmazione dinamica è utilizzata dagli algoritmi di Needleman-Wunsch e
di Smith-Waterman.
L’algoritmo proposto da Needleman-Wunsch è definito algoritmo globale, utilizzato nell’
allineamento globale in cui si confrontano le sequenze considerando l’allineamento
migliore da un’estremità all’altra.
L’algoritmo proposta da Smith-Waterman è definito algoritmo locale, utilizzato
nell’allineamento locale in cui si individuano le sotto-sequenze con massimo livello di
similarità.
Nell’algoritmo in ciascuna casella della matrice a punti, l’asterisco viene sostituito da valori di
una matrice di sostituzione.
Per la determinazione del grado di similarità tra sequenze di nucleotidi si utilizza
essenzialmente il criterio identità/non identità e la presenza di gaps decrementa il
punteggio di similarità.
Per sequenze nucleotidiche si hanno due opzioni:
1) Modello «semplice» di identità (+1) e non identità (0)
2) Modello più complesso, detto modello Kimura, che pesa in modo
diverso transizioni e
transversioni
Per le sequenze amminoacidiche il calcolo della similarità è diverso e per molti versi più
complesso:
● criterio di identità/non-identità, secondo il quale si attribuisce un punteggio
costante alle coppie di residui identici non sarebbe sufficientemente preciso
Qui oltre al codice classico, che per gli amminoacidi utilizza un alfabeto di 20 lettere,
possono essere utilizzati altri «alfabeti» che raggruppano gli amminoacidi sulla
base delle loro similarità chimico-funzionali:
- chimiche
- funzionali
- idrofilia
- carica.
● criterio del codice genetico, secondo il quale il punteggio di similarità per una
coppia di aminoacidi è correlato al numero di sostituzioni nucleotidiche che, sulla
base del codice genetico, sono necessarie per la loro interconversione.
Qui gli aminoacidi omologhi sono considerati tanto più simili quanto meno sono le
sostituzioni necessarie per la loro conversione.
● criterio congiunto ad un peso legato alla similarità strutturale degli aminoacidi
omologhi.
Qui viene considerato congiuntamente il peso legato alla facilità di conversione tra gli
aminoacidi e quello legato alle loro somiglianze strutturali.
● criterio basato sui dati di interconvertibilità degli aminoacidi determinati dalla
osservazione di insiemi di proteine omologhe.
Due tipi fondamentali di matrici di questo genere usate ancora oggi
- Matrici Point Accepted Mutation (PAM) – Margaret Dayhoff
- Matrici Blocks Substitution Matrix (BLOSUM) – Henikoff & Henikoff
PAM (Point Accepted Mutation): che prende in analisi le mutazioni accettate. Una mutazione
è tanto più accettata quanto più l’amminoacido sostituito è simile al nuovo amminoacido. Ad
esempio l’asparagina è accettata perché esistono diversi amminoacidi con catene simili.
Mentre amminoacidi come il triptofano e la cisteina non sono accettati perché hanno catene
uniche.
PAM0: indica che si hanno zero mutazioni ogni 100 amminoacidi
PAM100: indica che si hanno 100 mutazioni ogni 100 amminoacidi
PAM250: indica che si hanno 250 mutazioni ogni 100 amminoacidi. Questo valore indica
una divergenza evolutiva troppo elevata e il punteggio biologicamente ha poco significato.
I valori contenuti in una PAM score matrix sono derivati dal rapporto tra:
1) Probabilità che due amminoacidi X ed Y allineati tra loro siano evolutivamente
correlati – dipende dalla frequenza di mutazione X -> Y osservato empiricamente
2) Probabilità che i due amminoacidi X ed Y siano allineati tra loro per caso – dipende
soltanto dalla frequenza con cui i due amminoacidi sono osservati un dato organismo
Questo rapporto viene poi sottoposto a trasformazione Log e moltiplicato per 10 per dare il
valore contenuto nella cella corrispondente.
BLOSUM (BLOCKS Substitution Matrix): indica la similarità tra sequenze proteiche.Queste
matrici sono particolarmente efficaci nell’allineamento tra proteina evolutivamente molto
distanti. Gli amminoacidi possono essere classificati in gruppi in base alle loro proprietà
chimico-fisiche e funzionali, considerando caratteristiche come la polarità, natura idrofila o
idrofobica ecc.
BLOSUM avrà dei valori maggiori di 0 ma minori di 100:
BLOSUM 30: sequenza con almeno il 30% di identità
BLOSUM 45: sequenza con almeno il 45% di identità
BLOSUM 95: sequenza con almeno il 95% di identità
La ricerca di similarità può svolgersi consultando le banche date, la sequenza di partenza
utilizzata come “chiave”di ricerca è detta sequenza query.
-
Riassunto esame Caratteri tipologici dell'architettura, Prof. Cagliano Raffaella, libro consigliato Il filo di un p…
-
Riassunto esame Servizio sociale in Europa, Prof. Pavesi Roberto, libro consigliato Sociologia della devianza, Marz…
-
Riassunto esame Fondamenti di conservazione dell'edilizia storica, Prof. Simonelli Raffaella, libro consigliato Cos…
-
Riassunto esame Informatica, prof. Pavesi, libro consigliato ICT, sistemi informativi e mercati digitali, Valacich,…