Estratto del documento

A G – T C C C A T

| = allineamento positivo, i nucleotidi coincidono

– = gap

Agli allineamenti si attribuiscono dei punteggi. Ad esempio potremmo stabilire di dare un

punteggio uguale a 1 quando l’allineamento è positivo e uguale a 0 quando si verifica

mismatch o siamo in presenza di un gap.

Analizzando sequenze più lunghe si fa uso delle matrici.

Matrici a punti o dot matrix​ Una sequenza viene posta

orizzontalmente e l’altra verticalmente e si

attribuisce un asterisco (*) quando si ha un

allineamento positivo.

Le zone delle sequenze più simili

localmente si distribuiscono su diagonali

I dot plots mostrano le identità, ma non

tengono in considerazione la similarità.

Per questo è utile utilizzare matrici di

punteggio, in cui ad ogni coppia viene

attribuito uno score che sostituisce gli

asterischi (*).

Dato un sistema di punteggi serve un algoritmo che trovi l’allineamento con lo score più

elevato, cioè servono algoritmi di allineamento.

Tra questi ci sono gli algoritmi dinamici di allineamento.

Il dinamismo di un algoritmo consiste nel fatto che ogni operazione determina l'operazione

successiva, scartando una serie di altre operazioni inutili. Dunque, una serie di decisioni è

effettuata ad ogni passo dell’allineamento per trovare la coppia di residui con il miglior

punteggio per quel passo. In un algoritmo di allineamento dinamico un percorso ottimale è

identificato dall’estensione graduale di sotto percorsi localmente ottimali.

La programmazione dinamica è utilizzata dagli algoritmi di Needleman-Wunsch e

di Smith-Waterman.

L’algoritmo proposto da Needleman-Wunsch è definito algoritmo globale, utilizzato nell’

allineamento globale in cui si confrontano le sequenze considerando l’allineamento

migliore da un’estremità all’altra.

L’algoritmo proposta da Smith-Waterman è definito algoritmo locale, utilizzato

nell’allineamento locale in cui si individuano le sotto-sequenze con massimo livello di

similarità.

Nell’algoritmo in ciascuna casella della matrice a punti, l’asterisco viene sostituito da valori di

una matrice di sostituzione.

Per la determinazione del grado di similarità tra sequenze di nucleotidi si utilizza

essenzialmente il criterio identità/non identità e la presenza di gaps decrementa il

punteggio di similarità.

Per sequenze nucleotidiche si hanno due opzioni:

1) Modello «semplice» di identità (+1) e non identità (0)

2) Modello più complesso, detto modello Kimura, che pesa in modo

diverso transizioni e

transversioni

Per le sequenze amminoacidiche il calcolo della similarità è diverso e per molti versi più

complesso:

●​ criterio di identità/non-identità, secondo il quale si attribuisce un punteggio

costante alle coppie di residui identici non sarebbe sufficientemente preciso

Qui oltre al codice classico, che per gli amminoacidi utilizza un alfabeto di 20 lettere,

possono essere utilizzati altri «alfabeti» che raggruppano gli amminoacidi sulla

base delle loro similarità chimico-funzionali:

-​ chimiche

-​ funzionali

-​ idrofilia

-​ carica.

●​ criterio del codice genetico, secondo il quale il punteggio di similarità per una

coppia di aminoacidi è correlato al numero di sostituzioni nucleotidiche che, sulla

base del codice genetico, sono necessarie per la loro interconversione.

Qui gli aminoacidi omologhi sono considerati tanto più simili quanto meno sono le

sostituzioni necessarie per la loro conversione.

●​ criterio congiunto ad un peso legato alla similarità strutturale degli aminoacidi

omologhi.

Qui viene considerato congiuntamente il peso legato alla facilità di conversione tra gli

aminoacidi e quello legato alle loro somiglianze strutturali.

●​ criterio basato sui dati di interconvertibilità degli aminoacidi determinati dalla

osservazione di insiemi di proteine omologhe.

Due tipi fondamentali di matrici di questo genere usate ancora oggi

-​ Matrici Point Accepted Mutation (PAM) – Margaret Dayhoff

-​ Matrici Blocks Substitution Matrix (BLOSUM) – Henikoff & Henikoff

PAM (Point Accepted Mutation): che prende in analisi le mutazioni accettate. Una mutazione

è tanto più accettata quanto più l’amminoacido sostituito è simile al nuovo amminoacido. Ad

esempio l’asparagina è accettata perché esistono diversi amminoacidi con catene simili.

Mentre amminoacidi come il triptofano e la cisteina non sono accettati perché hanno catene

uniche.

PAM0: indica che si hanno zero mutazioni ogni 100 amminoacidi

PAM100: indica che si hanno 100 mutazioni ogni 100 amminoacidi

PAM250: indica che si hanno 250 mutazioni ogni 100 amminoacidi. Questo valore indica

una divergenza evolutiva troppo elevata e il punteggio biologicamente ha poco significato.

I valori contenuti in una PAM score matrix sono derivati dal rapporto tra:

1) Probabilità che due amminoacidi X ed Y allineati tra loro siano evolutivamente

correlati – dipende dalla frequenza di mutazione X -> Y osservato empiricamente

2) Probabilità che i due amminoacidi X ed Y siano allineati tra loro per caso – dipende

soltanto dalla frequenza con cui i due amminoacidi sono osservati un dato organismo

Questo rapporto viene poi sottoposto a trasformazione Log e moltiplicato per 10 per dare il

valore contenuto nella cella corrispondente.

BLOSUM (BLOCKS Substitution Matrix): indica la similarità tra sequenze proteiche.Queste

matrici sono particolarmente efficaci nell’allineamento tra proteina evolutivamente molto

distanti. Gli amminoacidi possono essere classificati in gruppi in base alle loro proprietà

chimico-fisiche e funzionali, considerando caratteristiche come la polarità, natura idrofila o

idrofobica ecc.

BLOSUM avrà dei valori maggiori di 0 ma minori di 100:

BLOSUM 30: sequenza con almeno il 30% di identità

BLOSUM 45: sequenza con almeno il 45% di identità

BLOSUM 95: sequenza con almeno il 95% di identità

La ricerca di similarità può svolgersi consultando le banche date, la sequenza di partenza

utilizzata come “chiave”di ricerca è detta sequenza query.

Anteprima
Vedrai una selezione di 3 pagine su 6
Riassunto esame Metodologie biomolecolari e bioinformatiche, Prof. Melfi Raffaella, libro consigliato Fondamenti di bioinformatica , Giulio Pavesi   Pag. 1 Riassunto esame Metodologie biomolecolari e bioinformatiche, Prof. Melfi Raffaella, libro consigliato Fondamenti di bioinformatica , Giulio Pavesi   Pag. 2
Anteprima di 3 pagg. su 6.
Scarica il documento per vederlo tutto.
Riassunto esame Metodologie biomolecolari e bioinformatiche, Prof. Melfi Raffaella, libro consigliato Fondamenti di bioinformatica , Giulio Pavesi   Pag. 6
1 su 6
D/illustrazione/soddisfatti o rimborsati
Acquista con carta o PayPal
Scarica i documenti tutte le volte che vuoi
Dettagli
SSD
Scienze biologiche BIO/11 Biologia molecolare

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher BiologistD di informazioni apprese con la frequenza delle lezioni di Metodologie biomolecolari e bioinformatiche e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Palermo o del prof Melfi Raffaella.
Appunti correlati Invia appunti e guadagna

Domande e risposte

Hai bisogno di aiuto?
Chiedi alla community