Bioinformatica

Appunti del modulo di Bioinformatica dell'esame Laboratorio Biomolecolare basati su appunti personali del publisher presi alle lezioni del prof. Friard dell’università degli Studi …

Esame Laboratorio biomolecolare

Facoltà Scienze matematiche fisiche e naturali

Dal corso del Prof. Friard Olivier Pierre

Università Università degli studi di Torino

Publisher Ile9

A.A. 2015-2016

30 pagine

1 download

Appunto

Vota 4,0 / 5 (2)

Scarica

Estratto del documento

ENTREZ

È un database secondario, in realtà più che un database è un sistema di cross-database search,

ovvero se noi diamo l’entry a ENTREZ, lui non cerca il gene solo al suo interno, ma anche in tutti i

database connessi. Quindi ci darà un risultato che è diviso a seconda del tipo e il numero di record

che ha trovato in ciascun database (di letteratura, genomi, proteine ecc).

PUBMED

Database della letteratura scientifica, contiene tutta la letteratura dal 1946 in poi. Ogni articolo è

identificato con un Pubmed ID (o PMID). Vi sono più di un milione di articoli al suo interno, quindi

per affinare la ricerca possiamo fare un ricerca avanzata (ad esempio se scriviamo myc e facciamo

una ricerca base otteniamo 29622 risultati).

Come affinare una ricerca? Clicchiamo su ADVANCED e ci compare una schermata con diverse

form builder per creare delle query per affinare la ricerca. Ad esempio se sappiamo chi ha

pubblicato l’articolo e in quale giornale è stato pubblicato possiamo scriverlo. Si apre un menù a

tendina dove ci sono diverse voci (es primo autore, ultimo autore, data in cui è stato pubblicato

l’articolo ecc). settiamo ad esempio il campo TITLE (cioè sappiamo che nel titolo compare la

parola myc) e scriviamo myc; poi aggiungiamo un’altra voce es JOURNAL ( scriviamo il nome del

giornale). Inoltre sappiamo anche l’autore dell’articolo, quindi selezioniamo AUTHOR (e scriviamo

il nome dell’articolo). Se sappiamo anche chi è l’ultimo autore (ovvero il finanziatore della ricerca e

il proprietario del laboratorio), possiamo inserirlo in LAST AUTHOR. A questo punto PubMed non

ci da una schermata con diversi risultati, ma direttamente l’articolo.

Una pagine di articolo di pubmed ha queste caratteristiche:

In alto si trova il nome del giornale

 Titolo dell’articolo

 Ultimo nome

 Abstract (riassunto dell’articolo)



Pubmed memorizza solo le informazioni relative all’articolo, ma non ha l’articolo al suo interno,

quindi ci da i link ai siti da cui possiamo scaricare l’articolo.

Possiamo anche non usare il menù a tendina per affinare la ricerca, ma farlo a mano attraverso dei

TAG (title, last author, ecc). Quindi lo scriviamo nella barra in alto.

OMOLOGIA E ALLINEAMENTO DI SEQUENZA

L’omologia indica una similarità tra due oggetti, dovuta ad un antenato comune (es arto dei

tetrapodi). Lo stesso concetto si può applicare alle sequenze geniche, quindi l’omologia tra

sequenze indica una similarità tra due sequenze dovute ad un antenato comune (due sequenze si

sono evolute a partire da un antenato comune). Eseguire un allineamento di sequenza, quindi,

significa comparare due o più sequenze (nel primo caso si parla di ALLINEAMENTO PAIRWISE,

nel secondo ALLINEAMENTO MULTIPLE) per identificare caratteri della sequenza (basi o aa) che

sono simili o identici.

Perché si effettuano gli allineamenti? Si fa per capire se due sequenze possono essere omologhe,

solitamente si fa un allineamento di sequenza quando non sappiamo la funzione di una delle due,

quindi se le due sequenze hanno un buon allineamento e una buona omologia, questo ci

suggerisce che le due possono avere una funzione simile. Oppure si fa per studi di evoluzione,

quindi come porre nell’albero dell’evoluzione una nuova specie. O ancora, per identificare elementi

conservati nella sequenza. Se facciamo un allineamento multiplo, ad esempio prendiamo la

sequenza della proteina X di 20 specie diverse e ne facciamo l’allineamento, vediamo che su tutti i

residui ci sono delle variazioni, ma alcuni si mantengono (ad esempio si mantiene sempre una

particolare tirosina). Questo ci dice che questo residuo è funzionalmente importante, nell’esempio

della tirosina essa è un sito di fosforilazione. Oppure abbiamo una sequenza di DNA che viene dal

punto X del genoma, usando l’allineamento di sequenza troviamo il punto in cui si è originata

quella sequenza.

Le caratteristiche fondamentali degli allineamenti di sequenza sono:

MATCH PERFETTI: non è avvenuto nessun cambiamento in nessuna sequenza. Vengono

 identificati da una stanghetta dritta

SOSTITUZIONI (MISMATCH): mancanza di match tra le sequenze, ad un certo punto

 dell’evoluzione è avvenuto un cambiamento rispetto all’antenato comune, ma noi non

sappiamo chi è l’antenato, quindi non sappiamo quale base o aa c’era in quella posizione

GAP: salti, più specificamente sono definiti INDEL, ovvero ad un certo punto

 dell’evoluzione un residuo è stato perso o acquistato rispetto all’antenato comune, noi non

sappiamo chi sia l’antenato comune quindi non sappiamo se il residuo è stato perso o

acquistato, di conseguenza diciamo che è un INDEL (insertion or deletion).

Esistono due tipi di allineamenti: globali o locali. Funzionano in modo molto diverso, ma in alcuni

casi limite danno lo stesso risultato.

L’allineamento globale consiste nel cercare di allineare più residui possibili nell’intera lunghezza

delle sequenze. Quindi cerco di allineare tutti i residui delle sequenze anche se si introducono

mismatch, gap. Forza l’allineamento in zone molto diverse. Cerca di massimizzare il numero di

residui corrispondenti.

L’allineamento locale premia principalmente allineamenti quasi perfetti ma su scala locale, cioè

piccoli pezzi ma allineati perfettamente. In questo caso abbiamo due allineamenti e non

considererebbe la parte in mezzo.

Quando consideriamo due sequenze molto simili tra loro, l’allineamento locale e globale danno

quasi gli stessi risultati. Nel caso in cui, invece, consideriamo due sequenze molto diverse, allora

un allineamento locale è preferibile perché ci dirà quali regioni si sono conservate nell’evoluzione.

Questo è molto importante perché una regione

conservata è funzionalmente importante.

Come funziona l’allineamento PAIRWISE?

Il problema è che esistono milioni di possibili

allineamenti.

Come facciamo a scegliere qual è il l’allineamento migliore tra i due? Sono stati inseriti dei sistemi

di scoring. Il concetto alla basa è che un match deve essere premiata, mentre un mismatch o indel

deve essere penalizzato. Ad esempio diamo un +1 al match, -2 ai mismatch e -1 ai gap/indel.

Otteniamo, nel nostro esempio, che l’allineamento 1 (a sinistra) ha uno score di 7, mentre

l’allineamento 2 (quello di destra) ha uno score

di 8. Quindi l’allineamento 2 è migliore. Però non

è così semplice, perchhè il tipo di allineamento

che otteniamo dipende dal sistema di scoring

che scegliamo. Se cambiamo gli score la

situazione cambia. È critico scegliere il sistema

di scoring giusto. Esso può essere rappresentato

come una matrice 4x4 (nel caso dei nucleotidi) o

20x20 (nel caso degli aa). Per ogni casella ci

dice qual è lo score da considerare

nell’allineamento nel momento in cui troviamo A

e A (match perfetto score=1), A e G (mismatch,

score =-2). Questo sistema è molto semplice. Possiamo considerare una serie di caratteristiche

biologiche degli aa o basi azotate, nel momento in cui andiamo a penalizzare o premiare un tipo di

allineamento rispetto ad un altro.

Biologicamente nella cellula, possono avvenire eventi di transizione o trasversione tra le basi.

Nel primo caso si ha una conversione di una purina in un’altra purina o di una pirimidina in un’altra

pirimidina. Nel secondo caso, invece, abbiamo la conversione di una pirimidina in purina o

viceversa. Sono eventi sporadici e possono essere dovuti a radiazioni, presenza di mutageni,

particolari enzimi ecc. Se volessimo considerare questi eventi nell’allineamento, potremo decidere

di penalizzare di più una trasversione rispetto ad una transizione, perché chimicamente è più facile

che una purina si trasformi in un’altra purina, rispetto ad una purina in una pirimidina.

Nella matrice avremo sempre i match perfetti di score +1, poi avremo gli eventi di trasversione

( es A in C o T) a cui daremo uno score di -3 e gli eventi di transizione (es A in G) a cui daremo

uno score di -1.

La stessa cosa possiamo farla per gli aa, perché essi hanno proprietà chimico-fisiche ben precise

che sono condivise da gruppi di aa diversi, quindi avremo aa aromatici, alifatici, idrofobici, idrofilici.

Possiamo quindi considerare tutte queste caratteristiche e nella nostra matrice daremo uno score

negativo più piccolo per la sostituzione di un aa alifatico con un altro aa alifatico, rispetto alla

sostituzione di un aa alifatico con aa aromatico.

Cosa vengono gestiti gli INDEL? Gli allineamenti senza gap sono preferiti a quelli con gap, tuttavia

in alcuni casi è necessario aprire un gap per avere un allineamento. Per evitare l’apertura di nuovi

gap non necessari, si da uno score di GAP OPENING che è più penalizzato rispetto all’estensione

di gap che sono già stati aperti. Quando andiamo a fare un allineamento è meglio che ci sia un

solo gap molto lungo che tanti piccoli sparsi nella sequenza.

Queste matrici sono già state create. Le matrici usate sono quelle PAM e BLOSUM (in realtà ora si

usano solo blosum). L’idea alla base è il fatto che se abbiamo un set di sequenze molto correlate

fra loro per funzione, evoluzione ecc e le allineiamo. Possiamo dare un punteggio alla relazione

che c’è tra gli aa a seconda delle volte che vediamo un aa che viene convertito in un altro aa in

una sequenza diversa. Ad esempio abbiamo 9 sequenze che vengono allineate e in punto vi è una

differenza. In questo caso possiamo attribuire uno score alla probabilità che ci sia il cambiamento

si un aa in un altro in base a quante volte lo vediamo in un allineamento.

Ad esempio la E nella sequenza 1 è stata sostituita da una D 4 volte e da una Q 1 volta. Ciò vuol

dire che nella nostra matrice dei punteggi andremo a mettere un -4 per la E sostituita con D e un -1

per la E sostituita con Q.

Le matrici PAM (Point Accepted Mutations) sono state costruite a partire da un database di 1592

sostituzioni in 71 gruppi di proteine strettamente correlate fra loro (>85% di identità). A questo

punto si sono contate il numero di sostituzioni che avvenivamo per ogni aa, quindi ad es. l’alanina

quante volte veniva sostituita con acido aspartico ecc e questi valori sono stati segnati nella

matrice. Si è visto che sostituzioni comuni tendono ad avvenire tra aa che hanno caratteristiche

chimiche simili (cioè un aa alifatico tende ad essere sostituito maggiormente da un altro aa alifatico

che non da uno aromatico). Esistono diverse matrici PAM identificate da un numero (es PAM80 e

PAM250) questo numero identifica la distanza evolutiva delle

Anteprima

Vedrai una selezione di 7 pagine su 30