Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
ENTREZ
È un database secondario, in realtà più che un database è un sistema di cross-database search,
ovvero se noi diamo l’entry a ENTREZ, lui non cerca il gene solo al suo interno, ma anche in tutti i
database connessi. Quindi ci darà un risultato che è diviso a seconda del tipo e il numero di record
che ha trovato in ciascun database (di letteratura, genomi, proteine ecc).
PUBMED
Database della letteratura scientifica, contiene tutta la letteratura dal 1946 in poi. Ogni articolo è
identificato con un Pubmed ID (o PMID). Vi sono più di un milione di articoli al suo interno, quindi
per affinare la ricerca possiamo fare un ricerca avanzata (ad esempio se scriviamo myc e facciamo
una ricerca base otteniamo 29622 risultati).
Come affinare una ricerca? Clicchiamo su ADVANCED e ci compare una schermata con diverse
form builder per creare delle query per affinare la ricerca. Ad esempio se sappiamo chi ha
pubblicato l’articolo e in quale giornale è stato pubblicato possiamo scriverlo. Si apre un menù a
tendina dove ci sono diverse voci (es primo autore, ultimo autore, data in cui è stato pubblicato
l’articolo ecc). settiamo ad esempio il campo TITLE (cioè sappiamo che nel titolo compare la
parola myc) e scriviamo myc; poi aggiungiamo un’altra voce es JOURNAL ( scriviamo il nome del
giornale). Inoltre sappiamo anche l’autore dell’articolo, quindi selezioniamo AUTHOR (e scriviamo
il nome dell’articolo). Se sappiamo anche chi è l’ultimo autore (ovvero il finanziatore della ricerca e
il proprietario del laboratorio), possiamo inserirlo in LAST AUTHOR. A questo punto PubMed non
ci da una schermata con diversi risultati, ma direttamente l’articolo.
Una pagine di articolo di pubmed ha queste caratteristiche:
In alto si trova il nome del giornale
Titolo dell’articolo
Ultimo nome
Abstract (riassunto dell’articolo)
Pubmed memorizza solo le informazioni relative all’articolo, ma non ha l’articolo al suo interno,
quindi ci da i link ai siti da cui possiamo scaricare l’articolo.
Possiamo anche non usare il menù a tendina per affinare la ricerca, ma farlo a mano attraverso dei
TAG (title, last author, ecc). Quindi lo scriviamo nella barra in alto.
OMOLOGIA E ALLINEAMENTO DI SEQUENZA
L’omologia indica una similarità tra due oggetti, dovuta ad un antenato comune (es arto dei
tetrapodi). Lo stesso concetto si può applicare alle sequenze geniche, quindi l’omologia tra
sequenze indica una similarità tra due sequenze dovute ad un antenato comune (due sequenze si
sono evolute a partire da un antenato comune). Eseguire un allineamento di sequenza, quindi,
significa comparare due o più sequenze (nel primo caso si parla di ALLINEAMENTO PAIRWISE,
nel secondo ALLINEAMENTO MULTIPLE) per identificare caratteri della sequenza (basi o aa) che
sono simili o identici.
Perché si effettuano gli allineamenti? Si fa per capire se due sequenze possono essere omologhe,
solitamente si fa un allineamento di sequenza quando non sappiamo la funzione di una delle due,
quindi se le due sequenze hanno un buon allineamento e una buona omologia, questo ci
suggerisce che le due possono avere una funzione simile. Oppure si fa per studi di evoluzione,
quindi come porre nell’albero dell’evoluzione una nuova specie. O ancora, per identificare elementi
conservati nella sequenza. Se facciamo un allineamento multiplo, ad esempio prendiamo la
sequenza della proteina X di 20 specie diverse e ne facciamo l’allineamento, vediamo che su tutti i
residui ci sono delle variazioni, ma alcuni si mantengono (ad esempio si mantiene sempre una
particolare tirosina). Questo ci dice che questo residuo è funzionalmente importante, nell’esempio
della tirosina essa è un sito di fosforilazione. Oppure abbiamo una sequenza di DNA che viene dal
punto X del genoma, usando l’allineamento di sequenza troviamo il punto in cui si è originata
quella sequenza.
Le caratteristiche fondamentali degli allineamenti di sequenza sono:
MATCH PERFETTI: non è avvenuto nessun cambiamento in nessuna sequenza. Vengono
identificati da una stanghetta dritta
SOSTITUZIONI (MISMATCH): mancanza di match tra le sequenze, ad un certo punto
dell’evoluzione è avvenuto un cambiamento rispetto all’antenato comune, ma noi non
sappiamo chi è l’antenato, quindi non sappiamo quale base o aa c’era in quella posizione
GAP: salti, più specificamente sono definiti INDEL, ovvero ad un certo punto
dell’evoluzione un residuo è stato perso o acquistato rispetto all’antenato comune, noi non
sappiamo chi sia l’antenato comune quindi non sappiamo se il residuo è stato perso o
acquistato, di conseguenza diciamo che è un INDEL (insertion or deletion).
Esistono due tipi di allineamenti: globali o locali. Funzionano in modo molto diverso, ma in alcuni
casi limite danno lo stesso risultato.
L’allineamento globale consiste nel cercare di allineare più residui possibili nell’intera lunghezza
delle sequenze. Quindi cerco di allineare tutti i residui delle sequenze anche se si introducono
mismatch, gap. Forza l’allineamento in zone molto diverse. Cerca di massimizzare il numero di
residui corrispondenti.
L’allineamento locale premia principalmente allineamenti quasi perfetti ma su scala locale, cioè
piccoli pezzi ma allineati perfettamente. In questo caso abbiamo due allineamenti e non
considererebbe la parte in mezzo.
Quando consideriamo due sequenze molto simili tra loro, l’allineamento locale e globale danno
quasi gli stessi risultati. Nel caso in cui, invece, consideriamo due sequenze molto diverse, allora
un allineamento locale è preferibile perché ci dirà quali regioni si sono conservate nell’evoluzione.
Questo è molto importante perché una regione
conservata è funzionalmente importante.
Come funziona l’allineamento PAIRWISE?
Il problema è che esistono milioni di possibili
allineamenti.
Come facciamo a scegliere qual è il l’allineamento migliore tra i due? Sono stati inseriti dei sistemi
di scoring. Il concetto alla basa è che un match deve essere premiata, mentre un mismatch o indel
deve essere penalizzato. Ad esempio diamo un +1 al match, -2 ai mismatch e -1 ai gap/indel.
Otteniamo, nel nostro esempio, che l’allineamento 1 (a sinistra) ha uno score di 7, mentre
l’allineamento 2 (quello di destra) ha uno score
di 8. Quindi l’allineamento 2 è migliore. Però non
è così semplice, perchhè il tipo di allineamento
che otteniamo dipende dal sistema di scoring
che scegliamo. Se cambiamo gli score la
situazione cambia. È critico scegliere il sistema
di scoring giusto. Esso può essere rappresentato
come una matrice 4x4 (nel caso dei nucleotidi) o
20x20 (nel caso degli aa). Per ogni casella ci
dice qual è lo score da considerare
nell’allineamento nel momento in cui troviamo A
e A (match perfetto score=1), A e G (mismatch,
score =-2). Questo sistema è molto semplice. Possiamo considerare una serie di caratteristiche
biologiche degli aa o basi azotate, nel momento in cui andiamo a penalizzare o premiare un tipo di
allineamento rispetto ad un altro.
Biologicamente nella cellula, possono avvenire eventi di transizione o trasversione tra le basi.
Nel primo caso si ha una conversione di una purina in un’altra purina o di una pirimidina in un’altra
pirimidina. Nel secondo caso, invece, abbiamo la conversione di una pirimidina in purina o
viceversa. Sono eventi sporadici e possono essere dovuti a radiazioni, presenza di mutageni,
particolari enzimi ecc. Se volessimo considerare questi eventi nell’allineamento, potremo decidere
di penalizzare di più una trasversione rispetto ad una transizione, perché chimicamente è più facile
che una purina si trasformi in un’altra purina, rispetto ad una purina in una pirimidina.
Nella matrice avremo sempre i match perfetti di score +1, poi avremo gli eventi di trasversione
( es A in C o T) a cui daremo uno score di -3 e gli eventi di transizione (es A in G) a cui daremo
uno score di -1.
La stessa cosa possiamo farla per gli aa, perché essi hanno proprietà chimico-fisiche ben precise
che sono condivise da gruppi di aa diversi, quindi avremo aa aromatici, alifatici, idrofobici, idrofilici.
Possiamo quindi considerare tutte queste caratteristiche e nella nostra matrice daremo uno score
negativo più piccolo per la sostituzione di un aa alifatico con un altro aa alifatico, rispetto alla
sostituzione di un aa alifatico con aa aromatico.
Cosa vengono gestiti gli INDEL? Gli allineamenti senza gap sono preferiti a quelli con gap, tuttavia
in alcuni casi è necessario aprire un gap per avere un allineamento. Per evitare l’apertura di nuovi
gap non necessari, si da uno score di GAP OPENING che è più penalizzato rispetto all’estensione
di gap che sono già stati aperti. Quando andiamo a fare un allineamento è meglio che ci sia un
solo gap molto lungo che tanti piccoli sparsi nella sequenza.
Queste matrici sono già state create. Le matrici usate sono quelle PAM e BLOSUM (in realtà ora si
usano solo blosum). L’idea alla base è il fatto che se abbiamo un set di sequenze molto correlate
fra loro per funzione, evoluzione ecc e le allineiamo. Possiamo dare un punteggio alla relazione
che c’è tra gli aa a seconda delle volte che vediamo un aa che viene convertito in un altro aa in
una sequenza diversa. Ad esempio abbiamo 9 sequenze che vengono allineate e in punto vi è una
differenza. In questo caso possiamo attribuire uno score alla probabilità che ci sia il cambiamento
si un aa in un altro in base a quante volte lo vediamo in un allineamento.
Ad esempio la E nella sequenza 1 è stata sostituita da una D 4 volte e da una Q 1 volta. Ciò vuol
dire che nella nostra matrice dei punteggi andremo a mettere un -4 per la E sostituita con D e un -1
per la E sostituita con Q.
Le matrici PAM (Point Accepted Mutations) sono state costruite a partire da un database di 1592
sostituzioni in 71 gruppi di proteine strettamente correlate fra loro (>85% di identità). A questo
punto si sono contate il numero di sostituzioni che avvenivamo per ogni aa, quindi ad es. l’alanina
quante volte veniva sostituita con acido aspartico ecc e questi valori sono stati segnati nella
matrice. Si è visto che sostituzioni comuni tendono ad avvenire tra aa che hanno caratteristiche
chimiche simili (cioè un aa alifatico tende ad essere sostituito maggiormente da un altro aa alifatico
che non da uno aromatico). Esistono diverse matrici PAM identificate da un numero (es PAM80 e
PAM250) questo numero identifica la distanza evolutiva delle