4. ASSEMBLAGGIO E ANNOTAZIONE DI GENOMI
ASSEMBLAGGIO FINALE DELLE SEQUENZE GENOMICHE
L’ assemblaggio finale delle sequenze porta alla generazione della sequenza genomica continua, che, in
condizioni ideali, è costituita da tante sequenze indipendenti quanti sono i cromosomi. In realtà questo
risultato richiede molto lavoro, e viene raggiunto per gradi. Tipicamente i primi assemblaggi sono costituiti
da contig di dimensioni molto grandi non connessi tra loro.
La sequenza genomica indicata come completa è allineata lungo i cromosomi, ma spesso ancora contiene
piccole aree di sequenza non nota. Le regioni contenenti sequenze con alto grado di ripetitività raramente
finiscono per essere completate in maniera soddisfacente. Nonostante questi limiti, le sequenze così ottenute
corrispondono in pratica alla totalità delle regioni a singola copia nelle quali i geni strutturali e gli altri
elementi funzionali sono contenuti.
ANNOTAZIONE
Le sequenze assemblate sono analizzate con tecniche diverse per arrivare all’identificazione di geni e
altri elementi funzionali, un processo definito annotazione.
L’annotazione usa procedure diverse che dipendono dal tipo di elemento funzionale, e integra annotazioni
effettuate con metodiche manuali e computazionali. All’inizio l’annotazione manuale forniva dati di elevata
qualità in tempi accettabili, ma con il crescere delle sequenze l’annotazione con metodiche computazionali
ha finito largamente per prevalere, anche se l’annotazione manuale continua a garantire alcuni vantaggi in
fase di rifinitura e per la realizzazione di specifici progetti.
Elementi strutturali e funzionali da annotare
Gli elementi funzionali che è possibile identificare all’interno del genoma sono molti. Tra essi:
• Regioni codificanti
• Siti di splicing, promotori, terminatori
• RNA non codificanti (tRNA, rRNA, snRNA)
• Sequenze ripetute
• Altri elementi (telomeri, isole CpG)
IDENTIFICAZIONE DI GENI
Il primo metodo per analizzare una nuova sequenza di solito verte sull’identificazione di geni in quanto i
geni non sono semplici sequenze di nucleotidi a caso ma contengono caratteristiche ben precise. I geni
infatti posseggono quelle che sono le ORF (open reading frames) che sono delle cornici di lettura aperta
che generalmente iniziano per ATG e si chiudono con TAA, TAG, TGA, quindi la prima ricerca verte
proprio su questi gruppi nucleotidici. Ogni ORF ha sei possibili schemi di lettura.
Le ORF devono avere una lunghezza appropriata, non contenere al loro interno stop codon (ma
soltanto uno alla fine); possedere il codone di inizio ATG; includere dei siti donatori o accettori di
splicing o anche segnali di poliadenilazione.
Nel caso dello stop codon, è opportuno ricordare la frequenza con cui una sequenza casuale ne contiene, che
è 3/64. Esistono quindi metodi per identificare le ORF, ma non sono metodi del tutto sicuri. Una sequenza
ricca di CpG sarà probabilmente codificante; ma la curva che riporta la probabilità che si tratti di un
esone o un introne è una doppia campana parzialmente sovrapposta; ciò vuol dire che per certi risultati è più
alta una delle due probabilità, ma c’è comunque una certa possibilità che si tratti dell’altro tipo di sequenza.
1
Il problema di localizzare le ORF consiste nell’analizzare genomi di eucarioti superiori in quanto non
posseggono ORF continue ma sono interrotte in quanto i geni degli eucarioti superiori sono strutturati in
introni ed esoni.
Sono state adottate tre procedure di analisi delle ORF:
• Preferenzialità nell’uso dei codoni. Il codice genetico è degenerato ma non tutti i codoni sono
ugualmente frequenti, quindi ad esempio la leucina è codificata da sei codoni ma solo uno di questi
sarà maggiormente più frequente
• Giunzione esone-introne ossia una sequenza che delimita la giunzione esone-introne identificata
con i nucleotidi 5’-AG↓GTAAGT-3’ anche se solo i nucleotidi GT subito dopo il sito di taglio sono
strettamente conservati, lo stesso vale per le giunzioni introne-esone dove la sequenza è 5’-
PyPyPyPyPyPyNCAG↓-3’ dove solo i nucleotidi CAG finali sono conservati (Py sta per un qualsiasi
nucleotide pirimidinico quindi o T o C)
• Vengono considerate regioni molto a monte del gene
Tutte e tre queste tecniche hanno limitazioni, ma spesso vengono associate a quelle che nei vertebrati sono
chiamate isole CpG ossia delle sequenze lunghe anche più di 1kb che sono altamente ricche di C e G, queste
isole si trovano a monte di circa il 40-50% dei geni umani.
Spesso le regioni codificanti dei geni possono essere identificate mediante allineamento con cDNA o di
proteine contenuti in banche dati.
I geni che codificano per proteine sono identificati da ORF, gli RNA funzionali invece (come possono
essere i tRNA o gli rRNA) non vengono codificati da nessuna ORF quindi per identificarli all’interno del
genoma viene sfruttata quella che è la loro struttura secondaria, in quanto è molto caratteristica. La
struttura secondaria dei tRNA ad esempio assuma una forma a quadrifoglio dovuta ad una struttura che si
crea su un singolo filamento, quindi tra basi dello stesso filamento grazie ad appaiamento intramolecolare
bisognerà cercare due frammenti di uno stesso filamento che possano essere complementari tra loro.
GENI ED ELEMENTI DI CONTROLLO NEI PROCARIOTI
Un gene procariotico è caratterizzato da una struttura piuttosto semplice, con una regione codificante
continua con promotori e terminatori di solito ben definiti. La ricerca di “Open Reading Frames” (ORF)
superiori ad una lunghezza minima definita, è di solito sufficiente a identificare la maggior parte dei geni.
L’annotazione è completata utilizzando segnali specifici come siti di attacco per ribosomi, codoni di start e
di stop e promotori.
GENI ED ELEMENTI DI CONTROLLO NEGLI EUCARIOTI
L’annotazione di genomi eucariotici è più complessa perché i geni sono codificati in genere in più esoni,
anche molto distanti tra loro, ed elementi come promotori e siti di splicing non sono caratterizzati da segnali
di sequenza univocamente definiti e di facile identificazione. Devono essere presenti più ORF. Per questo il
riconoscimento dei geni deriva spesso dalla concomitante identificazione di più elementi nelle corrette
posizioni relative. Per esempio il sequenziamento di yeast genome (lievito) ha portato come risultati ad un
30% di geni noti, 30% di geni identificati per omologia, 10% di membri di famiglia orfane; 23% di sequenze
singole ed orfane e 7% di ORF questionabili.
Le regioni codificanti possono essere identificate mediante allinamento con sequenze di cDNA o di
proteine contenute in specifiche banche dati. Questa operazione ha la finalità di identificare sequenze già
note alle quali può essere associata una funzione conosciuta o di ipotizzare una funzione per sequenze simili
a quelle di proteine note. In alternativa possono essere utilizzate tecniche per l’identificazione diretta di
sequenze codificanti attraverso il riconoscimento di caratteristiche specifiche come le frequenze relative dei
codoni (codon usage) o la presenza di esameri specifici.
2
Siti di splicing, promotori, terminatori ed altre sequenze funzionali, sono caratterizzati dalla presenza
di specifici motivi di sequenza, come GT e AG presenti all’inizio e alla fine di un introne, che non sono
però sufficientemente selettivi da poter essere trovati solo nelle giunzioni introne-esone. La loro
identificazione dipende perciò dall’uso di algoritmi specifici, che integrano conoscenze di tipo diverso e che
però identificano correttamente questi elementi solo in una percentuale di casi.
Gli RNA non codificanti (rRNA, tRNA, snRNA ed altri) possono essere identificati per similarità con quelli
noti, o per la combinazione di caratteristiche comuni come la struttura secondaria e la presenza di basi
conservate. In maniera simile, le sequenze ripetute possono essere identificate sulla base della similarità con
consensus ottenute da sequenze già note, o per la loro presenza in copie ripetute nel genoma.
Altre caratteristiche da annotare sono specifici elementi funzionali come regioni di interazione con la
matrice nucleare o isole CpG, ed altre strutture non geniche presenti nella sequenza genomica.
RISORSE ONLINE PER L’ACCESSO A DATI GENOMICI
Il lavoro di mappatura, sequenziamento e annotazione dei genomi, soprattutto eucariotici, ha prodotto una
notevole massa di dati, che complessivamente costituiscono una descrizione completa, strutturale e
funzionale, del genoma dei diversi organismi. Questi dati possono risultare di grande aiuto alla
sperimentazione, e, per facilitare l’accesso, sono stati riuniti in collezioni diverse, messe a disposizione della
comunità scientifica come risorse accessibili via web. Queste collezioni includono le mappe fisiche e
genetiche prodotte nel corso del sequenziamento, ma anche ‘browser’ genomici, sofisticati strumenti che
mettono a disposizione le varie annotazioni sotto forma di pagine web in cui i vari elementi annotati
sono mostrati con riferimento alla loro locazione genomica.
Genome Data Base GDB
GDB contiene mappe generate nel corso del sequenziamento genomico umano da diversi gruppi di
ricerca. Le mappe sono di tipo citogenetico, ottenute da studi di linkage, quelle prodotte a partire da ibridi di
radiazione e quelle da STS. Le mappe vengono visualizzate in maniera integrata, insieme con altre
annotazioni relative a segmenti genomici come geni, marker citogenetici, sequenze complementari ad EST,
regioni ripetute, e a siti variabili come SNP e RFLP.
eGenome
eGenome integra mappe umane di diversa origine, riferite direttamente alla sequenza genomica oggi nota,
assegnando i marker alle posizioni fisiche ogni volta che ciò risulta possibile. La visualizzazione mostra in
modo contestuale altre annotazioni riferite alla regione del marker, come SNP, Unigene Clusters, sequenze
di DNA.
BROWSER GENOMICI
I browser genomici sono interfacce web collegate a banche dati contenti le sequenze prodotte dai vari
progetti di sequenziamento genomico e le relative annotazioni. Attraverso di essi è possibile studiare
l’anatomia dei genomi a vari gradi di dettaglio, fino alla sequenza, visualizzando allo stesso tempo tutte le
caratteristiche strutturali e funzionali disponibili per quel tratto di genoma. In aggiunta, per ciascun tratto di
DNA è possibile visualizzare dati di mapping, qualora disponibili.
Ensembl
Ensembl è stato sviluppato a partire da un progetto a cui hanno preso parte EMBL-EBI e Sanger Institute,
finalizzato alla produzione di un sistema capace di eseguire l’annotazione automatica dei genomi eucariotici
e di fornire la visualizzazione dei dati prodotti. Il soft
-
Assemblaggio e rilascio della progenie virale
-
Algoritmo Matlab assemblaggio Matrici K M
-
Genomi, Biotecnologie Cellulari
-
Appunti di Impianti industriali sulle linee di assemblaggio