Estratto del documento

4. ASSEMBLAGGIO E ANNOTAZIONE DI GENOMI

ASSEMBLAGGIO FINALE DELLE SEQUENZE GENOMICHE

L’ assemblaggio finale delle sequenze porta alla generazione della sequenza genomica continua, che, in

condizioni ideali, è costituita da tante sequenze indipendenti quanti sono i cromosomi. In realtà questo

risultato richiede molto lavoro, e viene raggiunto per gradi. Tipicamente i primi assemblaggi sono costituiti

da contig di dimensioni molto grandi non connessi tra loro.

La sequenza genomica indicata come completa è allineata lungo i cromosomi, ma spesso ancora contiene

piccole aree di sequenza non nota. Le regioni contenenti sequenze con alto grado di ripetitività raramente

finiscono per essere completate in maniera soddisfacente. Nonostante questi limiti, le sequenze così ottenute

corrispondono in pratica alla totalità delle regioni a singola copia nelle quali i geni strutturali e gli altri

elementi funzionali sono contenuti.

ANNOTAZIONE

Le sequenze assemblate sono analizzate con tecniche diverse per arrivare all’identificazione di geni e

altri elementi funzionali, un processo definito annotazione.

L’annotazione usa procedure diverse che dipendono dal tipo di elemento funzionale, e integra annotazioni

effettuate con metodiche manuali e computazionali. All’inizio l’annotazione manuale forniva dati di elevata

qualità in tempi accettabili, ma con il crescere delle sequenze l’annotazione con metodiche computazionali

ha finito largamente per prevalere, anche se l’annotazione manuale continua a garantire alcuni vantaggi in

fase di rifinitura e per la realizzazione di specifici progetti.

Elementi strutturali e funzionali da annotare

Gli elementi funzionali che è possibile identificare all’interno del genoma sono molti. Tra essi:

• Regioni codificanti

• Siti di splicing, promotori, terminatori

• RNA non codificanti (tRNA, rRNA, snRNA)

• Sequenze ripetute

• Altri elementi (telomeri, isole CpG)

IDENTIFICAZIONE DI GENI

Il primo metodo per analizzare una nuova sequenza di solito verte sull’identificazione di geni in quanto i

geni non sono semplici sequenze di nucleotidi a caso ma contengono caratteristiche ben precise. I geni

infatti posseggono quelle che sono le ORF (open reading frames) che sono delle cornici di lettura aperta

che generalmente iniziano per ATG e si chiudono con TAA, TAG, TGA, quindi la prima ricerca verte

proprio su questi gruppi nucleotidici. Ogni ORF ha sei possibili schemi di lettura.

Le ORF devono avere una lunghezza appropriata, non contenere al loro interno stop codon (ma

soltanto uno alla fine); possedere il codone di inizio ATG; includere dei siti donatori o accettori di

splicing o anche segnali di poliadenilazione.

Nel caso dello stop codon, è opportuno ricordare la frequenza con cui una sequenza casuale ne contiene, che

è 3/64. Esistono quindi metodi per identificare le ORF, ma non sono metodi del tutto sicuri. Una sequenza

ricca di CpG sarà probabilmente codificante; ma la curva che riporta la probabilità che si tratti di un

esone o un introne è una doppia campana parzialmente sovrapposta; ciò vuol dire che per certi risultati è più

alta una delle due probabilità, ma c’è comunque una certa possibilità che si tratti dell’altro tipo di sequenza.

1

Il problema di localizzare le ORF consiste nell’analizzare genomi di eucarioti superiori in quanto non

posseggono ORF continue ma sono interrotte in quanto i geni degli eucarioti superiori sono strutturati in

introni ed esoni.

Sono state adottate tre procedure di analisi delle ORF:

• Preferenzialità nell’uso dei codoni. Il codice genetico è degenerato ma non tutti i codoni sono

ugualmente frequenti, quindi ad esempio la leucina è codificata da sei codoni ma solo uno di questi

sarà maggiormente più frequente

• Giunzione esone-introne ossia una sequenza che delimita la giunzione esone-introne identificata

con i nucleotidi 5’-AG↓GTAAGT-3’ anche se solo i nucleotidi GT subito dopo il sito di taglio sono

strettamente conservati, lo stesso vale per le giunzioni introne-esone dove la sequenza è 5’-

PyPyPyPyPyPyNCAG↓-3’ dove solo i nucleotidi CAG finali sono conservati (Py sta per un qualsiasi

nucleotide pirimidinico quindi o T o C)

• Vengono considerate regioni molto a monte del gene

Tutte e tre queste tecniche hanno limitazioni, ma spesso vengono associate a quelle che nei vertebrati sono

chiamate isole CpG ossia delle sequenze lunghe anche più di 1kb che sono altamente ricche di C e G, queste

isole si trovano a monte di circa il 40-50% dei geni umani.

Spesso le regioni codificanti dei geni possono essere identificate mediante allineamento con cDNA o di

proteine contenuti in banche dati.

I geni che codificano per proteine sono identificati da ORF, gli RNA funzionali invece (come possono

essere i tRNA o gli rRNA) non vengono codificati da nessuna ORF quindi per identificarli all’interno del

genoma viene sfruttata quella che è la loro struttura secondaria, in quanto è molto caratteristica. La

struttura secondaria dei tRNA ad esempio assuma una forma a quadrifoglio dovuta ad una struttura che si

crea su un singolo filamento, quindi tra basi dello stesso filamento grazie ad appaiamento intramolecolare

bisognerà cercare due frammenti di uno stesso filamento che possano essere complementari tra loro.

GENI ED ELEMENTI DI CONTROLLO NEI PROCARIOTI

Un gene procariotico è caratterizzato da una struttura piuttosto semplice, con una regione codificante

continua con promotori e terminatori di solito ben definiti. La ricerca di “Open Reading Frames” (ORF)

superiori ad una lunghezza minima definita, è di solito sufficiente a identificare la maggior parte dei geni.

L’annotazione è completata utilizzando segnali specifici come siti di attacco per ribosomi, codoni di start e

di stop e promotori.

GENI ED ELEMENTI DI CONTROLLO NEGLI EUCARIOTI

L’annotazione di genomi eucariotici è più complessa perché i geni sono codificati in genere in più esoni,

anche molto distanti tra loro, ed elementi come promotori e siti di splicing non sono caratterizzati da segnali

di sequenza univocamente definiti e di facile identificazione. Devono essere presenti più ORF. Per questo il

riconoscimento dei geni deriva spesso dalla concomitante identificazione di più elementi nelle corrette

posizioni relative. Per esempio il sequenziamento di yeast genome (lievito) ha portato come risultati ad un

30% di geni noti, 30% di geni identificati per omologia, 10% di membri di famiglia orfane; 23% di sequenze

singole ed orfane e 7% di ORF questionabili.

Le regioni codificanti possono essere identificate mediante allinamento con sequenze di cDNA o di

proteine contenute in specifiche banche dati. Questa operazione ha la finalità di identificare sequenze già

note alle quali può essere associata una funzione conosciuta o di ipotizzare una funzione per sequenze simili

a quelle di proteine note. In alternativa possono essere utilizzate tecniche per l’identificazione diretta di

sequenze codificanti attraverso il riconoscimento di caratteristiche specifiche come le frequenze relative dei

codoni (codon usage) o la presenza di esameri specifici.

2

Siti di splicing, promotori, terminatori ed altre sequenze funzionali, sono caratterizzati dalla presenza

di specifici motivi di sequenza, come GT e AG presenti all’inizio e alla fine di un introne, che non sono

però sufficientemente selettivi da poter essere trovati solo nelle giunzioni introne-esone. La loro

identificazione dipende perciò dall’uso di algoritmi specifici, che integrano conoscenze di tipo diverso e che

però identificano correttamente questi elementi solo in una percentuale di casi.

Gli RNA non codificanti (rRNA, tRNA, snRNA ed altri) possono essere identificati per similarità con quelli

noti, o per la combinazione di caratteristiche comuni come la struttura secondaria e la presenza di basi

conservate. In maniera simile, le sequenze ripetute possono essere identificate sulla base della similarità con

consensus ottenute da sequenze già note, o per la loro presenza in copie ripetute nel genoma.

Altre caratteristiche da annotare sono specifici elementi funzionali come regioni di interazione con la

matrice nucleare o isole CpG, ed altre strutture non geniche presenti nella sequenza genomica.

RISORSE ONLINE PER L’ACCESSO A DATI GENOMICI

Il lavoro di mappatura, sequenziamento e annotazione dei genomi, soprattutto eucariotici, ha prodotto una

notevole massa di dati, che complessivamente costituiscono una descrizione completa, strutturale e

funzionale, del genoma dei diversi organismi. Questi dati possono risultare di grande aiuto alla

sperimentazione, e, per facilitare l’accesso, sono stati riuniti in collezioni diverse, messe a disposizione della

comunità scientifica come risorse accessibili via web. Queste collezioni includono le mappe fisiche e

genetiche prodotte nel corso del sequenziamento, ma anche ‘browser’ genomici, sofisticati strumenti che

mettono a disposizione le varie annotazioni sotto forma di pagine web in cui i vari elementi annotati

sono mostrati con riferimento alla loro locazione genomica.

Genome Data Base GDB

GDB contiene mappe generate nel corso del sequenziamento genomico umano da diversi gruppi di

ricerca. Le mappe sono di tipo citogenetico, ottenute da studi di linkage, quelle prodotte a partire da ibridi di

radiazione e quelle da STS. Le mappe vengono visualizzate in maniera integrata, insieme con altre

annotazioni relative a segmenti genomici come geni, marker citogenetici, sequenze complementari ad EST,

regioni ripetute, e a siti variabili come SNP e RFLP.

eGenome

eGenome integra mappe umane di diversa origine, riferite direttamente alla sequenza genomica oggi nota,

assegnando i marker alle posizioni fisiche ogni volta che ciò risulta possibile. La visualizzazione mostra in

modo contestuale altre annotazioni riferite alla regione del marker, come SNP, Unigene Clusters, sequenze

di DNA.

BROWSER GENOMICI

I browser genomici sono interfacce web collegate a banche dati contenti le sequenze prodotte dai vari

progetti di sequenziamento genomico e le relative annotazioni. Attraverso di essi è possibile studiare

l’anatomia dei genomi a vari gradi di dettaglio, fino alla sequenza, visualizzando allo stesso tempo tutte le

caratteristiche strutturali e funzionali disponibili per quel tratto di genoma. In aggiunta, per ciascun tratto di

DNA è possibile visualizzare dati di mapping, qualora disponibili.

Ensembl

Ensembl è stato sviluppato a partire da un progetto a cui hanno preso parte EMBL-EBI e Sanger Institute,

finalizzato alla produzione di un sistema capace di eseguire l’annotazione automatica dei genomi eucariotici

e di fornire la visualizzazione dei dati prodotti. Il soft

Anteprima
Vedrai una selezione di 1 pagina su 4
Assemblaggio ed annotazione di genomi, Biotecnologie Cellulari Pag. 1
1 su 4
D/illustrazione/soddisfatti o rimborsati
Acquista con carta o PayPal
Scarica i documenti tutte le volte che vuoi
Dettagli
SSD
Scienze matematiche e informatiche INF/01 Informatica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher KittyMidnight di informazioni apprese con la frequenza delle lezioni di Biotecnologie Cellulari, Molecolari e Computazionali e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli studi di Napoli Federico II o del prof Paolella Giovanni.
Appunti correlati Invia appunti e guadagna

Domande e risposte

Hai bisogno di aiuto?
Chiedi alla community