Assemblaggio e annotazione di genomi
Assemblaggio finale delle sequenze genomiche
L'assemblaggio finale delle sequenze porta alla generazione della sequenza genomica continua, che, in condizioni ideali, è costituita da tante sequenze indipendenti quanti sono i cromosomi. In realtà questo risultato richiede molto lavoro, e viene raggiunto per gradi. Tipicamente i primi assemblaggi sono costituiti da contig di dimensioni molto grandi non connessi tra loro.
La sequenza genomica indicata come completa è allineata lungo i cromosomi, ma spesso ancora contiene piccole aree di sequenza non nota. Le regioni contenenti sequenze con alto grado di ripetitività raramente finiscono per essere completate in maniera soddisfacente. Nonostante questi limiti, le sequenze così ottenute corrispondono in pratica alla totalità delle regioni a singola copia nelle quali i geni strutturali e gli altri elementi funzionali sono contenuti.
Annotazione
Le sequenze assemblate sono analizzate con tecniche diverse per arrivare all'identificazione di geni e altri elementi funzionali, un processo definito annotazione. L'annotazione usa procedure diverse che dipendono dal tipo di elemento funzionale, e integra annotazioni effettuate con metodiche manuali e computazionali. All'inizio l'annotazione manuale forniva dati di elevata qualità in tempi accettabili, ma con il crescere delle sequenze l'annotazione con metodiche computazionali ha finito largamente per prevalere, anche se l'annotazione manuale continua a garantire alcuni vantaggi in fase di rifinitura e per la realizzazione di specifici progetti.
Elementi strutturali e funzionali da annotare
Gli elementi funzionali che è possibile identificare all'interno del genoma sono molti. Tra essi:
- Regioni codificanti
- Siti di splicing, promotori, terminatori
- RNA non codificanti (tRNA, rRNA, snRNA)
- Sequenze ripetute
- Altri elementi (telomeri, isole CpG)
Identificazione di geni
Il primo metodo per analizzare una nuova sequenza di solito verte sull'identificazione di geni in quanto i geni non sono semplici sequenze di nucleotidi a caso ma contengono caratteristiche ben precise. I geni infatti posseggono quelle che sono le ORF (open reading frames) che sono delle cornici di lettura aperte che generalmente iniziano per ATG e si chiudono con TAA, TAG, TGA, quindi la prima ricerca verte proprio su questi gruppi nucleotidici. Ogni ORF ha sei possibili schemi di lettura.
Le ORF devono avere una lunghezza appropriata, non contenere al loro interno stop codon (ma soltanto uno alla fine); possedere il codone di inizio ATG; includere dei siti donatori o accettori di splicing o anche segnali di poliadenilazione. Nel caso dello stop codon, è opportuno ricordare la frequenza con cui una sequenza casuale ne contiene, che è 3/64. Esistono quindi metodi per identificare le ORF, ma no
-
Assemblaggio e rilascio della progenie virale
-
Algoritmo Matlab assemblaggio Matrici K M
-
Genomi, Biotecnologie Cellulari
-
Appunti di Impianti industriali sulle linee di assemblaggio