Che materia stai cercando?

Sequenziamento del genoma Appunti scolastici Premium

Metodi di sequenziamento (Maxam-Gilbert, Sanger, automatizzato, piroquenziamento); sequenziamento ad alta resa (454, solexa, solyd); microarray (chip affimetrix, bead array), librerie di cloni di DNA; librerie plasmidiche; vettori BAC e YAC; sequenziamento shotgun e approccio del contig di cloni; assemblaggio dei contig (ibridazione e chromosome walking, fingerprinting); rifinitura; genoma minimo e... Vedi di più

Esame di Genomica docente Prof. S. Dato

Anteprima

ESTRATTO DOCUMENTO

lacZ

Se nel gene del vettore plasmidico è stato inserito del DNA estraneo, e quindi il

vettore è diventato un vettore ricombinante, le cellule batteriche trasformate non

producono più una β-galattosidasi attiva. Pertanto, in presenza di IPTG (l’induttore

artificiale dell’operone lac) e di X-gal, quest’ultimo in mancanza dell’enzima

β-galattosidasi non può essere più trasformato in prodotti colorati. Le colonie

batteriche, quindi, trasformate con un vettore ricombinante, saranno bianche.

Vettori standard quali i plasmidi e il fago λ possono accogliere DNA donatori grandi

fino a 25-30 kb. Tuttavia, per soddisfare la necessità di inserti di grandezza ben

maggiore sono stati costruiti dei vettori speciali. E. coli,

I vettori BAC (bacterial artificial chromosome), ottenuti da plasmidi F di

possono portare inserti grandi da 150 a 300 kb. Il vettore BAC presenta

elementi strutturali

caratteristici; questi includono:

- Geni regolatori derivati dal

fattore F di E.coli, quali

oriS, repE, che consentono la

replicazione unidirezionale;

parA

- Due promotori, e

parB, necessari per il

mantenimento ad una

copia per cellula;

CM R

- , ossia un marcatore

selezionabile per la

resistenza al

cloramfenicolo;

CosN, cos

- ossia il sito di

restrizione per il

riconoscimento

terminasi

della e per l'impacchettamento dell'inserto nel fago λ;

LoxP:

- sito di ricombinazione riconosciuto dalla ricombinasi Cre;

BamH1e HindIII,

- i siti di clonaggio a cui si inserisce il DNA donatore.

NotI,

- Siti usati per romuovere il frammento inserito.

parA parB

I due geni e sono necessari per mantenere il numero di copie del fattore F a

E. coli.

1-2 per cellule di A tal proposito, si è visto che un numero di copie superiore a

due induce eventi di ricombinazione tra i genomi, che vengono scongiurati dalla

competizione tra i due promotori.

I BAC sono stati utilizzati ampiamente nel Progetto Genoma Umano in quanto

permettono di clonare frammenti di 300 kb o più e gli inserti sono molto stabili, a

differenza degli inserti di DNA di origine eucariotica, nei quali si trovano

frequentemente sequenze ripetute per cui tali vettori presentano un’instabilità

strutturale degli inserti, che determina la delezione o il riarrangiamento di porzioni di

DNA clonato.

Il primo passo in avanti nel tentativo di clonare frammenti di DNA di grandi dimensioni

è stato fatto con l’invenzione dei cromosomi artificiali di lievito o YAC. Questi

S. cerevisiae

vettori vengono propagati in e si basano su cromosomi. Un’estensione

logica nella produzione di vettori per il clonaggio di grossi frammenti di DNA è stata

quella di ricostruire un cromosoma a replicazione autonoma nel quale possano essere

inseriti frammenti di DNA esogeno.

I cromosomi naturali eucariotici per la loro stabilità e funzionalità hanno le seguenti

strutture:

- Telomeri, necessari perché si realizzi la completa replicazione delle molecole lineari

e per proteggere le estremità dei cromosomi dall’attacco delle nucleasi;

- Centromeri, necessari per la disgiunzione dei cromatidi fratelli alla mitosi e dei

cromosomi omologhi nella prima divisione meiotica.

I vettori YAC contengono: (CEN4);

- Una sequenza centromerica (ARS1)

- Una sequenza a replicazione autonoma che permette la replicazione

autonoma rispetto alle origini di replicazione cromosomiche;

(TEL),

- Sequenze telomeriche necessarie per la replicazione e il mantenimento dei

cromosomi; Amp R

- Un marcatore selettivo, , che conferisce resistenza all’ampicillina;

(URA3 TRP1)

- Marcatori di selezione in lievito e

(oriC)

- Un’origine di replicazione per la propagazione in E. coli prima del clonaggio.

Per clonare un frammento d’interesse in un vettore YAC, si procede con:

1. Digestione parziale del DNA target

e del vettore YAC con lo stesso

enzima di restrizione. Per esempio, si

digerisce il DNA bersaglio con EcoRI

e il vettore YAC con EcoRI e BamHI:

la digestione con BamHI rimuove il

frammento di riempimento che si

trova tra i due telomeri nella

molecola circolare; la digestione con

EcoRI taglia all’interno del gene

SUP4, creando il sito in cui verrà

inserito il nuovo inserto di DNA.

2. Separazione dei due bracci.

3. Ligazione dei due bracci del vettore

insieme all’inserto.

4. Trasformazione delle cellule di

lievito, selezionando per i 2

marcatori diversi posizionati

ciascuno su un braccio diverso.

Difatti, la struttura che origina dalla ligazione porta copie funzionali dei marcatori

TRP1 URA3.

selezionabili e Il ceppo ospite contiene copie inattive di questi geni e

quindi richiede triptofano e uracile come nutrienti.

Dopo la trasformazione, si piastrano le cellule su un terreno minimo, senza triptofano

e uracile. Soltanto le cellule che contengono il vettore, e che possono sintetizzare

uracile e produrre colonie sopravvivono.

La presenza dell’inserto di DNA nella molecola del vettore clonato è verificata

SUP4.

saggiando l’inattivazione di A questo scopo si utilizza un test colorimetrico: sul

terreno appropriato, le colonie che contengono i vettori ricombinanti (cioè con

l’inserto) sono bianche, mentre le colonie non ricombinanti (contenenti il vettore, ma

non l’inserto) sono rosse.

Dal momento che i cromosomi naturali di lievito vanno da 230 kb a più di 1700 kb, uno

YAC avrebbe la potenzialità di clonare frammenti di DNA di dimensioni dell’ordine di

una Mb. Questo potenziale è stato realizzato, in quanto negli YAC standard si è in

grado di clonare frammenti di 600 kb e con tipi speciali è possibile manipolare anche

fino a 1400 kb. Attualmente, questa è la capacità massima di qualsiasi vettore di

clonaggio e numerosi progetti genoma hanno fatto ampiamente uso degli YAC.

Purtroppo, nel caso di alcuni tipi di YAC si sono presentati problemi di stabilità degli

inserti, nel senso che il DNA clonato si riarrangiava in nuove combinazioni di sequenze.

Questa è la ragione per cui l’attenzione è stata recentemente puntata su vettori nei

quali non possono essere clonati frammenti di DNA così grandi, ma che non danno

altrettanti problemi d’instabilità (per es. BAC): la prima mappa fisica del genoma

umano (cromosoma 1) è stata costruita mediante l’uso di vettori BAC.

A seconda della dimensione del genoma da clonare la capacità della genoteca deve

essere proporzionale. In linea generale, il DNA umano, allo stesso modo di quello di

topo, ha un’estensione di oltre 3 miliardi di bp, ragion per cui risulterebbe facilmente

clonabile all’interno di librerie YAC, clonabile all’interno di librerie YAC: difatti, data una

libreria YAC, con una capacità di clonaggio di circa 1 milione di bp, occorrerebbero

suppergiù 3000 cloni per realizzare una genoteca di DNA umano.

Il genoma della mosca, lungo circa 160 milioni di bp è stato sequenziatoall’interno di

librerie BAC dotate di una capacità di clonaggio di 100 mila paia di basi.

Nella costruzione di una genoteca genomica di DNA umano si procede, anzitutto con la

digestione parziale del DNA con

l’enzima di restrizione appropriato

(per es. EcoRI), ottenendo frammenti

di 20 kb circa. I frammenti clonabili

vengono purificati mediante

elettroforesi su gel di agarosio o

centrifugazione in gradiente di

cloruro di cesio (CsCl).

I frammenti purificati vengono clonati

nel vettore opportuno, come può

essere il Batteriofago λ. Il genoma

di λ è lungo 48,5 kb ma parte della

sua sequenza, circa 15 kb, è

facoltativa nel senso che contiene

geni necessari soltanto

all’integrazione del fago λ nel

E. coli.

cromosoma di Questi frammenti possono quindi essere eliminati senza alterare

la capacità del fago di infettare i batteri e dirigere la sintesi di nuove particelle λ

tramite il ciclo litico.

Il genoma di λ è lineare, ma le due estremità naturali della molecola hanno sporgenze

cos”,

a singolo filamento di 12 nucleotidi, chiamate “siti che hanno sequenze

complementari e possono quindi appaiarsi tra loro. Le molecole del fago λ vengono

tagliate con EcoRI: la digestione parziale taglia la molecola in due segmenti, il braccio

cos

destro e il braccio sinistro, ciascuno con un sito ad un’estremità.

Segue l’aggiunta di sequenze linker ai frammenti isolati per creare siti di restrizione

per EcoRI . Il DNA da clonare ha estremità piatte e, quindi, si inserisce tra i due bracci

durante la fase di ligazione. cos,

Questi bracci si ligano anche tra loro a livello dei siti formando un concatenamero.

Ai concatena meri si aggiunge poi una miscela di impacchettamento in vitro, che

contiene tutte le proteine necessarie a formare una particella di fago λ. Queste

proteine formeranno le particelle fagiche spontaneamente e impacchetteranno al loro

interno qualsiasi DNA, di dimensioni comprese tra 37 kb e 52 kb, fiancheggiato da siti

cos.

La miscela di impacchettamento è in grado, quindi, di tagliare i concatenameri nelle

singole combinazioni braccio sinistro-inserto di DNA-braccio destro lunghe 37-52 kb e

di costruire intorno ad essi le particelle di fago λ.

E. coli

A questo punto si mescolano i fagi a cellule di e il naturale processo di infezione

trasporta il vettore con il nuovo DNA all’interno dei batteri.

La particella fagica λ può ospitare fino a 52 kb di DNA, per cui se dal genoma sono

state rimosse 15 kb, si possono clonare fino a 18 kb di DNA. Ciò significa che se per il

DNA umano venisse utilizzato il vettore λ, sarebbe necessaria una genoteca genomica

di 106 fagi per avere una probabilità del 99% di comprendere tutto il genoma umano.

Tutte le attuali tecniche di sequenziamento del genoma sono basate sul clonaggio. per

prima cosa si costruisce una libreria di cloni; poi, per ogni clone si ottiene la sequenza

dell’inserto immediatamente adiacente al vettore.

L’approccio più semplice per l’assemblaggio di una sequenza consiste nel costruirla

direttamente dalle brevi sequenze ottenute dai singoli saggi di sequenziamento,

SHOTGUN

esaminandone le sovrapposizioni. Questo viene chiamato approccio “ ”: non

richiede alcuna conoscenza precedente del genoma e può quindi essere effettuato

anche senza una mappa genetica o fisica.

n 2n -2n!

2

Per frammenti il numero di possibili sovrapposizioni è

La prima tappa dell’approccio

shotgun consiste nel frammentare il

DNA genomico mediante

sonicazione. I frammenti sono

quindi separati mediante

elettroforesi e quelli compresi tra 2

e 10 kb purificati dal gel di agarosio

e ligati in vettori plasmi dici, quelli

compresi tra 100 e 200 kb in vettori

BAC.

La tappa successiva è il

seguenziamento di entrambe le

estremità di ciascun clone, la

cosiddetta “sequence reads”.

Segue l’allineamento e

l’assemblaggio di tutte le sequenze

ottenute per la produzione di una

sequenza consensus (contig) mediante l’utilizzo di algoritmi.

Infine i contig vengono assemblati e si procede con la mappatura sui cromosomi.

Gli organismi batterici e gli eucarioti monocellulari hanno genomi delle dimensioni di

poche coppie di megabasi (<20 Mb) e privi di sequenze ripetute. Per queste proprietà,

sequenze contigue presenti nei loro genomi possono essere assemblate, in maniera

relativamente semplice, mediante un approccio shotgun.

Per gli eucarioti multicellulari, l’assemblaggio del genoma presenta delle difficoltà

maggiori. Un primo grande problema è l’esistenza di numerose classi di sequenze ripe-

tute, alcune disposte in tandem altre disperse: questi segmenti sono difficili da

allineare come sequence reads. Il sequenziamento shotgun dell’intero genoma è

particolarmente indicato per produrre una buona sequenza di genomi complessi che

contengono molte sequenze ripetute, allo stesso modo del sequenziamento clone by

clone.

Qual è la strategia migliore di sequenziamento?

a. Sequenziamento shotgun clone b. Sequenziamento whole genome

by clone. shotgun.

Ciascun clone mappato La fase di mappaggio è

è costituito dagli inserti purificati saltata e il sequenziamento

di singoli cloni BAC, già shotgun procede facendo uso di

accuratamente collocati su una librerie di subcloni prodotte

mappa fisica (selezione del dall’intero genoma.

numero minimo di cloni per Generalmente, sono generate

coprire il genoma). Dopodiché si decine di milioni di sequence

procede alla frammentazione reads e queste, a loro volta, sono

casuale e al sequenziamento sottoposte alla ricostruzione

shotgun. L’insieme di sequenze computazionale per generare

risultanti è, infine, usato per seguenze contigue di varie

creare la sequenza completa di dimensioni.

ciascun clone.

L’approccio shotgun esteso all’intero genoma permette di ottenere rapidamente un

abbozzo della sequenza di un genoma. L’approccio del contig di cloni richiede più

tempo del sequenziamento shotgun esteso all’intero genoma, ma produce una

sequenza più accurata. approccio

Il miglior compromesso tra velocità e accuratezza è rappresentato dall’

ibrido : genera una mappa da utilizzare come canovaccio ed il sequenziamento WGS è

eseguito sulle varie regioni del genoma, poi assemblate facendo riferimento alla

mappa. Nella figura: si prepara una

libreria di subcloni e numerose

sequence reads (blu scuro)

sono ottenute.

Nel frattempo, anche BAC

mappati individualmente sono

soggetti a sequenziamento

WGS. Le sequence reads

derivanti dai BAC (blu chiaro)

sono utilizzate per identificare

le sequenze sovrapposte nella

più ampia collezione di

sequence

reads ottenute, riducendo la

complessità dei dati WGS.

Il set combinato di sequence

reads per ciascun BAC è infine

assemblato.

L’assemblaggio dei contigs può essere effettuato attraverso:

Ibridazione.

I. In una libreria si possono identificare i cloni contenenti una particolare sequenza

ibridando una sonda di piccole dimensioni, marcata con isotopi radioattivi o con

molecole fluorescenti, contenente la sequenza, ad un filtro su cui è fissata una

combinazione di decine di migliaia di cloni. Si identificano così tutti i cloni che

contengono uno specifico frammento.

Un esempio è fornito dai Macroarray di cloni BAC. In questo caso, è possibile

eseguire ibridazioni sulla libreria con migliaia di sonde a sequenza casuale: si avrà

l’identificazione di gruppi di cloni sovrapposti. Se la sequenza sonda compare nel

genoma una sola volta, saranno individuati un numero molto basso di cloni,

confrontabili tra loro.

E’ possibile utilizzare l’estremità di uno di questi cloni come sonda per individuare i

chromosome walking

cloni adiacenti in quello che viene denominato “ ”. Il metodo

consiste nell’iniziare con un clone di una genoteca, identificare un secondo clone il

cui inserto si sovrapponga all’inserto del primo, poi identificare un terzo clone il cui

inserto si sovrappone al secondo, e così via.

L’approccio più diretto consiste nell’utilizzare l’inserto di DNA del clone di partenza

come sonda d’ibridazione per saggiare tutti gli altri cloni della libreria. I cloni i cui

inserti si sovrappongono alla sonda danno segnali positivi di ibridazione, e i loro

inserti possono essere utilizzati come nuove sonde per continuare il cammino lungo

il cromosma.

Nella figura: la genoteca comprende 96 cloni, ciascuno contenente un inserto diverso. Per

cominciare il chromosome walking, l’inserto di uno dei cloni viene utilizzato come sonda di

ibridazione contro tutti gli altri cloni della genoteca.

Nell’esempio mostrato, il clone A1 è la sonda, e ibrida con se stesso e con i cloni E7 e F6.

Gli inserti degli ultimi due cloni sono quindi sovrapposti all’inserto del clone A1. Per

continuare il chromosome walking, l’ibridazione viene ripetuta, questa volta però con

l’inserto del clone F6 come sonda. I cloni che si ibridano sono A1,F6 e B12, il che dimostra

che l’inserto B12 si sovrappone all’inserto F6.

Il problema principale è che qualora la sonda contenga una sequenza ripetuta in

tutto il genoma, questa ibriderà non soltanto ai cloni sovrapposti, ma anche ai cloni

non sovrapposti i cui inserti contengono copie della sequenza ripetuta. L’entità di

questa ibridazione non specifica può essere ridotta bloccando le sequenze ripetute

mediante una preibridazione con DNA genomico non marcato.

Per DNA umano e simili, viene frequentemente utilizzato come sonda un

frammento corrispondente all’estremità di un inserto, essendoci una minore

probabilità di trovare una sequenza genomica ripetuta in un breve frammento

terminale piuttosto che nell’intero inserto. Per essere completamente sicuri, il

frammento terminale può essere prima sequenziato per assicurarsi che non sia

presente DNA ripetuto.

Se il frammento terminale è stato sequenziato, il cammino lungo il cromosoma può

chromosome walking mediante PCR

essere reso più rapido utilizzando la PCR ( ),

anziché l’ibridazione, per identificare i cloni contenenti inserti sovrapposti. I primer

sono disegnati dalla sequenza del frammento terminale ed usati in PCR su tutti gli

altri cloni della libreria. Un clone che dà un prodotto di PCR della dimensione attesa

deve contenere un inserto sovrapposto. I due oligonucleotidi si

appaiano ad un estremità

dell’inserto 1 e vengono

utilizzati per PCR su tutti gli

altri cloni della genoteca.

Solo il clone 15 dà un

prodotto di PCR, indicando

che gli inserti dei cloni 1 e

15 si sovrappongono. Il

chromosome walking

potrebbe essere continuato

sequenziando l’altra

estremità del clone 15,

disegnando una seconda

coppia di oligonucleotidi e

utilizzando una nuova serie

di PCR su tutti gli altri cloni.

Fingerpinting.

II. Il fingerprinting dei cloni fornisce informazioni sulla struttura fisica di un frammento

di DNA clonato. Questa informazione fisica o “fingerprint” viene confrontata con

quella relativa ad altri cloni e permette così l’identificazione di somiglianze,

probabilmente indicative di sovrapposizioni.

Distinguiamo:

Fingerprint di restrizione.

- Si possono ottenere i “profili di restrizione” digerendo i

cloni con diversi enzimi di restrizione e separando i prodotti su un gel di

agarosio. Se due cloni contengono inserti che si sovrappongono, i relativi

fingerprint di restrizione avranno alcune bande in comune, in quanto entrambi

avranno frammenti in comune che derivano dalla regione di sovrapposizione.

Fingerprint del DNA ripetitivo.

- Si possono ottenere fingerprint di DNA ripetitivo

effettuando un’ibridazione Southern su una serie di frammenti di restrizione con

sonde specifiche per uno o più tipi di DNA ripetuto in tutto il genoma. Anche in

questo caso, le sovrapposizioni vengono identificate cercando due cloni che

abbiano alcune bande di ibridazione in comune.

PCR su DNA ripetitivo PCR su elementi interspersi (IRE-PCR)

- o . Utilizza primer

che si appaiano all’interno di ripetizioni estese a tutto il genoma e amplifica

quindi il DNA a singola copia tra due ripetizioni adiacenti. Siccome le sequenze

ripetute non sono uniformemente distanziate all’interno di un genoma, le

dimensioni dei prodotti ottenuti in seguito a PCR su DNA ripetitivo possono

essere impiegate come fingerprint per confronti con altri cloni, allo scopo di

individuare potenziali sovrapposizioni. Nel caso del genoma umano, vengono

frequentemente utilizzate ripetizioni estese a tutto il genoma, chiamate

elementi Alu, che si trovano mediamente ogni 3 kb. Ci si aspetta quindi che una

“Alu-PCR” su un inserto BAC di 150 kb dia approssimativamente 50 prodotti di

PCR, sufficienti a fornire un fingerprint dettagliato.

Mappatura del contenuto in STS.

- È particolarmente utile perché può ancorare un

contig di cloni ad una mappa fisica di STS. Le PCR dirette a singoli STS vengono

effettuate su ciascun membro di una libreria di cloni. Assumendo che l’STS sia

presente in singola copia nel genoma, tutti i cloni che danno origine a prodotti

di PCR devono contenere inserti che si sovrappongono.

Nella determinazione di un assetto ordinato di cloni distinguiamo:

APPROCCIO TOP-DOWN,

Un da clone by clone. Si caratterizza per l’uso di mappe di

 associazione di marcatori del genoma con intervalli frequenti lungo i cromosomi

(ad alta densità); dopodiché si suddivide ogni cromosoma in segmenti

sovrapponibili, per sequenziare infine i singoli nucleotidi.

APPROCCIO BOTTOM-UP,

Un da shotgun. In questo caso si procede con la

 suddivisione di un intero genoma in segmenti sequenziabili singolarmente.

Successivamente, si effettua la ricomposizione per assemblaggio dei pezzi in

disordine con l'aiuto di computer molto potenti.

Utilizzo di una mappa di associazione ad

alta densità per costruire un assetto di

cloni genomici che si sovrappongono

(approccio top-down).

(a) I marcatori M1 e M2 sono utilizzati

come sonde d’ibridazione per

analizzare una genoteca YAC e

identificare cloni genomici che si

sovrappongono.

Nel punti 1: i marcatori M1 e M2 sono

utilizzati come sonde per analizzare una

genoteca YAC e recuperare cloni

genomici.

Nel punto 2: l’analisi dei cloni per mezzo

di marcatori vicini, allo scopo di

identificare le sovrapposizioni, consiste

nell’usare le estremità dei frammenti da

ciascun clone per sondare l’altro.

(b) Dati ipotetici ottenuti dall’analisi di

una genoteca YAC con sette

marcatori strettamente associati. I

sette cloni recuperati sono suddivisi

in due assetti separati che non si

sovrappongono; ciascun assetto

rappresenta un contig.

(c)

Un singolo contig si estende per tutta

la regione genomica tra i marcatori

M1 e M7.

L’approccio bottom-up, dello shotgun

clone by clone, consente la

costruzione di una mappa fisica

cromosomica di cloni genomici che si

sovrappongono senza l’aiuto del

linkare.

(a) Il materiale di partenza è una genoteca completa di cloni genomici non ordinati.

(b) Ciascun clone viene analizzato per restrizione (DNA fingerprint). Le tipizzazioni genetiche

sono visibili sul gel come pattern di frammenti di restrizione.

(c) L’informazione dell’impronta genetica di molti cloni viene trasferita sul computer che

registra le sovrapposizioni fra cloni differenti.

(d) Con l’analisi di un numero sufficiente di cloni, il computer può generare lunghi contig di

cloni che si estendono lungo ciascun cromosoma.

In generale, nel sequenziamento shotgun clone by clone:

Un singolo clone, quale un cromosoma artificiale batterico (BAC), è

 selezionato e una grande quantità di DNA di BAC è purificata.

Il DNA purificato è poi frammentato con i metodi di taglio fisici.

 Le sequenze di DNA casuali (generalmente delle dimensioni di 2-5 kb) sono

 subclonate.

Le sequence reads sono poi generate da una o entrambe le estremità dei subcloni

 selezionati a caso.

Le reads casuali sono poi assemblate sulla base delle sovrapposizioni di sequenza.

 Tale sequenza è però imperfetta, essendo associata sia con lacune che con regioni

di bassa qualità. Inoltre, spesso l’ordine e l’orientamento di alcuni contig sono

sconosciuti.

Nella fase di “finishing” l’operatore, visualizzando i risultati dei software di analisi,

 può decidere la ripetizione di regioni mancanti o di bassa qualità. In pratica, si

analizzano le sequenze gemelle (mate pairs), ovvero provenienti dallo stesso clone.

Sfruttando il principio che le sequenze gemelle devono essere vicine, è possibile

ordinare i contig. Per colmare il gap si tiene conto della dimensione del clone e

della lunghezza delle sequenze gemelle.

I parametri che consento di misurare la qualità di un progetto di sequenziamento

genomico sono:

1. Completezza, definita dalla percentuale di eucromatina sequenziata.

Attualmente per il genoma umano, circa il 99% dell’eucromatina corrisponde a 2851

Mb con 308 gaps corrispondenti a 28 Mb di eucromatina e 33 gaps corrispondenti a

198 Mb di eterocromatina.

2. Correttezza, definita da due condizioni:

 Accuratezza dell’assemblaggio delle sequenze, valuatata

- Misurando la coerenza interna della sequenza, ossia la percentuale di errore

nell’allineamento dei profili di restrizione, la distanza corretta tra le mate-pairs.

- Confrontando i dati assemblati con mappe genetiche o fisiche preesistenti.

 Percentuale di errore (per il genoma umano: minore di 1 errore ogni 100.000 bp).

La parte più laboriosa di un progetto di sequenziamento shotgun è la fase di

“rifinitura”, quando le sequenze dei singoli contig vengono unite colmando le lacune di

sequenza e i buchi fisici. Per minimizzare la quantità di lavoro necessaria a chiudere le

lacune, l’approccio shotgun utilizza almeno due librerie di cloni, preparate in due

vettori differenti, la regione è che, con qualsiasi vettore di clonaggio, è prevedibile che

alcuni frammenti non vengano clonati, a causa di problemi di incompatibilità che

impediscono la propagazione dei vettori contenenti tali frammenti. Spesso i

frammenti che non possono essere clonati in un vettore, possono essere clonati in un

altro. Il sequenziamento di frammenti clonati in due diversi vettori dovrebbe

aumentare la probabilità di coprire tutto il genoma.

Il risultato iniziale dell’assemblaggio di una sequenza con il metodo shotgun esteso

all’intero genoma è una serie di

scaffold (impalcature), costituiti da

un insieme di contig di sequenze

lacune di sequenza

separati da che

si trovano tra le “coppie di sequenze

terminali”, ossia mini sequenze alle

due estremità di un singolo frammento clonato, e per questo colmabili per ulteriore

buchi fisici,

sequenziamento di quel frammento. Gli stessi scaffold sono separati da i

quali rappresentano sequenze assenti nelle librerie di cloni e, pertanto, risultano più

difficili da chiudere. Le lacune di sequenza si trovano tra le coppie di

sequenze terminali, ossia una coppia di mini

sequenze alle due estremità di un singolo frammento

clonato. Per colmare una lacuna di sequenza si

procede con lo screening delle librerie alla ricerca di

cloni contenenti entrambe le egioni terminali dei due

frammenti vicini e con il successivo sequenziamento

del DNA clona

I marcatori presenti in ciascun scaffold servono a posizionarlo sulla mappa genomica.

Per esempio, se si conosce la posizione degli STS in una mappa genomica, allora è

possibile posizionare uno scaffold in base agli STS che contiene. Se uno scaffold

contiene STS di due regioni non contigue del genoma, allora c’è stato un errore

durante l’assemblaggio.

È stato suggerito che una sequenza ottenuta con il metodo shotgun esteso all’intero

genoma presenta potrebbe non avere il grado di accuratezza desiderato. Parte del

problema deriva dalla natura casuale dei frammenti generati, per cui alcune regioni

del genoma sono coperte da numerose mini sequenze, mentre altre sono

rappresentate soltanto una o due volte.

Si considera, generalmente, che ciascuna parte del genoma dovrebbe essere

sequenziata almeno quattro

volte per assicurare un livello

di accuratezza accettabile e il

numero sale a otto - dieci

prima di poter considerare

una sequenza completa. È probabile che una sequenza ottenuta con il metodo

shotgun superi questo valore in molte regioni, ma sia inferiore in altre zone.

Lo stadio di rifinitura nel sequenziamento di un tratto di DNA più lungo di un singolo

clone comprende l’allineamento, il controllo e la correzione degli errori. Questi

passaggi sono in genere eseguiti con software di controllo delle sequenze.

Gli algoritmi di calcolo utilizzati per ricostruire l’intero genoma nell’approccio shotgun:

 Screener: impiegato per contrassegnare e nascondere le sequenze che contengono

DNA ripetitivo e le famiglie di tratti ripetuti interspersi

 Overlapper: paragona ogni lettura non controllata con tutte le altre, non ancora

controllate e dello stesso tipo, cercando sovrapposizioni

 Unitigger: risolve le sovrapposizioni indotte da sequenze ripetute. Un unitig è un

contig formato da una serie di sequenze uniche che si sovrappongono in modo non

ambiguo.

 Scaffolder: usa l’informazione di appaiamento per collegare gli unitig in contig

appartenenti all’impalcatura del genoma

 Repeat resolver: solutore di sequenze ripetute.

Assemblaggio dell’intero genoma I frammenti di BAC (segmenti in

rosso) e le reads provenienti da

cinque individui (segmenti in

nero) si combinaon per produrre

un contig e una sequenza

consenso (linea verde).

I contig sono collegati negli

scaffold, indicati in rosso,

mediante coppie di seqeunze

terminali, che sono anche

chiamate “mates” (gemelle). Se è

presente un gap tra contig

adiacenti, questo ha dimensione

conosciuta.

Successivamente, gli scaffold

sono posizionati lungo il genoma

(linea grigia) mediante gli STS

che contengono (stelle blu).

Per gli eucarioti, l’assemblaggio del genoma presenta delle difficoltà maggiori. Un

primo grande problema è l’esistenza di numerose classi di sequenze ripetute, alcune

disposte in tandem altre disperse. Perché rappresentano un problema per il

sequenziamento del genoma? La difficoltà sta nel fatto che la sequenza di regioni

ripetute di DNA corrisponde a molte regioni del genoma. Assai spesso capita che una

sequenza ripetuta in tandem sia in totale più lunga della massima sequenza letta. Gli

elementi ripetuti dispersi, invece, possono derivare da differenti cromosomi o da

differenti parti di uno stesso cromosoma e possono erroneamente essere allineati

insieme.

Sono state proposte diverse soluzioni possibili a questo problema, ma la strategia più

efficace è di assicurarsi che almeno una delle librerie di cloni contenga frammenti più

estesi della ripetizione più lunga presente nel genoma in esame.

Per esempio, una delle librerie plasmidiche

utilizzate nel sequenziamento shotgun del

Drosophila

genoma di conteneva inserti con

una taglia media di 10 kb, dal momento che

la maggior parte delle ripetizioni in

Drosophila sono lunghe 8 kb o meno.

I salti di sequenza, da una ripetizione ad

un’altra, possono quindi essere evitati

assicurandosi che le due sequenze terminali

di ciascun inserto di 10 kb siano nelle

posizioni appropriate nella sequenza

originaria.

Nell’approccio shotgun esteso all’intero genoma,

la perdita di tutte le sequenze comprese tra le due

ripetizioni che sono state collegate erroneamente

(b) viene evitata assicurandosi che le sequenze

delle due estremità di un frammento di DNA

clonato (di circa 10 kb) compaiano entrambe sulla

sequenza originaria nelle posizioni previste (a).

Il mappaggio del genoma umano non è

l’unico scopo scientifico del Progetto Genoma

Umano. Sin dagli esordi di questo progetto fu

chiaro che sarebbe stato estremamente utile

organismi modello

il sequenziamento dei genomi di almeno altri cinque “ ”.

Numerosi organismi unicellulari sono particolarmente adatti per le analisi genetiche e

biochimiche e presentano l’importante vantaggio di avere tempi di generazione

estremamente rapidi che ne consentono facilmente la coltura su vasta scala.

Benché molto distanti da noi in termini evolutivi, sono utili da studiare in quanto:

consentono annotazioni geniche più facili rispetto agli eucarioti; gli introni sono molto

rari e la densità genica è alta; inoltre consentono l’identificazione di funzioni

metaboliche specializzate, che riflettono la nicchia ecologica di appartenenza.

Il primo genoma eucariotico a essere completamente sequenziato, nel 1995, è stato

Haemophilus influenzae.

quello lungo 1,83 Mb di In seguito sono state raggiunte

Mycoplasma genitalium

numerose altre tappe fondamentali: dal sequenziamento del

(1995), il più piccolo organismo a replicazione autonoma, fino alla ricostruzione della

Escherichia coli

sequenza completa delle 4,6 Mb di (1997).

Alla base del sequenziamento dei genomi procariotici vi erano diverse priorità. In

alcuni casi si volevano comprendere le relazioni evolutive esistenti tra organismi

Mycoplasma

differenti, come nel caso dei genomi degli Archea; mentre nel caso del

genitalium si voleva capire da cosa fosse costituito un “genoma minimo”, dal

momento che questo è il più piccolo genoma cellulare noto.

La motivazione primaria per sequenziare il genoma di molti altri organismi è stata,

però, la loro importanza in campo medico: molti organismi unicellulari sono patogeni,

per cui è possibile formulare previsioni sui fenotipi metabolici sulla base del solo

contenuto in geni.

genoma minimo

Il concetto di rappresenta il tentativo di definire il corredo genico

minimo, necessario e sufficiente per il funzionamento di un organismo a vita libera. In

un certo senso, si cerca di definire “cos è la vita”.

Si riconoscono:

 Metodi bioinformatici: consistono nell’identificare geni presenti in tutti i genomi

sequenziali. Si è arrivati alla stima di 256 geni, di cui 100 con funzione ignota.

 Metodi sperimentali: consistono nello spegnere sistematicamente le funzioni dei

singoli geni; le mutazioni che non permettono la sopravvivenza definiscono i geni

M. genitalium:

che costituiscono il genoma minimo. Un esempio è fornito dal in

questo caso, eliminando 120 su 470 geni si mantiene la vitalità dell’organismo.

Il metodo sperimentale, ovvero quello delle mutazioni, sottostima le dimensioni del

genoma minimo, non potendo tener conto di funzioni geniche che servono per

mantenere la vita in condizioni e ambienti particolari.

L’organismo ipotetico deve essere:

- prototofo (dipende da trasportatori aspecifici per assunzione metaboliti

necessari)

- anaerobio

- metabolismo ridotto alla sola glicolisi

- numero geni stimati: 250-350 max.

Sono stati sviluppati numerosi progetti genoma.

Saccharomyces cerevisiae. S. cerevisiae

Il lievito è un fungo ascomicete

 unicellulare comunemente detto “lievito di birra”; è un lievito a gemmazione.

La sequenza di 12 Mb è stata costruita da 300.000 sequenze parziali ottenute in

oltre 100 laboratori: la sequenza completa è stata pubblicata nel 1996; prima

sequenza completa di una cellula eucariotica. I geni di lievito sono fittamente

raggruppati, in media uno ogni 2 kb. Dei 6340 geni, distribuiti in 16 cromosomi,

circa il 7% codifica specie mature di RNA. Ad oggi, sono stati duplicate 53 regioni e

solo per il 25% (1000 geni) circa dei geni di lievito no si ha alcun indizio su quale

possa essere la loro funzione.

Caenorhabditis elegans Drosophila melanogaster. C. elegans D. melanogaster

e e

 rappresentano i primi eucarioti pluricellulari ad essere sequenziali: nello specifico, il

nematode nel 1998, il moscerino della frutta nel 2000.

Circa il 90% dei geni identificati in entrambi gli organismi, mediante

sequenziamento EST, analisi della struttura genica e mutazioni.


PAGINE

34

PESO

3.47 MB

AUTORE

Fredo88

PUBBLICATO

5 mesi fa


DESCRIZIONE APPUNTO

Metodi di sequenziamento (Maxam-Gilbert, Sanger, automatizzato, piroquenziamento); sequenziamento ad alta resa (454, solexa, solyd); microarray (chip affimetrix, bead array), librerie di cloni di DNA; librerie plasmidiche; vettori BAC e YAC; sequenziamento shotgun e approccio del contig di cloni; assemblaggio dei contig (ibridazione e chromosome walking, fingerprinting); rifinitura; genoma minimo e organismi modello.


DETTAGLI
Esame: Genomica
Corso di laurea: Corso di laurea magistrale in biologia
SSD:
Docente: Dato Serena
Università: Calabria - Unical
A.A.: 2014-2015

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher Fredo88 di informazioni apprese con la frequenza delle lezioni di Genomica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Calabria - Unical o del prof Dato Serena.

Acquista con carta o conto PayPal

Scarica il file tutte le volte che vuoi

Paga con un conto PayPal per usufruire della garanzia Soddisfatto o rimborsato

Recensioni
Ti è piaciuto questo appunto? Valutalo!

Altri appunti di Genomica

anatomia dei genomi eucariotici
Appunto
Enzimologia - cinetica enzimatica
Appunto
Enzimologia - funzioni di particolari proteine e cinetica enzimatica
Appunto
Enzimologia - catalisi enzimatica
Appunto