ANATOMIA DEI GENOMI EUCARIOTICI
Il sequenziamento ha fornito una visione più o meno definita dell’organizzazione dei
genomi, procarioti ed eucarioti. In generale, l’ordine di grandezza dei genomi eucarioti
×
7 11 9
va da circa 10 a 10 : il genoma umano è costituito da 3,2 10 paia di basi e
contiene circa 35000 geni; si colloca al centro della distribuzione dei genomi
eucariotici. Ovviamente, di dimensioni notevolmente inferiori sono i genomi di batteri,
virus e plasmidi.
È noto, tuttavia, che esiste una grande variabilità, per cui non vi è una corrispondenza
esatta tra la complessità di un dato organismo e la dimensione del suo genoma,
fenomeno che prende il nome di “paradosso del valore C”.
complessità del genoma
La è definita come la lunghezza totale di tutte le differenti
sequenze presenti. In generale, il contenuto totale di DNA negli eucarioti e quindi la
dimensione del genoma è correlata alla complessità dell’organismo: ad es., il genoma
umano è più grande di quello degli insetti che è più grande di quello funghi.
In genere, per un dato raggruppamento tassonomico, la dimensione minima del
genoma è approssimativamente proporzionale alla complessità dell’organismo.
Xenopus laevis
Esistono, però, delle eccezioni: lo (rospo) ha un genoma molto più
grande di quello dei mammiferi. La dimensione del genoma degli anfibi è al di sotto di
Xenopus laevis
9
10 bp, ma lo fa eccezione perché ha un genoma più grande di quello
umano. Allo stesso modo, il mais ha un genoma di circa 5000 Mb, superiore di molto al
genoma umano, che si aggira intorno alle 3200 Mb.
La complessità biologica può essere “misurata” in diversi modi, ad esempio sulla base
della diversità di tipi cellulari, della complessità dei circuiti del cervello, o del “n
teorico” di stati dell’espressione genica.
Ipotizzando N geni umani e supponendo che ciascuno possa essere presente in due
N
soli stati, ON o OFF, il numero di possibili stati sarebbe pari a 2 . In questo modo si
potrebbe anche calcolare quanto un organismo è più complesso di un altro. 35.000
I circa 35.000 geni del genoma umano corrispondono ad una complessità di 2 .
Se si calcola la complessità solo sul numero di geni, non vi sono differenze
macroscopiche nella complessità negli eucarioti.
paradosso del valore C
Da ciò deriva il cosiddetto , definito come la mancanza di
correlazione tra le dimensioni del genoma e la sua complessità. Difatti,
un’osservazione che ha fatto molto discutere nell’era pre-genomica è la mancanza di
correlazione esistente tra dimensione del genoma e complessità biologica.
La complessità del genoma può essere misurata in termini di:
Contenuto di DNA.
1. Il contenuto totale di DNA del genoma aploide è chiamato valore C ed è specifico
C-value (valore Costante)
per ogni organismo. Il termine si riferisce alla quantità di
DNA espressa in picogrammi contenuta nel nucleo di una cellula apolide: un
gamete contiene la metà del materiale genetico contenuto in una cellula somatica
diploide di un organismo eucariote.
-12
1 pg (picogrammo) è uguale a 10 g (grammi) che sono uguali a 978 Mb del
genoma umano.
Ponendo i diversi valori C in correlazione tra loro è possibile osservare l’enorme
variabilità esistente tra i diversi genomi.
Numero di geni.
2. Utilizzando il numero di geni come misura della complessità del genoma, ci si
accorge che l’uomo non è molto diverso da altri eucarioti più semplici, come per es
Drosophila melanogaster: l’Homo sapiens
la è circa 2,5 volte più complesso del
C. elegans
moscerino della frutta e solo 2 volte più complesso del .
Le annotazioni più dettagliate delle sequenze ultimate dei cromosomi umani
suggeriscono che tale genoma contiene circa 35.000 geni. Il numero è molto più
basso degli 80.000-100.000 stimati originariamente sulla base del numero di
proteine presenti nelle cellule umane. Queste stime così alte erano, difatti, basate
sull’ipotesi che, in molti casi, un singolo gene specifica per un mRNA e quindi
un’unica proteina. La scoperta che il numero di geni è di molto inferiore indica che
lo splicing alternativo, il processo mediante il quale gli esoni di un pre-mRNA
vengono assemblati in diverse combinazioni in modo da generare più di una
proteina a partire da un singolo gene, è più frequente di quanto si ritenesse
inizialmente. Confrontando il numero di geni dei
diversi eucarioti è ipotizzabile
l’esistenza di un trend, per cui il
numero di geni in un eucariote varia
tra 5000 e 40000, ma non correla con
le dimensioni del genoma o la
complessità dell’organismo: il riso ha
un genoma quasi vicino a quello
dell’uomo.
La correlazione tende a diminuire
man mano che vi è una maggiore
presenza di sequenze non codificanti.
Si può, inoltre, osservare come i genomi degli eucarioti unicellulari ricadono nello
stesso range di dimensioni dei batteri superiori; tuttavia, man mano che si sale
lungo la scala evolutiva questa correlazione si perde.
Numero di cromosomi.
3. Non si osserva alcuna una correlazione tra dimensioni del genoma e numero di
Saccharomices cerevisiae
cromosomi. Per esempio, tra gli invertebrati il ha un
Drosophila
genoma di 13 Mb organizzato in 16 cromosomi. Allo stesso modo, la ha
un genoma di 180 Mb condensato in 4 cromosomi.
Dal sequenziamento del genoma umano e degli altri genomi si è osservato:
- Una grande variabilità nei valori di C tra specie le cui complessità apparenti non
differiscono in modo sostanziale;
- La presenza di un eccesso di DNA rispetto alla quantità necessaria per codificare
proteine.
Ad oggi, la spiegazione del paradosso è fornita da due elementi:
geni discontinui:
a. La presenza di nei genomi degli organismi meno complessi si
risparmia spazio in quanto i geni sono più vicini tra di loro; mentre si ha la presenza
di introni geni eucariotici.
DNA ripetitivo
b. La presenza di molto nei genomi degli organismi complessi.
Sebbene la complessità del genoma venga definita come la “lunghezza totale di tutte
le differenti sequenze presenti”, il paradosso è che sembra esistere un rapporto tra la
quantità di sequenze di DNA non codificanti e la complessità di un organismo. È,
dunque, lecito ritenere che la vera complessità stia nei complessi meccanismi di
regolazione dell’espressione genica.
Il paradosso del valore C consiste non nel progressivo aumento delle dimensioni del
genoma all’aumentare della complessità degli organismi, ma il fatto che organismi
simili possano differire enormemente nelle dimensioni dei loro genomi
Nel paradosso è,
difatti, intrinseca, la
presenza di una
grande diversità
all’interno dello stesso
phylum, per cui
individui appartenenti
alla stessa specie
differiscono nelle
dimensioni dei
genomi, e tale
differenza deriva
dall’espansione delle
famiglie di DNA
ripetuto.
Nel trattare l’organizzazione genica negli eucarioti, occorre tenere in considerazione
due dogmi:
1. I geni eucariotici sono monocistronici rispetto ai geni policistronici degli organismi
più in basso lungo la scala evolutiva. Ci sono però delle eccezioni che possono
essere rappesentate, per esempio, dalle “unità di trascrizione policistroniche”,
ossia geni che formano complessi molto vicini tra loro, controllati da un’unica
regione di controllo del genoma e che vengono risolti in mRNA maturi
monocistronici per trans-splicing (il trans-splicing è un fenomeno comune in
Drosophila ma presente anche in tripanosomi, nematodi, platelminti).
Una seconda eccezione è rappresentata dalle “IRES (siti interni di ingresso del
ribosoma)”, ossia unità riconosciute dal complesso ribosomale e localizzate a valle
rispetto al 5’UTR; consentono un re-inizio della traduzione o frameshift tradizionale.
Le IRES sono, inoltre, frequentemente localizzate all’interno di introni.
2. I geni eucariotici non mostrano nessuna evidente relazione tra localizzazione e
attività funzionale (functional clustering) o con espressione spazio-temporale.
L’eccezione a questa regola è, però, rappresentata dalla presenza di
raggruppamenti di geni con funzione correlata (cluster genici), quali geni Hox, geni
per emoglobine e geni per immunoglobuline.
I geni non sono distribuiti uniformemente lungo tutto il cromosoma. Consideriamo una
mappa di densità di un cromosoma qualunque: questo risulterebbe eterocromatico
nelle regioni centrali e funzionale per la gran parte del cromosoma. Vi è, dunque, una
bassa densità alle estremità telomeriche e nella regione centromerica, dove si trovano
sequenze ripetute che mantengono l’integrità del cromosoma; per il resto vi sono
sequenze codificanti.
Nella maggior parte degli organismi, i geni sembrano distribuiti più o meno
casualmente con una variazione della densità genica tra cromosomi così come tra
regioni di uno stesso cromosoma. La densità genica media
Arabidopsis
in è di 25
geni ogni 100 kb, ma
anche al di fuori dei
centromeri e dei
telomeri la densità varia
da 1 a 38 geni per 100
kb.
Lo stesso è vero per i cromosomi umani, dove la densità varia tra 0 e 64 geni per 100
kb.
Esiste l’evidenza che geni umani sono localizzati principalmente in regioni ricche in
CG: il genoma cerca, infatti, di evitare le sequenze CpG e le clasterizza laddove sono
presenti i geni. La densità delle “isole CpG” è correlabile alla frequenza genica in uno
specifico cromosoma. Per esempio, il cromosoma 19, il più ricco in geni
e con la minore densità genica, presenta il
maggior numero di isole CpG.
Il cromosoma X, secondo in grandezza dopo il
cromosoma 1, non è ricco in geni quanto il
cromosoma 19: pur avendo una dimensione di
circa 250 Mb è particolarmente ricco di sequenze
ripetute.
La presenza delle isole CpG nelle regioni 5’ dei geni è collegata agli effetti della
metilazione sulla trascrivibilità dei geni. I geni sono potenzialmente trascrivibili se
ipometilati, mentre l’ipermetilazione dei promotori è solitamente correlata ad una
inattivazione degli stessi: le citosine delle CpG sono metilate in 5-metilcitosina e sono,
quindi, silenziate nel momento in cui il gene viene spento.
Tutti i geni housekeeping sono caratterizzati dalla presenza di isole CpG ipometilate o
per nulla metilate, essendo costitutivamente attivi.
Le isole CpG sono funzionali in quanto, nel momento in cui il gene deve essere
silenziato, la metilcitosina viene riconosciuta dagli istoni: questi si legano alla 5-
metilcitosina e condensano ulteriormente il DNA, in modo che diventi eterocromatico
impedendo l’attivazione del gene; la metilazione delle isole CpG inibisce, dunque, la
trascrizione.
Nella scala evolutiva, osservando il contenuto in C+G si osserva una conservazione
H. sapiens M. musculus
funzionale: i Mammalia, ossia e presentano un contenuto G+C
intorno al 40%. I genomi eucariotici mostrano una minore variabilità nel contenuto in
procariotici,
G+C rispetto ai genomi anche se differenze si possono osservare sia
all’interno che tra i diversi phyla.
Higher taxon Species G+C%
H. sapiens
Mammalia 41
M. musculus 42
A. Thaliana
Plants 36
O. Sativa 44
C. elegans
Nematoda 36
S. cerevisae
Fungi 38
S. pombe 36
Un’altra evidenza che indica una distribuzione dei geni non omogenea deriva dal
modello di organizzazione genomica detto “isocoro”.
modello delle isocore
Secondo il , proposto da Giorgio Bernardi nel 1985, i genomi
dei vertebrati e delle piante sono mosaici di segmenti di DNA, chiamati “isocore”,
ciascuno lungo almeno 300 kb e caratterizzato da una composizione in basi uniforme e
differente da quella del segmento adiacente.
Il modello isocoro è confermato da esperimenti in cui il DNA genomico viene
frammentato in segmenti di circa 100 kb, trattato con coloranti che legano in modo
specifico regioni ricche in A-T e G-C e i frammenti ottenuti vengono separati mediante
ultracentrifugazione in gradiente di densità.
Quando questo esperimento viene eseguito con DNA umano si evidenziano cinque
frammenti, ciascuno rappresentante un tipo di isocoro con la sua caratteristica
composizione in basi:
- Due isocori ricchi in A-T, chiamati L1 e L2 (L sta per light); rappresentano oltre il
60% del genoma e sono meno associate ai geni.
- Tre classi ricche in G-C chiamate H1, H2 e H3 (H sta per heavy); sono correlate ai
geni. Le isocore hanno un contenuto in GC
caratteristico:
- H3: 54% di G/C
- H2: 49% di G/C
- H1: 46% di G/C
- L2: 42% di G/C
- L1: 39% di G/C
Sono, inoltre, associate a differenze
funzionali: H3 è il meno abbondante,
costituendo appena il 3-5% del genoma
umano, ma contiene circa l’80% dei geni
housekeeping.
L1 e L2 costituiscono nel loro insieme il
66% del genoma umano, comprendendo
l’85% dei geni specifici dei tessuti.
La maggior parte del genoma è
costituita da isocore leggere (L1, L2). Al contrario la maggior parte dei geni è
localizzata nelle isocore pesanti (H1, H2 e H3).
Nel genome core costituito dalle isocore H2 e H3 (12% del genoma) la densità dei geni
è molto alta (un gene per 5-15kb), mentre nel cosiddetto empty space formato dalle
isocore di tipo L e H1 (88% del genoma) la densità genica è molto bassa (un gene per
50-150kb).
I genomi eucariotici non sono molto compatti a differenza di quelli procariotici.
S. cerevisiae, D. melanogaster H. sapiens
Paragonando i genomi di e ci si accorge di
come la densità vari nel numero di geni.
I genomi degli eucarioti hanno una densità genica molto ridotta. In media, i geni
codificanti per proteine occupano solo il 2-4% dell’intero genoma.
Saccharomices,
Ciò non è vero per il quale presenta una densità genica media di 479
Drosophila
per ogni Mb. La ha, invece, una densità genica di 79 per ogni Mb; mentre
l’uomo presenta solo 11 geni per Mb. Drosophila
Per quanto riguarda gli introni: l’uomo contiene 9 introni per gene, per
Saccharomices
gene, mentre appena 0,04 (la maggior parte dei geni sono
monocistronici senza introni).
Nell’H. sapiens aumenta il numero di introni, allo stesso modo della percentuale di
genoma occupato da repeat: l’uomo ha il 44% del genoma occupato da ripetizioni
Saccharomices.
intersperse, rispetto al 3% di
Nei genomi degli organismi meno complessi si risparmia spazio in quanto i geni sono
S. cerevisiae
più vicini tra loro. Il genoma di illustra questo caso, dove , il segmento di
50 kb del cromosoma 12 umano (A) è paragonato ad un segmento di uguale misura
del genoma di lievito.
Nello specifico, il segmento di 50 kb comprende il locus del recettore β delle cellule T,
e contiene 4 geni. Il segmento del genoma di lievito deriva dal cromosoma III e ha le
seguenti caratteristiche:
- Contiene più geni del
segmento umano.
Questa regione del
cromosoma III contiene
26 geni che si pensa
codifichino proteine e 2
che codificano tRNA
- Relativamente pochi
geni di lievito sono
discontinui. In questo
segmento del cromosoma III nessuno dei geni è discontinuo. Nell’intero genoma del
lievito ci sono 230 introni, rispetto agli oltre 30.000 del genoma umano.
- Vi sono meno sequenze ripetute disperse in tutto il genoma. Questa parte del
cromosoma III contiene cinque ripetizioni estese a tutto il genoma che occupano il
13,5% del segmento di 50 kb. Se si considerano tutti i 16 cromosomi, l’ammontare
totale di sequenza occupato da ripetizioni disperse in tutto il genoma è solo il 3,4%
del totale.
Il quadro che emerge è che l’organizzazione del genoma di lievito è molto più
economica di quella del genoma umano. I geni stessi sono più compatti, hanno meno
introni e lo spazio tra di loro è relativamente piccolo; molto meno spazio è occupato da
ripetizioni disperse in tutto il genoma e da altre sequenze non codificanti.
L’ipotesi secondo cui gli organismi più complessi hanno genomi meno compatti è
valida anche quando si esaminano altre specie. Consideriamo un segmento di 50 kb
del genoma del moscerino della frutta. Tale segmento contiene 11
geni, che sono un numero
maggiore di quelli presenti nel
segmento umano e un numero
minore di quelli presenti nella
sequenza di lievito.
Tutti questi geni sono discontinui, ma sette contengono un solo introne.
La densità genica nel genoma del moscerino della frutta è intermedia tra quella di
lievito e quella umana.
Le differenze tra i genomi di lievito, del moscerino della frutta e dell’uomo sono
confermate dal confronto tra le ripetizioni disperse in tutto il genoma. Queste rendono
conto del 3,4% del genoma di lievito, di circa il 12% del genoma di Drosophila e del
44% del genoma umano.
Sta diventando sempre più evidente che le ripetizioni disperse in tutto il genoma
svolgono un ruolo determinante nell’imporre una maggiore o minore compattezza al
genoma.
Ne è un esempio lampante il genoma di mais, che con le sue 2500 Mb è relativamente
piccolo per una pianta a fiore.
Anche in questo caso consideriamo un segmento
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.