Organizzazione del genoma umano
Il DNA nucleare rappresenta il 99% del DNA contenuto in una cellula, la restante parte si trova a livello citoplasmatico contenuto nei mitocondri.
Il DNA è costituito da 6x10 coppie di basi e si organizza in 23 coppie di cromosomi che sono differenti sia per dimensioni che per ricchezza in geni. Il DNA mitocondriale è invece circolare, a doppio filamento, uno H (heavy) ricco in GC ed uno light ricco in C; la caratteristica fondamentale di questo DNA è che è molto piccolo (17Kb) in cui sono presenti 37 geni di cui 24 codificano per ncRNA (22 tRNA e 2 rRNA) e 13 per proteine; i geni contenuti inoltre non contengono introni per via della teoria endosimbiotica, alcuni geni sono addirittura sovrapposti.
Il numero di mitocondri contenuto in una cellula varia a seconda del tipo cellulare (la cellula uovo è quella più ricca di mitocondri).
Genoma e valore C
Il genoma è la massa del DNA nucleare o l'insieme dell'informazione genetica che non significa solo l'insieme dei geni ma comprende anche ncRNA. Il contenuto di DNA di una cellula aploide viene definito come valore C, e si può esprimere in peso o in coppie di basi. Il valore C è caratteristico di una specie ma all'interno della stessa specie possono esserci valori C differenti a seconda della complessità del genoma.
Il contenuto minimo di DNA trovato in ciascuna specie aumenta con l'aumentare della complessità biologica; tuttavia considerazioni all'interno di una stessa specie indicano la presenza di un eccesso di DNA rispetto alla quantità richiesta per codificare il set di informazioni necessarie. Poiché la quantità di DNA è eccessiva rispetto alla quantità di proteine che vengono codificate in certe specie (es. anfibi) si parla di paradosso del valore C, ovvero la mancanza di una correlazione tra la complessità di un organismo e le dimensioni del suo genoma.
Paradosso del valore C
Il paradosso C può essere spiegato da tre motivazioni:
- Solo una parte del genoma codifica per informazioni fondamentali
- Presenza di sequenze ripetute nel genoma, geni policistronici
- Il numero delle copie aumenta nelle specie con genomi più grandi
Tuttavia, ad un aumento della quantità di DNA non corrisponde un aumento di sequenze geniche, quindi la quantità di DNA contenuto in una cellula non è direttamente proporzionale al contenuto di geni della cellula stessa.
Ad esempio:
- Genoma del riso = 400 Mb
- Genoma del mais = 2500 Mb, e circa 6 volte maggiore di quello del riso
Ma i geni del riso = geni del mais!
Spiegazioni del paradosso
Il paradosso del valore C è spiegato considerando:
- Dimensioni dei geni discontinui (numero e grandezza degli introni)
- La quantità di DNA ripetitivo, ovvero la porzione più abbondante di ncDNA dei genomi eucariotici
I geni nei genomi diploidi inoltre esistono in due forme alleliche e, in aggiunta a questo grado di ripetizione, approssimativamente il 40% del genoma è rappresentato da sequenze di DNA ripetuto non alleliche:
- Famiglie geniche funzionali
- Famiglie di sequenze di DNA ripetuto non genico
Compattezza dei genomi eucarioti
I genomi degli eucarioti hanno una densità genica molto ridotta: in media, i geni codificanti per proteine occupano solo il 2-4% dell’intero genoma. La scarsa compattezza del genoma nucleare è dovuta alla struttura discontinua dei geni, con introni che nei mammiferi possono raggiungere dimensioni intorno a 20-30 kb (ed oltre) e alla presenza di elementi ripetuti.
I geni eucariotici sono monocistronici, tuttavia strutture simili agli operoni batterici sono state descritte in C. elegans. Ad esempio nel genoma umano sono presenti mediamente 9 introni per gene e circa il 44% del genoma è occupato da sequenze ripetute intersperse; la densità genica del genoma umano è di solo 11 geni per Mb mentre quella di S. cerevisiae è di 479!!
Cinetiche di riassociazione
Le sequenze ripetute si sono scoperte grazie alle cinetiche di riassociazione: la cinetica di riassociazione descrive la velocità con cui una sequenza a singolo filamento è in grado di trovare una sequenza complementare e appaiarvisi. A seguito di una denaturazione, la rinaturazione del DNA sarà tanto più rapida quanto più la sequenza è semplice e ripetuta, viceversa un DNA complesso contenente tante sequenze uniche impiegherà più tempo per trovare il suo corrispondente.
La cinetica di riassociazione di un genoma dipende da due parametri:
- Dimensione del genoma → paragonando genomi di dimensioni diverse, a parità di densità di DNA il numero di sequenze uniche sarà diverso
- Presenza e quantità di DNA ripetuto
Di un genoma si valuta quindi il valore di Cot ovvero il tempo necessario per ottenere il 50% di riassociazione in funzione della quantità di DNA di partenza (C0) e del tempo t; il valore di Cot fornisce informazioni relativamente alla lunghezza del genoma e alla sua complessità.
Nell'uomo sono presenti tre curve di riassociazione:
- Fast component → corrisponde a quel 25% del genoma che si riassocia in maniera rapidissima dovuta alla presenza sequenze ripetute,
- Intermediate component → ha un Cot1/2 intermedio e corrisponde al 30% del genoma che contiene sequenze moderatamente ripetute (ad esempio le famiglie geniche)
- Slow component → corrisponde al 45% del genoma contenente sequenze uniche.
Prodotti genici
Mettendo in relazione le dimensioni del genoma con il numero di geni di alcune specie evolutivamente diverse, è evidente come non sia il numero di geni codificanti a determinare la complessità di una specie; infatti:
- Drosophila → 165MB - 13.600 geni
- C.elegans → 97Mb – 18.500 geni
- H. sapiens → 3.300Mb – 25.000 geni
È evidente che le funzioni e le interazioni fra gruppi di geni simili possono generare “programmi” molto diversi. L’aumento della complessità anatomico-funzionale infatti correla con l’aumento della quantità di DNA ripetuto non codificante: questo suggerisce un ruolo funzionale (strutturale e/o regolativo) del ncDNA.
I geni eucariotici possono codificare per due tipi di prodotti:
- Proteine
- RNA funzionali
I geni eucariotici presentano un promotore prossimale e promotore distale a cui si legano i fattori di trascrizione che permettono la regolazione della trascrizione del gene stesso. Gli esoni dei geni eucariotici sono molto piccoli (300 basi) poiché questo permette di diminuire il tasso di mutazioni che cadono al loro interno: più un gene è lungo infatti più aumenta la possibilità di mutazioni e quindi aumenta l'eterogeneità allelica ovvero la probabilità che mutazioni diverse avvengano sullo stesso locus e provochino lo stesso fenotipo; geni lunghi possono inoltre essere soggetti a delezioni.
Il genoma nucleare è costituito solo per il 5% da sequenze conservate che corrisponde alle regioni codificanti polipeptidi ed ncRNA.
Classificazione delle sequenze nel genoma
Il genoma umano (3200Mb) è costituito per il 70% da DNA extragenico mentre solo il restante 30% codifica per geni; di questa porzione solo il sono geni-correlate di cui il 10% è DNA codificante mentre il 90% è rappresentato da ncDNA, di cui fanno parte anche gli pseudogeni ed i frammenti genici.
Il DNA extragenico è costituito da un 80% di sequenze uniche e a funzione sconosciuta, di cui fanno parte ad esempio i long ncRNA, il restante 20% invece è rappresentato da DNA ripetuto che può essere:
- In tandem → sequenze lunghe da poche basi a 170pb ripetuto in tandem nel genoma; può a sua volta essere diviso in:
- Satellite DNA
- Minisatellite DNA
- Microsatellite DNA
- Sequenze ripetute intersperse → sono sequenze che hanno un'omologia inferiore al 100% e si trovano disperse all'interno del genoma; comprendono:
- LINE
- SINE
- Trasposoni
Il contenuto di DNA inoltre non è suddiviso in maniera non uniforme nei 23 cromosomi: alcuni cromosomi contengono 250Mb (Cr. 1) altri appena 60Mb (Cr. Y o 19); anche la suddivisione delle sequenze codificanti non è uniforme.
Nel genoma umano i geni codificanti stimato utilizzando il sequenziamento genomico e CpG è di circa 25mila. L'identificazione delle isole CpG permette di effettuare una stima del numero di geni poiché circa il 56% dei geni umani presenta queste isole a livello dei promotori.
Per valutare visivamente il contenuto in geni di un cromosoma possono essere utilizzate isole CpG isolate e marcate con fluorocromi che vengono ibridate al DNA. Queste valutazioni hanno portato all'identificazione di cromosomi ricchi e cromosomi poveri di geni, ad esempio il cromosoma 19 è ricco in geni mentre i cromosomi 4 e 18 ne sono poveri.
Anche la distribuzione dei geni non è uniforme: i geni si trovano distribuiti per lo più a livello delle regioni sub-telomeriche rispetto a quelle sub-centromeriche, proprio perché sono regioni ricche di eterocromatina e quindi più compattate.
Nei bracci corti dei cromosomi acrocentrici sono presenti i geni che codificano per gli RNA funzionali. I geni codificanti (RNA e proteine) inoltre esistono in unica copia ma possono appartenere a famiglie geniche originatesi per duplicazione: in questo caso possono mantenere funzioni correlate e possono mappare nella stessa regione genomica.
Geni dentro geni
I genomi semplici e quelli mitocondriali hanno un'elevata densità genica (anche un gene ogni 0,5-2Kb) dovuta alla presenza di geni parzialmente sovrapposti o ad un'organizzazione genica bidirezionale. Nei mammiferi la densità genica è molto meno elevata (un gene ogni 100Kb) ed i geni sovrapposti non sono frequenti; nel genoma umano possono però presentarsi geni localizzati all'interno di altri geni. A differenza degli organismi più semplici però questi geni si trovano all'interno degli introni di altri geni e in genere vengono trascritti utilizzando il filamento opposto.
Esempi di geni dentro altri geni sono:
- NF1 → l'introne 27 (40Kb) contiene tre piccoli geni costituiti da 2 esoni ciascuno che vengono trascritti dal filamento opposto
- Fattore VIII della coagulazione F8C → l'introne 22 contiene un'isola CpG a partire dalla quale vengono trascritti due geni nelle due direzioni opposte. Il gene F8A viene trascritto utilizzando il filamento opposto al F8C, mentre F8B viene trascritto nella stessa direzione e sintetizza un corto mRNA costituito da esone nuovo + gli esoni dal 23 al 26 di F8C
- RB1 → l'introne 17 (72Kb) contiene il gene per il recettore per la proteina G che viene trascritto in senso opposto
Più gli introni sono grandi più è facile che possano avvenire meccanismi di questo tipo. Le sequenze codificanti inoltre sono altamente conservate da un punto di vista evolutivo, al contrario quelle non codificanti conservate sono solo il 3-4%; le sequenze di eterocromatina, i trasposoni e le altre sequenze sono molto poco conservate.
La banca dati Genecode studia sequenze correlate al controllo dell'espressione genica: tra i meccanismi epigenetici di controllo vi sono quelli a carico degli RNA non codificanti (miRNA, ncRNA..). I geni che codificano per i ncRNA sono più dei geni codificanti proteine.
Organizzazione dei geni negli eucarioti superiori
I genomi degli eucarioti superiori presentano un'organizzazione genica in cui solo il 25% dei geni è presente in singola copia, una percentuale è rappresentata dallo “spacer DNA” ed un'altra percentuale è rappresentata da DNA ripetitivo. A sua volta il DNA ripetitivo comprende:
- Sequenze funzionali
- Famiglie geniche codificanti (e pseudogeni ψ correlati)
- Famiglie geniche intersperse
- Famiglie geniche in tandem
- Sequenze funzionali non codificanti
- Sequenze a funzione sconosciuta
- Ripetizioni nell'eterocromatina centromerica
- Ripetizioni in tandem in numero variabile
- Sequenze trasposte
- Trasposoni
- Retrotrasposoni
A livello delle famiglie geniche, che fanno parte del DNA ripetuto codificante, si organizzano la maggior parte dei geni (50-75%). I geni appartenenti a una famiglia genica hanno in gene un buon grado di omologia: l’organizzazione introni-esoni dei differenti membri infatti è di solito identica, suggerendo che essi derivano da un singolo gene ancestrale. Per verificare se un gene appartiene ad una famiglia genica si possono utilizzare tre tecniche:
- Ibridazione molecolare
- Sequenziamento del DNA
- PCR
Famiglie geniche
Oltre ai trasposoni, l'eterocromatina contiene chiare evidenze di duplicazioni localizzate di DNA. In alcuni casi le duplicazioni si sono differenziate nella sequenza, in altri casi più recenti invece le sequenze hanno mantenuto un'omologia di sequenza del 90%; queste ripetizioni sono molto comuni a livello dei telomeri e dei centromeri.
All'interno di un gene o di geni ripetuti c'è una grande quantità di DNA codificante ripetuto: all'interno di un gene il DNA codificante ripetuto può trovarsi sia in unico esone (come ripetizioni in tandem di uno o più nucleotidi) oppure possono essere ripetuti anche uno o più esoni. Su una scala più larga, l'unità ripetitiva può consistere nell'intero gene o, in casi più rari, in più geni correlati fra loro: le risultanti famiglie multi-geniche contengono due o più geni che codificano per prodotti genici correlati o addirittura uguali. Esistono diverse classi di famiglie multi-geniche nel genoma umano, nelle quali il numero di geni per famiglia varia da due a diverse centinaia.
Alcune famiglie sono cluster di geni raggruppate in determinate regioni cromosomali; queste famiglie in genere derivano da eventi di duplicazione in tandem in cui i cromatidi si appaiano in maniera non allineata allinearsi a livello di piccole regioni, i cromatidi poi si scambiano frammenti di DNA a livello del punto di rottura. Un esempio sono i geni per le α-globine (cr. 16) e per le β-globine (cr. 11) che si sono generati da eventi di duplicazione in tandem; in altri casi le famiglie geniche sono distribuite su due o più diverse regioni cromosomali: a volte originano da duplicazioni di geni in cluster che vengono separati da riarrangiamenti genetici.
Le famiglie geniche si sono formate durante l'evoluzione per tre motivi:
- Permettono la produzione di più prodotti genici
- Mutazioni di 2-3 basi possono aumentare la specializzazione dei prodotti
- Permettono un'espressione genica differenziale nel tempo.
Le famiglie geniche si originano da un CO ineguale durante l'appaiamento dei cromosomi omologhi in meiosi (profase): quando questo appaiamento non è perfetto a causa delle sequenze ripetute, si viene a generare una duplicazione della sequenza coinvolta nel CO. Solitamente la duplicazione mantiene entrambi i geni funzionali, permettendo quindi una maggiore produzione di proteine, poi in genere una coppia viene conservata e non sottoposta a mutazione mentre l'altra può andare incontro a mutazioni che possono generare nuovi geni codificanti, ma potrebbe anche generare copie non funzionali del gene dovute ad un accumulo di mutazioni.
Quindi una duplicazione genica per CO ineguale genera:
- Una copia del gene ancestrale che ha quindi le stesse funzioni
- Mediante mutazioni può generare:
- Geni paraloghi → diversi dal gene ancestrale, quindi con funzioni diverse
- Pseudogeni → geni inattivi a causa di un accumulo di mutazioni.
Le famiglie geniche vengono suddivise in quattro gruppi, all'interno dei quali possono essere classificate sia per organizzazione strutturale, sia per similarità di sequenza:
- Famiglie di geni ripetuti → i componenti sono identici e sono organizzati in tandem classiche → la similarità di sequenza è 90% e si trovano:
- In cluster → c'è una regolazione dell'espressione (es. globine)
- Interspersi → sono costituire da una copia originale funzionante ed una serie di pseudogeniche si generano con un meccanismo di retrotrasposizione (es. actina)
- Codificanti per prodotti con domini altamente conservati → hanno un'omologia elevata in regioni limitate (che codificano per domini proteici) ed un'organizzazione interspersa
- Superfamiglie → non hanno omologia di sequenza ma contengono geni che svolgono una determinata funzione e hanno un'organizzazione interspersa
Famiglie di geni ripetuti
Un esempio è la famiglia che codifica per gli rRNA: questa famiglia è costituita dai geni codificanti per tutti gli rRNA che vengono trascritti in un'unica unità di trascrizione che viene poi processata da snoRNP a livello del nucleolo. Queste famiglie sono localizzate nelle regioni NOR dei cromosomi acrocentrici e sono ripetute in tandem in modo da permettere una grossa produzione di rRNA.
Famiglie geniche classiche raggruppate in cluster
Un esempio sono i geni delle globine: il genoma umano presenta due cluster di geni che codificano le globine:
- α-globina → cromosoma 16, costituito da due geni
- β-globina → cromosoma 11, è costituito da 5 geni (ε, due γ, δ e β) disposti nell'ordine in cui vengono espressi durante lo sviluppo
In un cluster, i singoli geni sono fisicamente distanziati tra loro, ma comunque rimangono strettamente raggruppati al punto di essere soggetti a un meccanismo di regolazione comune in modo che la loro espressione sia coordinata da un'unica regione di controllo LCR; la LCR è una regione enhancer che agisce in cis e viene riconosciuta da fattori di trascrizione eritroido-specifici. Questo è infatti ciò che avviene per i geni delle globine: le γ-globine vengono espresse nel feto poiché sono più affini per l'ossigeno rispetto alle β-globine, ma la loro espressione deve... (testo incompleto)
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.