Genetica molecolare umana
Organizzazione del genoma umano
In un individuo ci sono circa 10 cellule. Ognuna di queste cellule possiede un genoma nucleare e molti genomi mitocondriali, il cui numero varia in base alla tipologia di cellula in questione e dal suo fabbisogno energetico.
Il genoma nucleare è composto da 6x109 coppie di basi ed è organizzato attraverso il sistema di compattamento della cromatina in cromosomi, strutture lineari e diverse tra loro, in quanto alcuni cromosomi hanno più DNA rispetto ad altri. La quantità di DNA all’interno di un cromosoma non è correlata al numero di geni. Il cromosoma più grande, rappresentato dall’1 e dal 2, ha 250K bp, mentre il cromosoma più piccolo, rappresentato dal 19, ne ha 50K.
Il genoma mitocondriale è molto piccolo, ha infatti circa solo 17K bp ed è un DNA circolare a doppio filamento: Filamento H – Heavy, ha una maggior composizione di G-C, circa il 47% è rappresentato da GC. Filamento L – Light, ha una minor composizione di G-C, ma è ricco in AT. Il filamento in tutta la sua lunghezza non ha ‘spaziatori’, ma contiene solo geni, al contrario di quello genomico, dove si hanno sequenze ripetute un tempo classificate come junk DNA, ovvero spazzatura.
Contiene 13 geni che codificano per polipeptidi, 24 invece per RNA non coding (22 per il tRNA e 2 per l’rRNA).
NB: Ci sono 93 geni che codificano per le proteine delle subunità mitocondriali; di questi 13 sono mitocondriali, mentre tutti gli altri sono nucleari e l’ereditarietà è diversa.
In una malattia mitocondriale è difficile prevedere il rischio di trasmissione di malattia, in quanto non esiste il fuso mitotico. Differentemente, a livello nucleare, c’è invece un tipo di ereditarietà classica.
Dimensioni del genoma nucleare
Il genoma è l’insieme di tutte le sequenze (NB: non l’insieme dei geni, che sono solo 22mila e sono il 10% del genoma, di cui solo il 3% è codificante) e quindi di tutta l’informazione genetica. È la massa di DNA contenuta nel nucleo di una cellula, il patrimonio ereditario di un organismo. In alcune categorie di organismi le dimensioni del genoma nucleare possono variare anche di tre ordini di grandezza. Ciò che caratterizza il genoma è che ogni specie ha una certa quantità di genoma, che varia all’interno di specie di una stessa classe. Tale quantità di genoma aploide è il cosiddetto valore C e si può esprimere in peso o in coppie di basi. Gli organismi con complessità simile hanno valori C diversi. Il valore C è una costante ed è specifico per ciascuna specie.
Per i procarioti all’aumento del valore C c’è anche aumento della complessità, rappresentata dal valore S e definita come numero di proteine diverse ed è correlata ai meccanismi di regolazione. Il contenuto minimo di DNA trovato in ciascuna classe aumenta con l’aumentare della complessità biologica. Tuttavia, comparazioni all’interno della stessa classe indicano la presenza di un eccesso di DNA rispetto alla quantità richiesta per codificare il set di informazioni necessarie, ovvero proteine. La quantità di DNA non è quindi correlata al numero dei geni, perché i geni sono molti meno rispetto alla quantità di genoma. Nei procarioti c’è diretta correlazione tra quantità genoma e quantità proteine. Negli eucarioti ciò non c’è più correlazione. L’uomo, infatti, ha un genoma esteso, ma il valore C non è proporzionale alla complessità. Il numero dei geni non è correlabile all’aumento della complessità. È il cosiddetto paradosso del valore C, definito come la mancanza di correlazione tra la complessità genetica/morfologica di un organismo e le dimensioni del suo genoma.
- Il numero di geni è simile in classi di organismi con complessità molto diversa
- Non esiste diretta correlazione tra dimensione del genoma e la quantità delle proteine prodotte.
- Le dimensioni del genoma variano di molto, ma il numero dei geni codificanti in specie diverse resta più o meno uguale all’interno degli eucarioti.
Esempio: il genoma della salamandra è 225 volte più grosso di quello del pesce, ma hanno lo stesso numero di geni. Non sono quindi le sequenze uniche a dare la complessità del genoma.
Fattori che influenzano la complessità genomica
Esistono altri fattori, due fondamentali:
- Gli organismi eucariotici superiori possiedono un’organizzazione dei geni nucleari che prevede sequenze codificanti e non codificanti, ovvero i geni sono discontinui. Ciò significa che c’è un aumento del genoma, dovuto alla presenza di introni, il che protegge da mutazioni e permette lo splicing alternativo. La possibilità di poter aggiungere in qualche modo a una sequenza discontinua tratti di sequenze codificanti è rilevante dal punto di vista evolutivo perché con poche sequenze si può aumentare la complessità della proteina aggiungendo piccoli tratti codificanti (exon shuffling).
- A livello del genoma c’è un’altissima quantità di sequenze di DNA ripetuto, caratteristico del DNA di organismi eucariotici superiori. Il DNA può essere ripetuto in vari modi. Ad esempio, sono compresi gli esoni codificanti per trasposoni e sequenze ripetute in tandem, come quelle che formano i centromeri. Il 40% del DNA eucariotico è rappresentato da sequenze di DNA ripetuto non allelico. Ci sono forme di DNA ripetuto non codificante, ma anche forme codificanti (famiglie geniche, ad esempio le globine, geni per rRNA e geni per istoni).
Progressivamente, con l’aumento di complessità e di quantità del genoma, partendo da Coli per giungere al tabacco, le sequenze ripetute vanno crescendo. E. Coli: 1% DNA ripetuto Uomo: 50% DNA ripetuto Tabacco: DNA quasi totalmente ripetuto I geni possono essere altamente discontinui, anche se esistono dei geni non discontinui. I genomi eucariotici hanno densità genica ridotta, sono distribuiti mentre gli organismi meno complessi presentano compattezza genica. Nell’uomo ci sono poche interruzioni e i geni sono molto distribuiti. Progressivamente in Coli il genoma è compatto e ci sono solo geni. La densità genica del lievito è molto alta, mentre nell’uomo è bassa perché ricca di sequenze ripetute. All’aumentare della complessità biologica il numero di sequenze non codificanti aumenta e diminuiscono quelle codificanti.
Progetto Genome Umano e progetto ENCODE
Dopo il Progetto Genome Umano è partito il progetto ENCODE. ENCODE: è un progetto (database) in cui una serie di gruppi stanno caricando dati riguardanti il genoma, nel tentativo di comprendere come sequenze non codificanti possano in qualche modo regolare l’espressione genica delle sequenze codificanti. Come si fa a sapere la quantità di sequenze ripetute? Attraverso la cinetica di riassociazione, da cui si ricava la curva di riassociazione. Si prende un DNA, si scalda e si lascia riassociare, calcolando il tempo che ci mette per rinaturarsi, il che richiede l’interazione di due molecole che, a parità di lunghezza, cercano di ritrovarsi. Tante sequenze ripetute: il DNA si associa velocemente DNA più corto rispetto a uno lungo: il DNA si associa più velocemente Più la curva è a destra più la velocità di riassociazione è minore. Passando a un genoma con sequenze altamente o moderatamente ripetute, ciò che succede è che si assoceranno molto più rapidamente e avrò quindi tre curve che, unite porteranno a una tripla curva, rappresentante le tre frazioni: lenta, media e veloce. La frazione lenta rappresenterà le sequenze uniche La frazione veloce rappresenterà le sequenze altamente ripetute La frazione media rappresenterà le sequenze mediamente ripetute. La comparazione tra specie diverse ha evidenziato che la complessità biologica non è associata al numero di geni. I geni umani attualmente sono quantificati come 22000 (tanti quanti quelli del riso), mentre quelli di C.Elegans, ad esempio, sono 18500 geni. Le sequenze non codificanti hanno un ruolo della regolazione genica:
- Nel differenziamento, in quanto permettono al pattern cellulare di esprimersi in un certo modo;
- Timer, ovvero influenzano il momento in cui i geni sono attivati
- Interazione dei geni tra loro per dare fenotipi che non dipendono da un singolo gene (esempio mutato) ma anche dalle interazioni di altri geni con esso.
Struttura del gene
La struttura del gene:
- Regione prossimale del promotore: fattori ubiquitari + ATA box, la sequenza a cui si attaccano i fattori basali di trascrizione
- Regione distale del promotore: fattori ubiquitari
- Regione 3’: è una regione regolatoria, qui sono presenti la sequenza UTR, utile per l’indirizzamento del trascritto, e la sua protezione, poliA che protegge il trascritto e una serie di sequenze utili, come i non coding e miRNA, che regolano post-trascrizionalmente l’espressione.
- Regione 5’ UTR
I Drosophila cominciano ad avere esoni e poi aumentano progressivamente con la complessità dell’organismo, passando dal lievito che ha massimo quattro esoni fino ad arrivare all’uomo, che ne ha tantissimi. Questo è un indice evolutivo: più un gene ha esoni più ha funzioni perché più la proteina ha domini più è complessa. La lunghezza del gene è data dal numero e dalla lunghezza degli introni: il gene umano ha una lunghezza media di 27Kb. D’altra parte, esistono geni che arrivano anche a 2 o 4Mb; un gene di questa lunghezza è più soggetto a mutazione perché è più lungo e più provvisto di esoni.
Esempio: distrofia di Duchenne avviene per perdita di esoni, a causa di una delezione all’interno di un gene. I geni se da un lato aumentano progressivamente di lunghezza, da lievito a mammifero, la grandezza di esoni rimane su per giù uguale, perché è un meccanismo evolutivo. Più è corto un esone più la possibilità di mutazione è ridotta.
- A: geni molto piccoli (tRNA, tutta funzionale la sequenza) – istoni (solo esoni)
- B: geni medi
- C: geni lunghi: immunoglobuline o distrofine, alta probabilità di mutazione rispetto ad A.
NB: Esistono geni con un solo esone DNA umano, che corrisponde attualmente alla specie più evoluta, è quello appartenente agli organismi più complessi a livello di sistema. Fondamentalmente il genoma umano ha il 45% di trasposoni o sequenze ripetute. Il 5-6% da eterocromatina, fatta da sequenze altamente ripetute Il 44% è di natura da determinarsi L’1.1% DNA codificante Il 4% geni codificano per RNA Nel genoma mitocondriale tutto ciò è l’inverso. I mitocondri hanno mantenuto dal punto di vista evolutivo il DNA batterico, pertanto hanno un’alta quota di DNA che codificano per proteine. Il 66% rappresenta sequenze codificanti, il 32% geni per RNA e sequenze regolative. È altamente soggetto a mutazioni. Nell’ambiente ci sono i radicali liberi prodotti dalla fosforilazione ossidativa e non hanno un meccanismo di riparo. Abbiamo tanti mitocondri tali da permettere poi la perdita della mutazione.
Sequenze che codificano per i geni
Le sequenze che codificano per i geni sono sequenze molto conservate. Molti geni svolgono funzioni importanti anche in organismi più bassi a livello di scala evolutiva. Per valutare il livello di conservazione dei geni si utilizza la sequenza consenso, ovvero una sequenza che rappresenta la maggior parte delle sequenze conservate in evoluzione. Queste sequenze rappresentano il 45%, mentre quelle di eterocromatina rappresentate dal 6.5% sono sequenze poco conservate, presenti dai primati a organismi superiori.
Classificazione del genoma
Il genoma umano è costituito dal 30% da sequenze gene correlate di cui:
- Il 10% è rappresentato da esoni.
- Il 90% è rappresentato da sequenze non codificanti che comprendono una grossa quota di pseudogeni, che sono forme non funzionali di geni e frammenti genici.
E dal 70% da DNA extragenico, di cui:
- L’80% è costituito da sequenze uniche o di poche copie. Buona parte del progetto ENCODE cerca di dare un ruolo funzionale a queste sequenze.
Da un punto di vista di modificazioni istoniche il progetto ENCODE ha a disposizione una serie di linee cellulari e attraverso una serie di saggi, ad esempio chip-chip, è possibile capire quali sono le variazioni a livello del codice istonico e predirre in relazione di questo la presenza di elementi come, ad esempio, enhancer e insulator. Analizzando quindi ciò che si ottiene, come per esempio microdelezioni a livello cromosomico, tramite questo sistema si può ipotizzare cosa c’è in una determinata regione ed è possibile saggiare in vivo se ciò che si è predetto corrisponde o meno alla funzione reale.
- 20% è costituito da sequenze ripetute, differenziate in sequenze intersperse e sequenze ripetute in tandem.
Il DNA codificante
Il numero dei geni è distribuito in maniera uniforme? Sapendo che sono 22000, se fossero distribuiti equamente ci sarebbero in ogni cromosoma 1000 geni. 22000 = 1000 22 In realtà non è così. Per capire il contenuto di geni in un cromosoma si guarda la caratteristica fondamentale dei geni al 5’, dove ci sono le isole di CpG, ovvero regioni genomiche che contengono un'elevata densità di siti CpG. I siti CpG o CG sono delle regioni del DNA dove una citosina si trova vicino ad una guanina nella sequenza lineare di basi. "CpG" è l'abbreviazione di " -C--phosphate--G- ", dove i nucleosidi deossicitidina e deossiguanosina sono separati unicamente da un gruppo fosfato, che fa normalmente da ponte tra i nucleotidi nel DNA. La notazione "CpG" viene usata per distinguere questa sequenza lineare dall'appaiamento di basi complementari CG (citosina e guanina) su due diversi filamenti. Utilizzando sonde per CpG, elementi di sequenza presenti nel 56% dei promotori dei geni umani si è vista una differenziale densità genica sui cromosomi: in particolare, il contenuto medio è risultato del 41%, anche se questo valore dipende dai cromosomi. È importante sottolineare regioni più ricche di geni nel cromosoma sono le regioni subtelomeriche. Il cromosoma 19 ha un alto contenuto di geni, tanto da esserne il più ricco, con una quantità corrispondente al 50%. Al contrario, i cromosomi 4 e 18 sono i più poveri. I geni possono essere presenti in copia singola oppure possono appartenere a famiglie geniche generatesi per duplicazione. In questo caso possono mantenere funzioni correlate e possono mappare nella stessa regione genomica. La figura qui a fianco rappresenta la FISH di una frazione di isole di CpG di DNA umano su cromosomi metafasici. Il segnale Texas Red (rosso) è quello della sonda per le isole CpG, mentre il segnale verde del fluoresceina-isotiocianato (FITC) rappresenta le regioni a replicazione tardiva (inattive a livello trascrizionale). Ciò che ne risulta è che il cromosoma 19 e il cromosoma 22 hanno una marcatura molto più forte. In generale, le regioni subtelomeriche sono sempre più marcate rispetto alle regioni centromeriche, perché hanno funzioni fondamentali e diverse. Data l’alta densità genica di questi punti, anomalie cromosomiche coinvolgenti queste aree possono essere associate ad anomalie fenotipiche e ritardo mentale.
Regioni organizzatrici del nucleolo
Le regioni organizzatrici del nucleolo: i bracci corti dei cinque cromosomi acrocentrici. Le regioni organizzatrici del nucleolo (conosciute anche con il termine in inglese nucleolus organizer regions ed il conseguente acronimo NORs) sono regioni particolari dei cromosomi eucariotici; visibili durante la metafase, costituiscono la zona cromosomica che, in interfase, va a formare il nucleolo. Essendo quest'ultimo il luogo del nucleo cellulare nel quale avviene la sintesi e l'assemblaggio dei ribosomi, come è lecito aspettarsi i NORs contengono esclusivamente i geni codificanti i diversi RNA ribosomali. Negli esseri umani, nei NORs sono localizzati i geni per gli rRNA 5.8S, 18S e 28S (i geni per il 5S sono invece localizzati al di fuori dei NORs, sul cromosoma 1); tali geni sono disposti in successione, separati tra loro da brevi regioni non tradotte, a costituire un cluster. Ogni NOR contiene un gran numero di cluster, a loro volta separati tra di loro da sequenze "spaziatrici" non tradotte. Presenti solo negli eucarioti, le regioni organizzatrici del nucleolo variano per numero e posizione fra le diverse specie; negli esseri umani sono localizzate sul braccio corto dei cinque cromosomi acrocentrici (ovvero, che hanno il centromero posizionato molto vicino ad una delle estremità): i cromosomi 13, 14, 15, 21 e 22.
Geni dentro geni
Sono geni all’interno di altri geni e sono descritti per i genomi di organismi semplici e nei mitocondri. Nei mammiferi sono descritti geni contenuti dei grandi introni di alcuni geni. A differenza dei genomi più semplici in questi casi spesso viene utilizzato il filamento opposto al gene canonico.
Abbiamo tre esempi:
- Gene NF1: è l’introne 27, un introne molto grande. All’interno di un introne sono presenti...
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
-
Appunti Genetica molecolare umana
-
Appunti Genetica molecolare umana
-
Appunti Genetica molecolare umana
-
Appunti Genetica molecolare umana