Estratto del documento

PROGETTO GENOMA UMANO

Due eventi fondamentali hanno portato al sequenziamento:

- sistema automatizzato in grado di sequenziare

- PCR, amplificazione delle sequenze che poi vengono sequenziate

1986: gruppo di scienziati (tra cui Dulbecco) pensano a un progetto finalizzato al sequenziamento del genoma umano

NIH (national institutes of healt) e DOE

1990: viene istituto sotto la guida di Watson il consorzio internazionale HGP e vengono stanziati 3 miliardi di dollari in 15 anni

coinvolti diversi laboratori nel mondo terminato nel 2003, prima del previsto grazie al sequenziamento

Prima per sequenziare era necessario subclonaggio in un plasmide, a monte del polylinker messi dei primer, sequenziato tutto ciò che

c'è dopo

Obiettivi:

- identificare tutti i geni contenuti nel DNA umano circa 20.000/25.000 geni

scoprire i vari geni e le mutazioni a loro associate che si riscontrano in patologie (malattie ereditarie monogeniche)

- determinare la sequenza delle 3 miliardi di basi che compongono il DNA umano

- sviluppare tecnologie di sequenziamento più rapide ed economiche

- catalogare queste informazioni in database informatici

- sviluppare programmi per l’analisi delle sequenze

- rispondere a quesiti etici, legali e sociali legati allo svolgimento del progetto

1992: Venter fonda una compagnia privata (Celera Genomics) portando avanti un progetto genomico parallelo in ambito privato

2000: Collins e Venter annunciano di aver completato la bozza del genoma umano

2003: completamento ufficiale

Approccio di tipo gerarchico Collins

Erano disponibili delle librerie genomiche: raccolta di sequenze genomiche, tagliate e clonate all’interno di un vettore

cDNA più corto rispetto al DNA genomico, vengono utilizzati vettori diversi

Per poter clonare intero genoma ci vorrebbero miliardi di cloni, importanza della rappresentatività

plasmide non era utilizzabile YAK vettori di lievito, difficili da maneggiare

utilizzati BAC, basse copie, clonate anche sequenze altamente ripetute sono clonabili

Digestione è parziale, a livello di probabilità i frammenti sono parzialmente sovrapposti (poco enzima, tempo molto breve)Sequenza dei

BAC delle librerie genomiche, sequenza inserti dei più esterni, capire punti di overlapping

Prima screening delle librerie con marcatori, sequenza dei terminali in modo tale da conoscere gli estremi

Approccio estremamente lungo, ogni terminale BAC depositato in banca dati

Il sequenziamento clone per clone rende il processo di assemblaggio più facile

le librerie sono instabili e in molti casi il mappaggio è difficile, devono essere costruite delle librerie di subcloni

Approccio shot gun Celera

Preso genoma, rotto completamente in piccoli pezzi, clonati in plasmidi, sequenziati e messi insieme basandosi su terminali di BAC

messi nella banca dati

Invece di tagliare il genoma e creare una libreria distruggo il genoma non con frammenti sovrapposti ma digerendo completamente

sequenzio tutto e poi ricostruisco l’ordine delle sequenze usando come guida i dati del database pubblico

Il sequenziamento dell’interno genoma shot-gun è un processo che avviene in una fase sola e necessita della costruzione di poche

librerie

analisi computerizzata molto difficile

Certe sequenze non sono state sequenziate centromero

DNA altamente ripetuto in tandem, altamente instabile, impossibile da clonare e da rimettere insieme

queste sequenze non vengono trattenute nei vettori BAC

Annotazione di sequenza

Una volta che il genoma è sequenziato, annotazione:

- posizione dei geni

- struttura esoni-introni

- inizio e termine della trascrizione e posizione delle regioni di controllo

- eventuali splicing alternativi

- sequenza delle proteine codificate

- profili di espressione

- funzioni biologiche e processi

- identificazione dei geni ortologhi geni presenti in specie diverse derivanti da un gene ancestrale comune

paraloghi formatisi in seguito a duplicazione nell’ambito di una stessa specie

- sequenze ripetute

- polimorfismi

IL GENOMA UMANO

In un individuo esistono circa cellule ciascuna con un genoma nucleare e molti genomi mitocondriali

14

10 ⇾

Il genoma nucleare è composto da 6x10 coppie di basi suddivise in 23 cromosomi

9

Paradossi

1- Valore K

la complessità biologica non correla con il numero di cromosomi

uomo 46 cromosomi, farfalla 250 cromosomi

2- Valore C

contenuto di DNA aploide per cellula è detto C e si può esprimere in peso o in coppie di basi

caratterizza ed è una costante per ciascuna specie vivente

no correlazione tra il contenuto di DNA (C) e la complessità biologica, dimensioni del genoma non correlano con la complessità

Il contenuto minimo di DNA trovato in ciascuna classe aumenta con l’aumentare della complessità biologica, tuttavia, comparazioni

all’interno della stessa classe indicano la presenza di un eccesso di DNA rispetto alla quantità richiesta per codificare il set di

informazioni (proteine) necessarie

Dato un certo raggruppamento tassonomico, la dimensione minima del genoma è approssimativamente proporzionale alla

complessità dell’organismo

Solo una parte del genoma codifica per le informazioni fondamentali, alcune copie possono essere presenti in copia multipla e il

numero delle copie aumenta nelle specie con genomi più grandi

3- Valore N

il numero dei geni e la complessità degli organismi non sono correlati

esempio: uomo ha meno geni della mostarda

Assenza di correlazione tra il numero di geni e dimensione del genoma negli eucarioti

Cosa c’è alla base del paradosso del valore C?

Il paradosso del valore C è spiegato considerando:

I nostri geni sono discontinui, numero e grandezza degli introni

⇾ la quantità di DNA ripetitivo, che rappresenta la componente più abbondante della porzione di DNA non codificante

⇾ dei genomi eucariotici

I geni nei genomi diploidi esistono in due forme alleliche

In aggiunta a questo grado di ripetizione, approssimativamente il 40%, è rappresentato da sequenze di DNA ripetuto non alleliche:

- famiglie geniche funzionali

- famiglie di sequenze di DNA ripetuto non genico

- regioni inter-geniche La percentuale di DNA ripetitivo nei genomi dei singoli varia moltissimo:

- i procarioti contengono solo DNA non ripetitivo tutto codificante

- negli eucarioti inferiori il DNA ripetitivo è il 20%

- nelle cellule animali, fino al 50% del DNA è ripetitivo

- nelle piante e negli anfibi può rappresentare fino all’80% del totale

I genomi degli eucarioti hanno una densità genica molto ridotta

In media, i geni codificanti per le proteine occupano solo il 2-4% dell’intero genoma

La scarsa compattezza del genoma nucleare è dovuta alla struttura discontinua dei geni, con introni che

nei mammiferi possono raggiungere dimensioni intorno a 20-30 kb (ed oltre) e alla presenza di elementi

ripetuti

I geni eucariotici sono monocistronici, tuttavia strutture simili agli operoni batterici sono state descritte

in C. elegans

Nell’uomo densità genica (numero medio di geni per Mb): 11

⇾ media di introni per gene: 9

⇾ % del genoma occupata dalle ripetizioni intersperse: 44%

Nel genoma umano esistono geni duplicati famiglie di DNA ripetuto

⇾ - altamente ripetuto

- moderatamente ripetuto

All’aumentare della complessità genomica aumentano le sequenze altamente ripetute quindi alla base del paradosso C sono le sequenze

altamente ripetute

Come sono state scoperte le sequenze genomiche ripetute?

Studio delle cinetiche di riassociazione curve di C t

⇾ 0

Diverse dimensioni del genoma se paragoniamo genomi di diverse dimensioni a parità di concentrazione di DNA, il numero di

sequenze uniche sarà diverso

Presenza e quantità di DNA ripetuto se paragoniamo uguali concentrazioni di genomi di identiche dimensioni, le sequenze ripetute

riassoceranno più rapidamente

A parità di DNA ripetuto, la C t 1/2 è direttamente correlata con la quantità di DNA in un genoma C

0

Più un genoma è grande, meno copie ci saranno di una data sequenza in una certa massa di DNA

La cinetica di riassociazione del DNA degli eucarioti mostre tre tipi di componenti

- componenti veloci

- componenti intermedie

- componenti lente

L’aumento della complessità anatomico-funzionale correla con l’aumento della quantità di DNA ripetuto non codificante

questo suggerisce un ruolo funzionale (struttura/regolativo?) per il DNA non codificante

C t è il prodotto della concentrazione iniziale di DNA per il tempo in secondi

0

C t 1/2 (metà della reazione) il 50% del DNA è riassociato

0

Il DNA ripetuto si rinatura a bassi valori di C t più veloce rinaturazione

0

Le sequenze uniche nel genoma si rinaturano molto più lentamente

Funzione dei geni negli eucarioti superiori geni che codificano per polipeptidi

⇾ geni che codificano per RNA funzionali

Solo gli esoni vengono rappresentati in un trascritto di mRNA maturo

Numero degli esoni indice della complessità di un organismo

In Drosophila in genere i geni sono costituiti al massimo da 10 esoni, mentre nei mammiferi circa il 50% dei geni è costituito da oltre 10

esoni

Lunghezza media del gene umano è di 27 kb

gli esoni normalmente sono molto più corti degli introni

I geni umani codificanti per una proteina possono avere organizzazioni diverse

SRY 0,9 kb (1 esone), distrofina 2400 kb (79 esoni)

Più aumenta il numero degli introni, più la sequenza codificante è protetta dalla mutazione

non aumenta però la dimensione della proteina

La distribuzione dei geni nei cromosomi non è uniforme

i cromosomi hanno diverse dimensioni, a un cromosoma più grande non corrisponde maggiore numero di geni

Stimato che il numero di geni nel genoma umano sono circa 20.400

stimato utilizzando il sequenziamento genomico e CpG

Utilizzando sonde per CpG (56% dei geni umani hanno nei loro promotori questi elementi di sequenza) si è visto una differenziale

densità genica sui cromosomi

studio delle sequenze dei vari cromosomi correlando il contenuto in GC (corrisponde alle CpG islands)

- cromosoma 19 ricco in geni

- cromosomi 4 e 18 poveri in geni

Geni possono trovarsi in unica copia oppure possono appartenere a famiglie geniche originatesi per duplicazione (in questo caso

possono mantenere funzioni correlate e possono mappare nella stessa regione genica

Sonda = frazione purificata di isole CpG marcata con Texas red

se marca molto vedo rosso

Regioni subtelomeriche hanno il maggior contenuto in geni

I centromeri sono delle regioni totalmente prive di CG, sono poco accessibili per la trascrizione (eterocromatina costitutiva)

I bracci corti dei cromosomi acentrici (13, 14, 15, 21, 22) contengono i geni per gli rRNA

altamente ripetuti

Nei mammiferi sono stati descritti geni contenuti nei grandi introni di alcuni geni

spesso codificanti in antisenso rispetto al gene che li contiene

Esempi: - gene NF1

l’introne 27 (40 kb) contiene tre piccoli geni (2 esoni)

che vengono trascritti dal filamento opposto

- fattore VIII della coagulazione F8C

L’introne 22 contiene 2 geni che utilizzano la stessa isola CpG nelle due direzioni

il gene F8A viene trascritto utilizzando un filamento opposto, mentre F8B non solo va nella stessa direzione, ma sintetizza un corto

mRNA che ha un nuovo esone + gli esoni di F8C

Porzione genomica altamente conservata

⇾ 1,2% sequenze codificanti

⇾ 3-4% sequenze non codificanti

Scarsamente conservata

⇾ 6,7% DNA eterocromatico

⇾ 45% trasposoni (ripetuti)

⇾ 44% sequenze uniche nel genoma 30% genes and genes-related sequences

- 10% coding DNA

- 90% non coding DNA

70% DNA extragenico

- 20% DNA ripetuto

- 80% DNA unico

Organizzazione dei geni negli eucarioti superiori

Il 25% dei geni è presente in singola copia

La maggior parte dei geni è organizzata in famiglie geniche

l’organizzazione introni-esoni dei differenti membri di una famiglia è di solito identica, suggerendo che essi derivano da un singolo gene

ancestrale

Il 50-75% dei geni umani è costituita da membri di famiglie di sequenze di DNA che condividono tra loro un buon grado di omologia

Contenuti pseudogeni

FAMIGLIE GENICHE

Identificazione delle famiglie geniche mediante

- ibridazione molecolare (Souther blot, se trovo bande diverse da quella attesa vuol dire che la sonda ha ibridato da un’altra parte dove

la giunzione introne-esone era diversa

- sequenziamento

- PCR Perchè esistono le famiglie geniche?

Richiesta di grandi quantità di prodotto

Funzioni specializzate (esempio: immunoglobuline)

Espressione differenziale, geni espressi in momenti diveri

Il meccanismo principale alla base della duplicazione genica è il crossing-over ineguale, derivante

da piccoli errori d’appaiamento dei cromatidi omologhi durante la meiosi

Vantaggio evolutivo: le copie multiple di un gene possono andare incontro a diverse mutazioni

senza alterare il fenotipo dell’individuo

Le mutazioni che si accumulano all’interno dei geni duplicati possono portare alla formazione di

geni inattivi (pseudogeni) o produrre geni diversi da quello originario codificanti per proteine

con strutture e funzioni diverse (geni paraloghi)

Duplicazione genica: produzione di due copie identiche di un gene

• Famiglie di geni ripetuti

Unità di ripetizione è ripetuta in tandem circa 30-40 volte in 5 raggruppamenti (clusters) localizzati sul braccio corto dei cromosomi

acrocentrici (50 unità ripetute in tandem per raggruppamento)

Esempio: geni per rNA

• Famiglie geniche classiche

In un cluster, i singoli geni sono fisicamente distanziati tra loro, ma comunque rimangono strettamente raggruppati al punto di essere

soggetti a un meccanismo di regolazione comune (geni per α e β globina)

I diversi geni di una famiglia possono accumulare mutazioni e quindi

acquisire nuove caratteristiche

La globina fetale γ-chain ha un’affinità maggiore per l’ossigeno,

permettendo quindi al sangue fetale di catturare ossigeno dal sangue

materno

Mutazioni nel promotore possono alterare il pattern di espressione

ɛ: sacco vitellino

γ: sacco vitellino e fegato fetale

α e β: midollo osseo adulto

Quando si presentano raggruppati la loro espressione può essere coordinata da

un’unica regione di controllo LCR

I singoli geni sono fisicamente distanziati tra loro, ma comunque rimangono

strettamente raggruppati al punto di essere soggetti a un meccanismo di

regolazione comune

Famiglie costituite da membri che presentano un elevato grado di omologia di sequenza per tutta la lunghezza del gene o almeno per la

parte codificante

contengono spesso pseudogeni non processati o frammenti genici

Geni HLA di classe I famiglia genica classica

Famiglie classiche oltre che in cluster, possono essere intersperse

Non vi è una relazione fisica tra i membri di una famiglia localizzazione su più cromosomi

possono derivare da eventi di duplicazione genica oppure da eventi di trasposizione

Aldolasi, PAX, NF1, catena pesante della ferritina, actina, G3PDH, HOX

• Famiglie geniche che codificano per prodotti con domini altamente conservati

No omologia di sequenza a livello del DNA, ma hanno regioni altamente conservate omologie di dominio

omologie tra proteine, geni codificano per prodotti con brevissimi motivi amminoacidici conservati

Organizzazione interspersa (esempio: domini DEAD)

• Superfamiglie

I geni codificano prodotti funzionalmente correlati, ma che non mostrano elevati gradi di omologia di sequenza né motivi amminoacidici

conservati

I membri della famiglia delle Ig sono proteine di superficie con strutture e domini simili tra loro

Come si sono formati i geni ripetuti e le famiglie geniche?

Meccanismo della duplicazione genica

Un crossing-over ineguale durante la meiosi genera un cromosoma con due copie di un gene e un cromosoma senza copie del gene

corrispondente

Il meccanismo di ricombinazione avviene solitamente a livello di corte sequenze ripetute (elementi Alu) polimerasi scivola

La duplicazione genica può determinare può determinare l’acquisizione di nuove funzioni o la formazione di uno pseudogene

PSEUDOGENE ᴪ

Copia non funzionale di un gene

Classificati come:

- pseudogeni non processati geni tronchi e frammenti genici

- pseudogeni processati pseudogeni processati espressi

• Pseudogeni non processati (classici)

Strutture che contengono delle vere e proprie strutture geniche (esoni/promotori ecc) ma che derivano da eventi di duplicazioni

ineguali in tandem e hanno accumulato mutazioni

In questa classe rientrano i frammenti genici (geni tronchi) in alcuni casi possono essere espressi

- convenzionali: contengono esoni e introni, ma anche codoni di stop inappropriati, derivano da eventi di duplicazione in tandem

- espressi: derivano da eventi di duplicazione genica

subito dopo la duplicazione entrambe le coppie dei geni saranno funzionali, in seguito però si ha un accumulo di mutazioni

dannose fino alla perdita completa dell’espressione di una copia

• Pseudogeni processati

Copie non funzionali delle sequenze esoniche di un gene e si trovano nelle famiglie dei geni interspersi

In genere all’estremità presentano una sequenza oligodA/dT (coda di poliA)

La loro origine sembrerebbe dovuta all’integrazione di una sequenza di DNA originatasi per azione di una trascrittasi inversa

Derivano da geni trascritti dall’RNA polimerasi II e in genere non sono espressi perché privi delle sequenze del promotore

- espressi: se l’integrazione a livello cromosomico avviene in un punto vicino a un promotore e si ha la loro espressione

gli pseudogeni processati espressi, se si inseriscono vicino a un promotore di un altro gene (loro sono delle copie dell’mRNA, q

Anteprima
Vedrai una selezione di 9 pagine su 37
Genetica molecolare umana Pag. 1 Genetica molecolare umana Pag. 2
Anteprima di 9 pagg. su 37.
Scarica il documento per vederlo tutto.
Genetica molecolare umana Pag. 6
Anteprima di 9 pagg. su 37.
Scarica il documento per vederlo tutto.
Genetica molecolare umana Pag. 11
Anteprima di 9 pagg. su 37.
Scarica il documento per vederlo tutto.
Genetica molecolare umana Pag. 16
Anteprima di 9 pagg. su 37.
Scarica il documento per vederlo tutto.
Genetica molecolare umana Pag. 21
Anteprima di 9 pagg. su 37.
Scarica il documento per vederlo tutto.
Genetica molecolare umana Pag. 26
Anteprima di 9 pagg. su 37.
Scarica il documento per vederlo tutto.
Genetica molecolare umana Pag. 31
Anteprima di 9 pagg. su 37.
Scarica il documento per vederlo tutto.
Genetica molecolare umana Pag. 36
1 su 37
D/illustrazione/soddisfatti o rimborsati
Acquista con carta o PayPal
Scarica i documenti tutte le volte che vuoi
Dettagli
SSD
Scienze biologiche BIO/18 Genetica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher Tireoglobulina di informazioni apprese con la frequenza delle lezioni di Genetica molecolare e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Milano o del prof Marozzi Anna.
Appunti correlati Invia appunti e guadagna

Domande e risposte

Hai bisogno di aiuto?
Chiedi alla community