PROGETTO GENOMA UMANO
Due eventi fondamentali hanno portato al sequenziamento:
- sistema automatizzato in grado di sequenziare
- PCR, amplificazione delle sequenze che poi vengono sequenziate
1986: gruppo di scienziati (tra cui Dulbecco) pensano a un progetto finalizzato al sequenziamento del genoma umano
NIH (national institutes of healt) e DOE
1990: viene istituto sotto la guida di Watson il consorzio internazionale HGP e vengono stanziati 3 miliardi di dollari in 15 anni
coinvolti diversi laboratori nel mondo terminato nel 2003, prima del previsto grazie al sequenziamento
⇾
Prima per sequenziare era necessario subclonaggio in un plasmide, a monte del polylinker messi dei primer, sequenziato tutto ciò che
c'è dopo
Obiettivi:
- identificare tutti i geni contenuti nel DNA umano circa 20.000/25.000 geni
⇾
scoprire i vari geni e le mutazioni a loro associate che si riscontrano in patologie (malattie ereditarie monogeniche)
- determinare la sequenza delle 3 miliardi di basi che compongono il DNA umano
- sviluppare tecnologie di sequenziamento più rapide ed economiche
- catalogare queste informazioni in database informatici
- sviluppare programmi per l’analisi delle sequenze
- rispondere a quesiti etici, legali e sociali legati allo svolgimento del progetto
1992: Venter fonda una compagnia privata (Celera Genomics) portando avanti un progetto genomico parallelo in ambito privato
2000: Collins e Venter annunciano di aver completato la bozza del genoma umano
2003: completamento ufficiale
Approccio di tipo gerarchico Collins
⇾
Erano disponibili delle librerie genomiche: raccolta di sequenze genomiche, tagliate e clonate all’interno di un vettore
cDNA più corto rispetto al DNA genomico, vengono utilizzati vettori diversi
Per poter clonare intero genoma ci vorrebbero miliardi di cloni, importanza della rappresentatività
plasmide non era utilizzabile YAK vettori di lievito, difficili da maneggiare
⇾
utilizzati BAC, basse copie, clonate anche sequenze altamente ripetute sono clonabili
Digestione è parziale, a livello di probabilità i frammenti sono parzialmente sovrapposti (poco enzima, tempo molto breve)Sequenza dei
BAC delle librerie genomiche, sequenza inserti dei più esterni, capire punti di overlapping
Prima screening delle librerie con marcatori, sequenza dei terminali in modo tale da conoscere gli estremi
Approccio estremamente lungo, ogni terminale BAC depositato in banca dati
Il sequenziamento clone per clone rende il processo di assemblaggio più facile
le librerie sono instabili e in molti casi il mappaggio è difficile, devono essere costruite delle librerie di subcloni
Approccio shot gun Celera
⇾
Preso genoma, rotto completamente in piccoli pezzi, clonati in plasmidi, sequenziati e messi insieme basandosi su terminali di BAC
messi nella banca dati
Invece di tagliare il genoma e creare una libreria distruggo il genoma non con frammenti sovrapposti ma digerendo completamente
sequenzio tutto e poi ricostruisco l’ordine delle sequenze usando come guida i dati del database pubblico
Il sequenziamento dell’interno genoma shot-gun è un processo che avviene in una fase sola e necessita della costruzione di poche
librerie
analisi computerizzata molto difficile
Certe sequenze non sono state sequenziate centromero
⇾
DNA altamente ripetuto in tandem, altamente instabile, impossibile da clonare e da rimettere insieme
queste sequenze non vengono trattenute nei vettori BAC
Annotazione di sequenza
Una volta che il genoma è sequenziato, annotazione:
- posizione dei geni
- struttura esoni-introni
- inizio e termine della trascrizione e posizione delle regioni di controllo
- eventuali splicing alternativi
- sequenza delle proteine codificate
- profili di espressione
- funzioni biologiche e processi
- identificazione dei geni ortologhi geni presenti in specie diverse derivanti da un gene ancestrale comune
⇾
paraloghi formatisi in seguito a duplicazione nell’ambito di una stessa specie
⇾
- sequenze ripetute
- polimorfismi
IL GENOMA UMANO
In un individuo esistono circa cellule ciascuna con un genoma nucleare e molti genomi mitocondriali
14
10 ⇾
Il genoma nucleare è composto da 6x10 coppie di basi suddivise in 23 cromosomi
9
Paradossi
1- Valore K
la complessità biologica non correla con il numero di cromosomi
uomo 46 cromosomi, farfalla 250 cromosomi
2- Valore C
contenuto di DNA aploide per cellula è detto C e si può esprimere in peso o in coppie di basi
caratterizza ed è una costante per ciascuna specie vivente
no correlazione tra il contenuto di DNA (C) e la complessità biologica, dimensioni del genoma non correlano con la complessità
Il contenuto minimo di DNA trovato in ciascuna classe aumenta con l’aumentare della complessità biologica, tuttavia, comparazioni
all’interno della stessa classe indicano la presenza di un eccesso di DNA rispetto alla quantità richiesta per codificare il set di
informazioni (proteine) necessarie
Dato un certo raggruppamento tassonomico, la dimensione minima del genoma è approssimativamente proporzionale alla
complessità dell’organismo
Solo una parte del genoma codifica per le informazioni fondamentali, alcune copie possono essere presenti in copia multipla e il
numero delle copie aumenta nelle specie con genomi più grandi
3- Valore N
il numero dei geni e la complessità degli organismi non sono correlati
esempio: uomo ha meno geni della mostarda
Assenza di correlazione tra il numero di geni e dimensione del genoma negli eucarioti
Cosa c’è alla base del paradosso del valore C?
Il paradosso del valore C è spiegato considerando:
I nostri geni sono discontinui, numero e grandezza degli introni
⇾ la quantità di DNA ripetitivo, che rappresenta la componente più abbondante della porzione di DNA non codificante
⇾ dei genomi eucariotici
I geni nei genomi diploidi esistono in due forme alleliche
In aggiunta a questo grado di ripetizione, approssimativamente il 40%, è rappresentato da sequenze di DNA ripetuto non alleliche:
- famiglie geniche funzionali
- famiglie di sequenze di DNA ripetuto non genico
- regioni inter-geniche La percentuale di DNA ripetitivo nei genomi dei singoli varia moltissimo:
- i procarioti contengono solo DNA non ripetitivo tutto codificante
⇾
- negli eucarioti inferiori il DNA ripetitivo è il 20%
- nelle cellule animali, fino al 50% del DNA è ripetitivo
- nelle piante e negli anfibi può rappresentare fino all’80% del totale
I genomi degli eucarioti hanno una densità genica molto ridotta
In media, i geni codificanti per le proteine occupano solo il 2-4% dell’intero genoma
La scarsa compattezza del genoma nucleare è dovuta alla struttura discontinua dei geni, con introni che
nei mammiferi possono raggiungere dimensioni intorno a 20-30 kb (ed oltre) e alla presenza di elementi
ripetuti
I geni eucariotici sono monocistronici, tuttavia strutture simili agli operoni batterici sono state descritte
in C. elegans
Nell’uomo densità genica (numero medio di geni per Mb): 11
⇾ media di introni per gene: 9
⇾ % del genoma occupata dalle ripetizioni intersperse: 44%
⇾
Nel genoma umano esistono geni duplicati famiglie di DNA ripetuto
⇾ - altamente ripetuto
- moderatamente ripetuto
All’aumentare della complessità genomica aumentano le sequenze altamente ripetute quindi alla base del paradosso C sono le sequenze
altamente ripetute
Come sono state scoperte le sequenze genomiche ripetute?
Studio delle cinetiche di riassociazione curve di C t
⇾ 0
Diverse dimensioni del genoma se paragoniamo genomi di diverse dimensioni a parità di concentrazione di DNA, il numero di
⇾
sequenze uniche sarà diverso
Presenza e quantità di DNA ripetuto se paragoniamo uguali concentrazioni di genomi di identiche dimensioni, le sequenze ripetute
⇾
riassoceranno più rapidamente
A parità di DNA ripetuto, la C t 1/2 è direttamente correlata con la quantità di DNA in un genoma C
0
Più un genoma è grande, meno copie ci saranno di una data sequenza in una certa massa di DNA
La cinetica di riassociazione del DNA degli eucarioti mostre tre tipi di componenti
- componenti veloci
- componenti intermedie
- componenti lente
L’aumento della complessità anatomico-funzionale correla con l’aumento della quantità di DNA ripetuto non codificante
questo suggerisce un ruolo funzionale (struttura/regolativo?) per il DNA non codificante
C t è il prodotto della concentrazione iniziale di DNA per il tempo in secondi
0
C t 1/2 (metà della reazione) il 50% del DNA è riassociato
0
Il DNA ripetuto si rinatura a bassi valori di C t più veloce rinaturazione
⇾
0
Le sequenze uniche nel genoma si rinaturano molto più lentamente
Funzione dei geni negli eucarioti superiori geni che codificano per polipeptidi
⇾
⇾ geni che codificano per RNA funzionali
Solo gli esoni vengono rappresentati in un trascritto di mRNA maturo
Numero degli esoni indice della complessità di un organismo
In Drosophila in genere i geni sono costituiti al massimo da 10 esoni, mentre nei mammiferi circa il 50% dei geni è costituito da oltre 10
esoni
Lunghezza media del gene umano è di 27 kb
gli esoni normalmente sono molto più corti degli introni
I geni umani codificanti per una proteina possono avere organizzazioni diverse
SRY 0,9 kb (1 esone), distrofina 2400 kb (79 esoni)
Più aumenta il numero degli introni, più la sequenza codificante è protetta dalla mutazione
non aumenta però la dimensione della proteina
La distribuzione dei geni nei cromosomi non è uniforme
i cromosomi hanno diverse dimensioni, a un cromosoma più grande non corrisponde maggiore numero di geni
Stimato che il numero di geni nel genoma umano sono circa 20.400
stimato utilizzando il sequenziamento genomico e CpG
Utilizzando sonde per CpG (56% dei geni umani hanno nei loro promotori questi elementi di sequenza) si è visto una differenziale
densità genica sui cromosomi
studio delle sequenze dei vari cromosomi correlando il contenuto in GC (corrisponde alle CpG islands)
- cromosoma 19 ricco in geni
- cromosomi 4 e 18 poveri in geni
Geni possono trovarsi in unica copia oppure possono appartenere a famiglie geniche originatesi per duplicazione (in questo caso
possono mantenere funzioni correlate e possono mappare nella stessa regione genica
Sonda = frazione purificata di isole CpG marcata con Texas red
se marca molto vedo rosso
Regioni subtelomeriche hanno il maggior contenuto in geni
I centromeri sono delle regioni totalmente prive di CG, sono poco accessibili per la trascrizione (eterocromatina costitutiva)
I bracci corti dei cromosomi acentrici (13, 14, 15, 21, 22) contengono i geni per gli rRNA
altamente ripetuti
Nei mammiferi sono stati descritti geni contenuti nei grandi introni di alcuni geni
spesso codificanti in antisenso rispetto al gene che li contiene
Esempi: - gene NF1
l’introne 27 (40 kb) contiene tre piccoli geni (2 esoni)
che vengono trascritti dal filamento opposto
- fattore VIII della coagulazione F8C
L’introne 22 contiene 2 geni che utilizzano la stessa isola CpG nelle due direzioni
il gene F8A viene trascritto utilizzando un filamento opposto, mentre F8B non solo va nella stessa direzione, ma sintetizza un corto
mRNA che ha un nuovo esone + gli esoni di F8C
Porzione genomica altamente conservata
⇾ 1,2% sequenze codificanti
⇾ 3-4% sequenze non codificanti
Scarsamente conservata
⇾ 6,7% DNA eterocromatico
⇾ 45% trasposoni (ripetuti)
⇾ 44% sequenze uniche nel genoma 30% genes and genes-related sequences
- 10% coding DNA
- 90% non coding DNA
70% DNA extragenico
- 20% DNA ripetuto
- 80% DNA unico
Organizzazione dei geni negli eucarioti superiori
Il 25% dei geni è presente in singola copia
La maggior parte dei geni è organizzata in famiglie geniche
l’organizzazione introni-esoni dei differenti membri di una famiglia è di solito identica, suggerendo che essi derivano da un singolo gene
ancestrale
Il 50-75% dei geni umani è costituita da membri di famiglie di sequenze di DNA che condividono tra loro un buon grado di omologia
Contenuti pseudogeni
FAMIGLIE GENICHE
Identificazione delle famiglie geniche mediante
- ibridazione molecolare (Souther blot, se trovo bande diverse da quella attesa vuol dire che la sonda ha ibridato da un’altra parte dove
la giunzione introne-esone era diversa
- sequenziamento
- PCR Perchè esistono le famiglie geniche?
Richiesta di grandi quantità di prodotto
Funzioni specializzate (esempio: immunoglobuline)
Espressione differenziale, geni espressi in momenti diveri
Il meccanismo principale alla base della duplicazione genica è il crossing-over ineguale, derivante
da piccoli errori d’appaiamento dei cromatidi omologhi durante la meiosi
Vantaggio evolutivo: le copie multiple di un gene possono andare incontro a diverse mutazioni
senza alterare il fenotipo dell’individuo
Le mutazioni che si accumulano all’interno dei geni duplicati possono portare alla formazione di
geni inattivi (pseudogeni) o produrre geni diversi da quello originario codificanti per proteine
con strutture e funzioni diverse (geni paraloghi)
Duplicazione genica: produzione di due copie identiche di un gene
• Famiglie di geni ripetuti
Unità di ripetizione è ripetuta in tandem circa 30-40 volte in 5 raggruppamenti (clusters) localizzati sul braccio corto dei cromosomi
acrocentrici (50 unità ripetute in tandem per raggruppamento)
Esempio: geni per rNA
• Famiglie geniche classiche
In un cluster, i singoli geni sono fisicamente distanziati tra loro, ma comunque rimangono strettamente raggruppati al punto di essere
⇾
soggetti a un meccanismo di regolazione comune (geni per α e β globina)
I diversi geni di una famiglia possono accumulare mutazioni e quindi
acquisire nuove caratteristiche
La globina fetale γ-chain ha un’affinità maggiore per l’ossigeno,
permettendo quindi al sangue fetale di catturare ossigeno dal sangue
materno
Mutazioni nel promotore possono alterare il pattern di espressione
ɛ: sacco vitellino
γ: sacco vitellino e fegato fetale
α e β: midollo osseo adulto
Quando si presentano raggruppati la loro espressione può essere coordinata da
un’unica regione di controllo LCR
I singoli geni sono fisicamente distanziati tra loro, ma comunque rimangono
strettamente raggruppati al punto di essere soggetti a un meccanismo di
regolazione comune
Famiglie costituite da membri che presentano un elevato grado di omologia di sequenza per tutta la lunghezza del gene o almeno per la
parte codificante
contengono spesso pseudogeni non processati o frammenti genici
Geni HLA di classe I famiglia genica classica
Famiglie classiche oltre che in cluster, possono essere intersperse
⇾
Non vi è una relazione fisica tra i membri di una famiglia localizzazione su più cromosomi
⇾
possono derivare da eventi di duplicazione genica oppure da eventi di trasposizione
Aldolasi, PAX, NF1, catena pesante della ferritina, actina, G3PDH, HOX
• Famiglie geniche che codificano per prodotti con domini altamente conservati
No omologia di sequenza a livello del DNA, ma hanno regioni altamente conservate omologie di dominio
⇾
omologie tra proteine, geni codificano per prodotti con brevissimi motivi amminoacidici conservati
Organizzazione interspersa (esempio: domini DEAD)
• Superfamiglie
I geni codificano prodotti funzionalmente correlati, ma che non mostrano elevati gradi di omologia di sequenza né motivi amminoacidici
conservati
I membri della famiglia delle Ig sono proteine di superficie con strutture e domini simili tra loro
Come si sono formati i geni ripetuti e le famiglie geniche?
Meccanismo della duplicazione genica
Un crossing-over ineguale durante la meiosi genera un cromosoma con due copie di un gene e un cromosoma senza copie del gene
corrispondente
Il meccanismo di ricombinazione avviene solitamente a livello di corte sequenze ripetute (elementi Alu) polimerasi scivola
⇾
La duplicazione genica può determinare può determinare l’acquisizione di nuove funzioni o la formazione di uno pseudogene
PSEUDOGENE ᴪ
Copia non funzionale di un gene
Classificati come:
- pseudogeni non processati geni tronchi e frammenti genici
⇾
- pseudogeni processati pseudogeni processati espressi
⇾
• Pseudogeni non processati (classici)
Strutture che contengono delle vere e proprie strutture geniche (esoni/promotori ecc) ma che derivano da eventi di duplicazioni
ineguali in tandem e hanno accumulato mutazioni
In questa classe rientrano i frammenti genici (geni tronchi) in alcuni casi possono essere espressi
- convenzionali: contengono esoni e introni, ma anche codoni di stop inappropriati, derivano da eventi di duplicazione in tandem
- espressi: derivano da eventi di duplicazione genica
subito dopo la duplicazione entrambe le coppie dei geni saranno funzionali, in seguito però si ha un accumulo di mutazioni
dannose fino alla perdita completa dell’espressione di una copia
• Pseudogeni processati
Copie non funzionali delle sequenze esoniche di un gene e si trovano nelle famiglie dei geni interspersi
In genere all’estremità presentano una sequenza oligodA/dT (coda di poliA)
La loro origine sembrerebbe dovuta all’integrazione di una sequenza di DNA originatasi per azione di una trascrittasi inversa
Derivano da geni trascritti dall’RNA polimerasi II e in genere non sono espressi perché privi delle sequenze del promotore
- espressi: se l’integrazione a livello cromosomico avviene in un punto vicino a un promotore e si ha la loro espressione
gli pseudogeni processati espressi, se si inseriscono vicino a un promotore di un altro gene (loro sono delle copie dell’mRNA, q
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.