Indice
- Introduzione
- Breve storia della biologia molecolare
- Principali tecniche di biologia molecolare che ne hanno determinato lo sviluppo
- Il genoma umano
- Il DNA mitocondriale
- Il DNA nucleare
- Gli RNA funzionali
- I geni
- DNA ricombinante
- I vettori
- I plasmidi come vettori
- Il batteriofago come vettore λ
- Clonaggio tramite cosmidi e YAC
- Le librerie genomiche
- Ibridazione del DNA e applicazioni
- Le sonde
- Screening di genoteche
- Proteine eterologhe di fusione
- Analisi di una soluzione di DNA
- Analisi del DNA
- Southern Blotting
- La PCR
- Metodi per la rivelazione di SNP a localizzazione nota
- PCR-RFLP
- PCR-ARMS
- PCR-ASO
- HRM
- Metodi per la rivelazione di SNP a localizzazione non nota
- PCR-SSCP
- Sequenziamento del genoma
- Sequenziamento secondo Sanger
- Next Generation Sequencing
- Pyrosequencing
- Illumina/Solexa
- ABI Solid
- Third Generation Sequencing
- Il Progetto Genoma Umano
- La mappa genetica
- La mappa fisica
- Variabilità genetica
- SNP
- INDEL
- VNTR
- CNV
- A Thousand Genome Project
- La genetica forense
- Confronto del DNA
- Indagini di parentela
- Banche dati per profili genetici
- SNP come marcatori
- Incidenza dell'ambiente e ricerche sull'aggressività
- Analisi dell'RNA e studi di espressione genica
- Studi di espressione genica
- Nothern Blotting
- RNAasi Protection
- Ibridazione in situ
- RT-PCR
- RealTime-PCR
- DNA microarray
- Organismi geneticamente modificati
- Organismi transgenici
- Clonazione tramite trasferimento nucleare
- Knock-out di un gene
- Knock-in di un gene
- Knockdown di un gene
- Studi di espressione genica
- Individuazione dei geni malattia
- Definizione della regione candidata
- Ottenimento dei cloni
- Definizione delle priorità
- Tecniche alternative
- FISH
- CGH
- Analisi del prodotto proteico
- Terapia genetica
Introduzione
Breve storia della biologia molecolare
- 1865 → Mendel intuisce i meccanismi dell'ereditarietà
- 1879 → Miescher scopre la nucleina
- 1828 → Esperimento di Griffith. Griffith utilizza due ceppi dello stesso batterio, uno S con un particolare rivestimento e in grado di provocare polmonite nell'organismo ospite ed un altro ceppo R innocuo. I topi iniettati con S vivi morivano di polmonite e quelli iniettati con R rimanevano sani, così come quelli iniettati con S uccisi tramite calore; al contrario, topi iniettati con S morti e R vivi morivano. Griffith ipotizzò l'esistenza di un principio trasformante che permetteva ai non patogeni di sviluppare il rivestimento polisaccaridico che assicurava protezione dal sistema immunitario del topo.
- 1935 → Lavene caratterizza il DNA e l'RNA e suppone una struttura tetranucleotidica in cui le quattro basi sono disposte una dietro l'altra in serie.
- 1940 → Regola di Chargaff: nel DNA le quantità di A, T, C e G sono uguali
- 1944 → Esperimento di Avery. Estrae il DNA e le proteine dal ceppo R e poi inietta i batteri del ceppo R prima insieme col DNA di S e poi con le proteine di S e vede che solo quando R e DNA di S sono iniettati insieme il topo muore: il principio trasformante è il DNA.
- 1953 → Esperimento di Harshey e Chase. Prendono dei virus e marcano radioattivamente il fosforo (è nel DNA e non nelle proteine) in modo che nel momento in cui il DNA virale si replica con quello batterico le cellule figlie abbiano al loro interno dei fosfori marcati. Infetto le cellule col virus marcato e poi con un frullatore separo i capsidi dai batteri e infine centrifugo per separare in base al PM (i batteri vanno in fondo perché sono più pesi); la radioattività è tutta in basso e nella progenie virale tutto il DNA ha P marcato. Se ripeto con S marcato vedo che la radioattività è nel sopranatante, nelle proteine, che quindi non hanno a che fare con l'infezione della cellula.
- 1952 → Wilkins e Franklin rivelano con la cristallografia a raggi X la struttura del DNA
- 1953 → Modello di Watson e Crick
- 1958 → Rosenthal e Stahl dimostrano che la replicazione del DNA è semiconservativa
- 1958 → Dogma centrale della biologia: le informazioni genetiche sono contenute nel DNA e vengono espresse tramite la trascrizione in RNA e la successiva traduzione in proteine atte allo svolgimento delle funzioni.
- 1966 → Nirenberg e Matthai decifrano il codice genetico
- 1970 → Aggiornamento del dogma centrale con l'introduzione della retrotrascrizione a opera delle retrotrascrittasi, presenti nei retrovirus
Principali tecniche di biologia molecolare che ne hanno determinato lo sviluppo
- 1958 isolamento delle DNA polimerasi
- 1960 prime tecniche d'ibridazione
- 1969 ibridazione in situ
- 1970 scoperta degli enzimi di restrizione e della trascrittasi inversa
- 1977 sequenziamento del DNA secondo Sanger
- 1983 prima sintesi di oligonucleotidi
- 1985 invenzione della PCR
- 1986 sviluppo dell'ibridazione in situ fluorescente (FISH)
- 1988 scoperta della DNA polimerasi termostabile-ottimizzazione della PCR
- 1992 ideazione della Real Time PCR
- 1995 primo genoma sequenziato → dal 1990 al 2003 è stato attivo il Progetto Genoma Umano (vedi avanti)
- 1996 prima applicazione dei DNA microarray
- 2008 sistemi di sequenziamento di next generation
Cosa significa per la medicina?
Una grande opportunità per:
- Comprendere come i singoli geni possono influenzare lo stato di salute, di malattia o la risposta al trattamento
- Comprendere come gruppi di geni lavorino insieme nell'influenzare lo stato di salute di un paziente
- Comprendere come ottimizzare il trattamento per ciascun paziente
La genomica in medicina cerca le correlazioni tra cambiamenti nel DNA e nell'RNA con le caratteristiche delle malattie umane e la risposta al trattamento.
Il genoma umano
Il DNA mitocondriale
È costituito da una molecola circolare di DNA a doppio filamento, presente in ogni mitocondrio ed unico per ogni organulo, in quanto possono esserci piccole differenze tra i vari mitocondri. Ha una lunghezza di circa 16000-16600 bp e presenta 22 geni per tRNA, 2 per l'rRNA e 13 codificanti proteine, anche se la maggior parte delle proteine presenti nella matrice mitocondriale sono trascritte a livello citoplasmatico. Si replica normalmente e presenta due zone di ipervariabilità, importanti come marcatori.
Il DNA nucleare
È composto da 3 miliardi di paia basi organizzate in 46 cromosomi, visibili come tali solamente in metafase; normalmente è visibile come commistione di eucromatina, meno compatta e trascritta, e eterocromatina, più compatta e per questo non trascritta.
Di tutto il DNA, quanto viene trascritto? Sono presenti 22000 geni, in media di 27 kb ciascuno, per un totale di 594 milioni di nucleotidi; circa il 20% del DNA è trascritto. Ma quanto è effettivamente tradotto in proteine? Si hanno circa 1400 nt codificanti per ogni gene, quindi circa 3x107 nt, pari a l'1% del genoma. Bisogna considerare che il DNA non codifica solo per proteine, in quanto ci sono sequenze che vengono trascritte e poi usate in quanto RNA. Poiché circa il 5% del DNA è altamente conservato, ossia è suscettibile di mutazioni solo in minima parte, e poiché il DNA codificante si ritiene faccia parte di questa percentuale perché svolge funzioni importanti, si pensa che il restante 4% serva per la trascrizione in RNA funzionale.
L'insieme degli RNA trascritti in un determinato momento è detto trascrittoma ed è stato sequenziato; si deve fare attenzione a non confondere il trascrittoma con la parte di genoma che viene trascritta, perché il trascrittoma comprende solo i tratti che vengono poi effettivamente utilizzati come stampo per RNA funzionale, che non comprendono gli introni, sequenze che vengono trascritte ma poi eliminate col fenomeno dello splicing. Il confronto tra trascrittoma e genoma trascritto è anzi molto utile, perché identificando le sequenze in comune posso individuare gli esoni e gli introni. Le sequenze in comune sono identificabili tramite BLAST, uno strumento online messo a disposizione dalla NCBI che permette di confrontare tratti di sequenze con l'intero genoma in modo da trovare possibili matching. Un altro strumento utile è ORF Finder, che permette di individuare in una sequenza le Open Reading Frames cercando tutte le sequenze tra un codone AUG e uno di stop (UAG, UGA, UAA) e seleziona poi quelle sufficientemente lunghe - e leggibili in triplette - per dare vita a proteine.
Poiché il DNA è degenerato, non posso da una proteina risalire alla sequenza nucleotidica; si utilizzano così oligonucleotidi che rappresentano tutte le sequenze che possono dar vita a quella determinata serie amminoacidica e si capisce qual è quella giusta in base alla complementarietà col DNA stesso.
Il progetto EncODE si pone come obiettivo quello di individuare tutte le sequenze codificanti per elementi funzionali.
Quanti sono i geni?
Prima del sequenziamento del genoma umano (HGS) si stimava che fossero 70000-100000, dopo il rilascio della prima bozza tra 30 e 40 mila, dopo il rilascio definitivo sicuramente meno di 25mila; ad oggi se ne stimano circa 22 mila, di cui 6mila codificanti per RNA funzionali (forse, sono potenzialmente di più).
Gli RNA funzionali
- mRNA → trascritto usato come stampo per la sintesi proteica
- rRNA → va a costituire i ribosomi, composti da RNA 18s, 5s, 28s e 5,8s, dove s sta per coefficente di sedimentazione ed è indice delle dimensioni della molecola
- tRNA → servono per la sintesi, portano l'anticodone
- snRNA → sembrano intervenire nel processo di splicing e se ne conoscono molti anche se sicuramente sono di più
- snoRNA → partecipano alla sintesi dell'rRNA
- miRNA → entrano in gioco nella regolazione genica perché sono sequenze antisenso che si legano al 3' degli mRNA impedendone la traduzione; vengono prodotti nel nucleo come forcina e sono poi processati e sono tessuto-specifici con diverso tipo di sviluppo e sono come minimo 70 famiglie. Si pensa che eventuali patologie possano essere legate a questi RNA.
I geni
Un gene è composto da esoni ed introni e grazie a questa divisione si possono verificare modificazioni post-trascrizionali ma antecedenti alla traduzione:
- Splicing alternativo → riguarda più del 35% dei geni e consiste nel rimescolare le sequenze esoniche in modo da avere poi trascritti finali diversi che daranno ovviamente origine a proteine diverse dette isoforme
- Poliadenilazione alternativa → per lo stesso trascritto l'aggiunta della coda di poli-A può avvenire in punti diversi e quindi il trascritto stesso sarà più o meno lungo
I geni possono avere varie dimensioni e quindi possono essere:
- Grandi, in termini di:
- Estensione → distrofina, 24 Mb
- Lunghezza della sequenza codificata → titina, 80-780 bp
- Numero di esoni → titina, 178
- Lunghezza media degli esoni → titina, 17 kb
- Molto piccoli → codificano per piccoli RNA, solitamente tRNA o microRNA (tessuto-specifici, con ruolo regolatorio)
I geni possono essere multicopia, ossia possono essere costituiti dalla stessa sequenza ripetuta più volte di seguito. Esempi sono:
- Geni codificanti istoni → ne servono tantissimi e la velocità di trascrizione è costante e quindi si usano molte copie, di preciso 20 per ogni tipo di istone
- Geni per rRNA 18s e 28s, presenti in 280 copie
- Geni per rRNA 5s, presenti in 200 copie
Le famiglie geniche sono insiemi di geni che codificano per proteine con sequenza amminoacidica simile, ma non identica; anche i geni saranno simili tra loro. Un esempio sono le beta-globine, in quanto ne esistono forme estremamente simili tra loro espresse in momenti diversi della vita: tutte queste proteine provengono dalla stessa famiglia genica. Si pensa che all'inizio esistesse una sola copia del gene che poi si è duplicata più e più volte in presenza di fenomeni di divergenza come la duplicazione genica, un errore mitotico che porta ad avere due copie del gene su un cromosoma e nessuna sull'altro; se a fenomeni di questo tipo si aggiungono delle mutazioni si assiste progressivamente ad una stabilizzazione delle mutazioni stesse. Se una sequenza genica nel tempo accumula un numero eccessivo di mutazioni si trasforma in uno pseudogene, ossia un gene privo di funzionalità. Nonostante mantengano caratteristiche tipiche dei geni normali come il promotore o le isole GC o i siti di splicing, gli pseudogeni non sono in grado di codificare per sequenze proteiche funzionali in quanto le eccessive mutazioni hanno portato ad avere trascritti nonsenso che non possono essere tradotti, a causa per esempio di sequenze che bloccano il processo o altre riconosciute come errate.
Gli pseudogeni possono essere:
- Duplicati se si formano per fenomeni di duplicazione o per errori di trascrizione e nonostante mostrino ancora introni residui le mutazioni li rendono inutili
- Processati se corrispondono alla sequenza del gene priva di introni, come se l'RNA fosse stato retrotrascritto a splicing avvenuto.
Per tipizzare il DNA si procede con esperimenti di riassociazione: si denatura la molecola a 95°C per poi abbassare la T e lasciare che i filamenti si riassocino e si nota che il 50-60% del genoma ha una bassa velocità di riassociazione, che è indice di quanto la sequenza sia ripetuta. Si riconoscono:
- Sequenze a singola copia → la sequenza è ripetuta una sola volta, si ha bassa probabilità di incontro e riassociazione
- Sequenze moderatamente ripetute → sono il 25-40% del totale, hanno velocità di riassociazione intermedia
- Sequenze altamente ripetute → sono il 10-15%, alta velocità di riassociazione.
Come si può vedere, la maggior parte dei geni codificanti proteine sono a singola copia e oggi si sa che sequenze a singola copia corrispondenti a geni diversi si trovano spesso allo stesso livello.
Nel DNA con sequenze ripetute si possono riconoscere sequenze ripetute in tandem, ovvero regioni costituiti da sequenze che vanno da 2 a centinaia di nucleotidi e che vengono ripetute una dietro l'altra. Si opera distinzione in base alla lunghezza delle sequenze stesse:
- DNA satellite: da 20 a 200 nt, si concentra nei centromeri e qualcuno pensa che possa essere importante per l'aggancio al fuso mitotico
- DNA minisatellite: da 20 a 50 nt, è presente in moltissime regioni dei cromosomi, in special modo nelle zone telomeriche, dove probabilmente fungono da sito di riconoscimento per le telomerasi eucariotiche, o nelle VNTR (Variable Number Tandem Repeats), zone che variano numero di ripetizioni anche tra cromosomi omologhi
- DNA microsatellite: da 2 a 5 nt, detti anche STR, si trovano su tutti i cromosomi, non codificano, hanno funzione biologica sconosciuta e sono ottimi markers molecolari grazie alla loro ipervariabilità (come anche i minisatellite). Sono inoltre altamente polimorfi, ossia hanno numero di ripetizioni diverso anche tra alleli.
All'interno del genoma ci sono poi anche sequenze ripetute non in tandem, dette trasposoni o elementi trasponibili in quanto sono interdispersi e possono saltare letteralmente da un punto del genoma ad un altro; sono pericolosi perché possono interferire con sequenze anche molto importanti oppure possono modificare l'espressione di alcuni geni modificandone le sequenze regolatrici. Si distinguono:
- Trasposoni a DNA, semplicemente tratti di DNA che si spostano
- Retrotrasposoni, che si trascrivono in un intermedio a RNA che viene poi retrotrascritto a DNA in un punto diverso del genoma. I retrotrasposoni a loro volta possono essere:
- LTR (Long Terminal Repeats), nei quali alle estremità troviamo lunghe sequenze ripetute
- Non LTR, privi delle suddette sequenze. Anche questi si dividono in:
- Autonomi, in grado di sintetizzare autonomamente per la propria retrotrascrittasi e quindi capaci di reinserirsi da soli nei cromosomi. I più frequenti sono i trasposoni LINE, lunghe sequenze che da sole costituiscono il 21% del genoma e delle quali però solo gli L1 possono effettivamente trasporre
- Non autonomi, incapaci di codificare per la propria retrotrascrittasi. I più frequenti sono i SINE, più corti e poco trascritti che costituiscono l'11% del genoma; le più rappresentate sono le cosiddette sequenze ALU (sono tagliate dall'endonucleasi ALU-1), che sono caratteristiche del genoma umano e quindi vengono anche usate talvolta per stabilire se un campione di sangue è umano o meno.
DNA ricombinante
La tecnologia del DNA ricombinante permette di isolare e amplificare tratti di DNA di interesse, come ad esempio geni all'interno di molecole di DNA molto grandi come il genoma umano, mediante la produzione di molte copie identiche di tali tratti. Questa tecnologia ha permesso di costruire le genoteche, dalle quali si è partiti per il sequenziamento del DNA, ed è basata sulla clonazione del DNA stesso. Il DNA che si vuole copiare viene inserito in una molecola-vettore, ossia molecole di DNA trasportatrici di sequenze che vengono inserite in cellule ospiti e che presentano quattro caratteristiche principali:
- Possono replicarsi indipendentemente dal segmento di DNA che trasportano
- Contengono siti di restrizione non ripetuti
- Portano un marcatore selezionabile (es. gene ampr – vedi dopo)
- Sono facilmente recuperabili dalla cellula ospite
Fu Allan Campbell nel 1962 ad avere l'intuizione sul fatto che si potesse impiantare DNA esogeno in...
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.