Sequenziamento dei genomi
L’obiettivo finale di un “Progetto Genoma” consiste nell’ottenere la sequenza di DNA completa dell’organismo studiato, idealmente integrata con mappe genetiche e/o fisiche del genoma, in modo tale da poter localizzare i geni e altre sequenze caratteristiche all’interno della sequenza stessa.
Il sequenziamento del genoma è, dunque, una fase preliminare che predispone all’annotazione genica e all’identificazione genica: il tutto è finalizzato alla mutagenesi, ossia modificare la sequenza e studiare gli effetti sul fenotipo.
Sequenziamento
Fine ultimo del sequenziamento è la generazione e la creazione di sequenze genomiche e di sequenze di geni espressi. Ad oggi, lo si può considerare una metodica di routine per:
- Identificare polimorfismi e geni d’interesse;
- Controllare l’identità di cloni;
- Controllare la fedeltà di nuove mutazioni create;
- Controllare l’identità dei prodotti di PCR;
- Valutare l’esattezza regioni ligate ex novo.
Metodo della degradazione chimica: Maxam-Gilbert
Storicamente, il metodo della degradazione chimica, noto come metodo Maxam-Gilbert, rappresenta il primo metodo di sequenziamento. Nel metodo Maxam-Gilbert la sequenza è determinata in base alla lunghezza delle molecole di cui è noto il nucleotide terminale.
Si parte da una preparazione di DNA campione double strand sottoposto a trattamento con reagenti chimici che tagliano la molecola in corrispondenza di specifici nucleotidi. Consta di sei fasi:
- Il campione di DNA a doppia elica da sequenziare viene denaturato per separare i due filamenti di DNA.
- I filamenti a singola elica vengono marcati al terminale 5' con l'isotopo radioattivo 32P.
- Il DNA a singola elica marcato radioattivamente viene suddiviso in 4 aliquote che vengono sottoposte a 4 diverse combinazioni di trattamento con DMS o idrazina per ottenere la rottura specifica del DNA in posizione G, G e A, C e T, C.
- I frammenti derivanti dalle 4 combinazioni di trattamento vengono caricati in 4 pozzetti e separati per elettroforesi su gel di poliacrilammide.
- Solo i frammenti con l'estremità 5' marcata vengono visualizzati attraverso autoradiografia come delle bande radioattive di lunghezze diverse.
- La sequenza del DNA viene ricostruita a partire dall'estremità 5' a quella 3' (cioè dal frammento più corto, in basso, a quello più lungo, in alto) in base alla posizione delle bande nei 4 diversi pozzetti, che corrisponde al taglio specifico a livello di una delle 4 basi nucleotidiche.
Il sequenziamento con metodo Maxam-Gilbert comporta una serie di svantaggi, primo fra tutti la necessità di eseguire almeno quattro reazioni di sequenziamento separate, una per ciascun nucleotide.
Metodo a terminazione di catena: Sanger
Esistono numerose tecniche per il sequenziamento del DNA, ma quella di gran lunga più popolare è il metodo a terminazione di catena, noto come Sanger. Il sequenziamento a terminazione di catena comporta la sintesi di nuovi filamenti di DNA, complementari ad uno stampo a singolo filamento. La sintesi di un singolo filamento non prosegue indefinitamente perché la miscela di reazione contiene piccole quantità di ciascuno dei quattro dideossinucleotidi che bloccano l’allungamento.
Ottenimento dello stampo di DNA a singolo filamento
- Clonaggio in un vettore plasmidico. In generale, il frammento di DNA che deve essere inserito nel vettore viene tagliato con la stessa nucleasi di restrizione che ha tagliato il plasmide e quindi aggiunto al DNA plasmidico linearizzato: si forma il plasmide ricombinante. Il plasmide ricombinante viene, poi, introdotto in cellule batteriche all’interno delle quali si replica, riproducendosi in un enorme numero di copie con l’inserto di DNA esogeno. Il DNA che ne risulta è a doppio filamento, per cui viene convertito a singolo filamento mediante denaturazione con alcali o bollitura. È una tecnica di routine; un inconveniente può essere dovuto alla difficoltà di preparare DNA plasmidico privo di contaminazioni, costituite da piccole quantità di DNA e RNA batterici, che potrebbero fungere da stampi o inneschi errati nel saggio di sequenziamento.
- Clonaggio in un vettore fagico M13. I batteriofagi M13 possiedono un genoma a DNA a singolo filamento che può essere convertito, in seguito ad infezione del Escherichia coli, batterio in una forma replicativa a doppio filamento. Il vettore a doppio filamento, a sua volta, dirige la sintesi di copie a singolo filamento che vengono impacchettate in particelle fagiche e secrete dalla cellula. I vettori di clonaggio basati su M13 sono molecole di DNA a doppio filamento corrispondenti alla forma replicativa del genoma M13. Questi possono essere manipolati esattamente allo stesso modo di un vettore di clonaggio plasmidico. Uno svantaggio è rappresentato dal fatto che il sistema può essere utilizzato soltanto con frammenti di DNA non più lunghi di 3 Kb.
-
PCR con un solo primer. Si tratta di una metodica simile alla PCR (DNA polimerasi termostabile e cicli di denaturazione-appaiamento-sintesi di DNA). Anche in questo caso, si assiste alle fasi di:
- Denaturazione della doppia elica del DNA stampo in due singole eliche (alla temperatura di 95 °C);
- Appaiamento (annealing) degli inneschi oligonucleotidici alle sequenze di DNA a singola elica ad essi complementari e localizzati alle estremità del frammento bersaglio;
- Estensione degli inneschi mediante aggiunta di nucleotidi nella direzione 5’-3’ ad opera della DNA polimerasi che porta alla sintesi di una nuova elica complementare al DNA stampo.
Sequenziamento con metodo di Sanger
In generale, il sequenziamento con metodo di Sanger necessita di:
- Un primer oligonucleotidico che si appai al DNA stampo (il primer svolge inoltre la funzione critica di stabilire la regione della molecola stampo che verrà sequenziata);
- Un DNA templato, ossia uno stampo a singolo filamento della molecola di DNA da sequenziale;
- Una DNA polimerasi stampo-dipendente;
- Una miscela di quattro deossiribonucleotidi trifosfato e un dideossinucleotide trifosfato;
- Un marcatore fluorescente che si leghi a ciascun dideossinucleotide (per es. 35S-dATP). Nel sequenziamento automatico, il deossinucleotide radioattivo è stato sostituito con dideossinucleotidi fluorescenti.
Il campione di DNA da sequenziale viene clonato e, successivamente, denaturato per ottenere lo stampo a singolo filamento. Questo è suddiviso in quattro provette di sintesi con l'aggiunta di:
- Un primer specifico complementare al filamento da sequenziare e marcato radioattivamente;
- Una DNA polimerasi;
- Una miscela dei quattro dNTP;
- Un ddNTP diverso in ognuna delle quattro provette e in concentrazione 1:100 rispetto al dNTP corrispondente.
Il legame al filamento stampo guida l’incorporazione dei deossinucleotidi trifosfato: finché viene incluso un dNTP, continua l’estensione della catena, ma occasionalmente verrà incorporato un ddNTP e si avrà la terminazione della catena. Ciascuna delle quattro reazioni base-specifiche genererà una serie di frammenti di DNA marcati e di dimensioni diverse, con un’estremità 5' comune ed estremità 3' variabili (a seconda della posizione 3' in cui è stato incorporato il ddNTP).
Anticamente, i frammenti erano visualizzati attraverso autoradiografia come bande radioattive di lunghezze diverse. In questo caso, vengono condotte in parallelo quattro reazioni di sintesi: al termine della reazione ogni provetta conterrà nuovi frammenti di DNA marcati di lunghezza diversa che vengono poi caricati in 4 pozzetti diversi e separati con elettroforesi su gel di poliacrilammide. La sequenza del DNA viene ricostruita a partire dall'estremità 5' a quella 3' (cioè dal frammento più corto a quello più lungo) in base alla posizione delle bande nei diversi pozzetti, che corrisponde alla terminazione della sintesi a livello di una delle quattro basi nucleotidiche per incorporazione di un ddNTP.
Tecnica di sequenziamento automatizzato
Nella tecnica di “sequenziamento automatizzato” il deossinucleotide radioattivo è sostituito con dideossinucleotidi fluorescenti: difatti, il DNA viene marcato facendogli incorporare un primer o ddNTP a cui sono attaccati dei fluorofori. L’uso di fluorofori differenti per ciascuna base implica che i frammenti possano essere caricati in un'unica corsia e, soprattutto, che la sequenza possa essere letta in modo automatizzato.
In una tipica reazione di sequenza è possibile sequenziare frammenti di dimensioni fino a 800 paia di basi (500 bp dimensione ottimale). Il sequenziamento automatizzato comporta qualche difficoltà per frammenti di grandi dimensioni. Se l’inserto di DNA è più lungo di 750 bp, l’uso di un singolo primer fornisce la sequenza di una sola estremità dell’inserto (A). Un modo per ottenere una sequenza più lunga consiste nell’effettuare una serie di saggi di sequenziamento, ciascuno con un “primer interno” diverso che si appaia all’interno dell’inserto (B).
All’interno della provetta, il primer si appaia all’estremità in 3’-OH del filamento di DNA e rende disponibile il proprio terminale idrossilico per la reazione di polimerizzazione, catalizzata dalla DNA polimerasi. Quando la catena nascente incorpora un ddNTP, la reazione di polimerizzazione si arresta e si ha la terminazione della catena; ciò avverrà più volte, in posizioni diverse della sequenza, generando una serie di frammenti interrotti di lunghezza variabile.
I prodotti di reazione vengono caricati in singoli tubi capillari del diametro di circa 50 μm contenenti un polimero di corsa (elettroforesi capillare). Durante l’attraversamento del capillare i vari frammenti di DNA vengono colpiti da un raggio laser, focalizzato su uno specifico punto del gel. Man mano che i singoli frammenti di DNA superano quel punto, il laser eccita i vari fluorocromi che marcano i singoli frammenti. Ciascuno dei quattro fluorocromi emette una diversa lunghezza d’onda. Una cellula fotoelettrica rileva sequenza, tipo e intensità delle varie emissioni luminose e il tutto viene registrato in forma grafica.
La sequenza dei picchi corrisponde alla sequenza dei nucleotidi: il tipo, ossia il colore del picco, corrisponde al tipo di base azotata. Ciò permette la costruzione di un elettroferogramma, nel quale ogni picco ed ogni colore corrisponde ad un determinato nucleotide. Difatti, la sequenza di DNA è determinata da un software in grado di interpretare le misure di fluorescenza registrate dal rilevatore e di elaborarle opportunamente. La lettura dei tracciati grezzi o non elaborati (raw data) viene anche detta identificazione delle basi (base-calling) ed è oggi effettuata tramite software dedicati che leggono automaticamente le basi. I software allineano anche le sequenze simili e forniscono una base intuitiva per identificare eventuali errori (correzione di bozze o editing).
Mentre leggono i tracciati, i software assegnano punteggi di probabilità all’accuratezza di identificazione di ciascuna base e le informazioni ottenute vengono usate nei passaggi successivi della procedura di allineamento. Normalmente l’inizio e la fine di un elettroferogramma non sono di buone qualità. Generalmente, una sequenza ha una sua affidabilità per una grandezza non superiore alle 500-600 bp.
Gli errori di sequenziamento possono essere provocati da problemi molto frequenti. Le prime 50 basi di una lettura sono indistinguibili dal rumore di fondo a causa della migrazione anomala di brevi frammenti di DNA che contengono agglomerati di coloranti. Inoltre, all’inizio avviene l’allineamento dello stampo con il primer: questo double strand non è denaturato, per cui il sequenziatore tende a leggere due basi per ciascuna posizione. In aggiunta, i tracciati diventano progressivamente meno uniformi con l’avanzare della corsa: aumentano, difatti, gli effetti della diffusione molecolare e contemporaneamente diminuiscono le differenze relative di massa tra frammenti successivi. La parte centrale del tracciato presenta una lettura pulita, mentre la fine della sequenza è nuovamente di pessima qualità.
Phred: algoritmo di base-calling
Phred è l’algoritmo di base-calling più utilizzato. Ad oggi la qualità delle sequenze di DNA viene espressa utilizzando il suo score. Phred, assegna un punteggio di probabilità di accuratezza di identificazione di ogni base mentre legge i tracciati elettroforetici. Phred analizza gli elettroferogrammi e applica metodi statistici per esaminare l’andamento delle quattro basi nella regione che precede e segue ogni picco.
Il processo di analisi è suddiviso in tappe:
- Fusione delle quattro tracce corrispondenti ai quattro spettri di fluorescenza in un unico file.
- Basandosi sulla distanza media tra i picchi in particolari regioni di sequenza, il programma determina il punto dove si attende di trovare un picco, in relazione ai picchi vicini.
- Il programma assegna “N” ad una posizione in cui non è possibile identificare alcuna base. La N può essere assegnata tendenzialmente per due ragioni: la sequenza è sporca, non solo in quel dato punto ma per diverse decine di basi; se N è presente in una sequenza pulita ci si trova di fronte ad un polimorfismo (per esempio un individuo eterozigote per cui, in fase di sequenza, i due alleli non vengono identificati).
- Poiché in alcuni punti della sequenza, la risoluzione potrebbe essere minore, si usano valori soglia di altezza minima e massima per determinare la presenza reale di un picco.
Ciascun tracciato è accompagnato da due righe di sequenza: un’identificazione automatica, sotto al tracciato, e un’identificazione corretta manualmente, sopra al tracciato. (A) La sequenza mostra rumori di fondo (ossia notevole variabilità) dati dalla lettura delle prime 30 basi (più o meno) della corsa elettroforetica. (B) Le due file intermedie presentano un tratto con due sequenze, sia per SNP sia per inserzione/delezione (indel). (C) Dopo circa 800 bp si osserva in genere una netta diminuzione della qualità della sequenza.
Next Generation Sequencing (NGS)
Dopo anni in cui il Sanger sequencing ha rappresentato il gold standard della diagnostica genetica molecolare, le tecniche di nuova generazione (Next Generation Sequencing - NGS) stanno per prendere il sopravvento. La NGS è anche chiamata high-throughput sequencing (sequenziamento ad alta resa) perché, a differenza del sequenziamento tradizionale col metodo Sanger, consente di sequenziare moltissimi frammenti in parallelo.
Le tre piattaforme di nuova generazione attualmente di maggiore impatto sono:
- Il 454 della Roche
- Il Solexa dell’Illumina
- Il Solyd dell’Applied Biosystem
Rispetto alle tecniche basate sul metodo di Sanger, queste nuove tecniche di sequenziamento sono caratterizzate da una più alta velocità ed elevate prestazioni che permettono di ridurre drasticamente i tempi ed i costi. Inoltre, con questi nuovi sistemi:
- Non è più necessaria la fase di elettroforesi, poiché la lettura della sequenza è effettuata step-by-step;
- È sempre necessaria la fase di amplificazione del DNA, ma viene effettuata in nanoreattori in emulsione.
Nonostante la minore lunghezza dei frammenti analizzati, la possibilità di effettuare un gran numero di letture in parallelo permette di ottenere in poco tempo una significativa mole di dati:
- Metodo di Sanger produce 6,5 Mb/day; necessita, inoltre, di alcune settimane di preparazione dei campioni;
- Genome Sequencer FLX instrument (454 Roche) fornisce 100-500 Mb/8 ore; occorrono pochi giorni di preparazione dei campioni;
- Genome Analyzer II (Illumina) produce 3 Gb/5 days; servono pochi giorni di preparazione dei campioni;
- TMSOLiD 3 (Applied Biosystem) restituisce 20 Gb/7 days; sono necessari pochi giorni di preparazione dei campioni.
Il sistema Roche 454 si basa sulla tecnologia del pyrosequencing. Quest’ultimo si basa sulla rilevazione del pirofosfato rilasciato dall’incorporazione di un nucleotide durante la sintesi del DNA. Il primer si ibrida allo stampo a singola elica, amplificato mediante PCR e viene incubato con gli enzimi DNA polimerasi, ATP solforilasi, luciferasi e apirasi, i substrati (dNTP), adenosin 5’-fosfosolfato (APS) e luciferina. Il primo dei quattro dNTP viene aggiunto alla reazione. La DNA polimerasi catalizza l’incorporazione del dNTP al filamento di DNA, se è complementare alla base del filamento stampo. Ogni evento di incorporazione è accompagnato dal rilascio di pirofosfato (PPi) in quantità equimolare a quella del nucleotide incorporato.
In presenza di adenosina 5’ fosfosolfato (APS), l’ATP sulforilasi converte quantitativamente il PPi ad ATP:
ATP sulfurilasi + APS → PPi + ATP
L’ATP, a sua volta, guida la conversione, catalizzata dalla luciferasi, di luciferina ad ossiluciferina con conseguente produzione di luce di intensità proporzionale alla quantità di ATP. La luce prodotta è rilevata permettendo la determinazione della sequenza del DNA analizzato.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
-
Sequenziamento del genoma
-
Sequenziamento DNA
-
Sequenziamento di genomi, Biotecnologie Cellulari
-
9. Sequenziamento del dna: metodo di sanger e ngs (454 genome sequencer flx instrument)