Anteprima
Vedrai una selezione di 7 pagine su 28
Appunti di Bioinformatica  Pag. 1 Appunti di Bioinformatica  Pag. 2
Anteprima di 7 pagg. su 28.
Scarica il documento per vederlo tutto.
Appunti di Bioinformatica  Pag. 6
Anteprima di 7 pagg. su 28.
Scarica il documento per vederlo tutto.
Appunti di Bioinformatica  Pag. 11
Anteprima di 7 pagg. su 28.
Scarica il documento per vederlo tutto.
Appunti di Bioinformatica  Pag. 16
Anteprima di 7 pagg. su 28.
Scarica il documento per vederlo tutto.
Appunti di Bioinformatica  Pag. 21
Anteprima di 7 pagg. su 28.
Scarica il documento per vederlo tutto.
Appunti di Bioinformatica  Pag. 26
1 su 28
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

Analisi del DNA tramite sequenziamento di nuova generazione

In questa slide vedremo tutte le analisi che si possono fare partendo da un sequenziamento di nuova generazione. Indipendentemente dalla piattaforma o tecnologia utilizzata, otterremo delle reads che dovranno essere sottoposte a controllo qualità, seguito da una fase di trimming. Dopodiché, possiamo intraprendere tre strade diverse:

  1. Mappaggio: si mappano le nostre reads sul genoma di riferimento se lo scopo è fare un'analisi Tn-seq, RNA-seq o chiamata di varianti.
  2. Metagenomica: analisi di comunità microbiche presenti in un campione.
  3. Assemblaggio: si assembla un genoma de novo e successivamente si effettua la predizione genica e genomica comparativa.

Le tecnologie di sequenziamento di nuova generazione che abbiamo visto sono:

  • ILLUMINA: si costruisce una library. Partendo dal mio DNA, lo frammento e a ognuno dei frammenti lego degli adattatori che sono piccole sequenze complementari a delle sequenze adese a dei cluster. Con questo frammento faccio in modo che l'adattatore legato al

frammento va a legarsi all'adattatore sul mio cluster, avverrà poi una fase di PCR in cui i frammenti acquisiranno una caratteristica forma a ponte, e si avrà un'amplificazione di un numero TOT di cicli che impostiamo noi nella macchina. Dopodiché si ha il sequenziamento vero e proprio.

Come avviene? Possiamo fare un Single End Sequencing o Paired End Sequencing. Il secondo è molto utile, soprattutto quando vogliamo assemblare genomi ex novo e prevede la lettura di un singolo frammento in forward e in reverse—> quindi ogni frammento viene sequenziato due volte, in una direzione e poi in un'altra.

In base a quanto è lungo il frammento, se per esempio ho un frammento di 500pb e faccio un sequenziamento di 150pb, partendo da un lato o dall'altro, andando a sequenziare sia da dx che da sx 150pb, io comunque avrò una zona centrale che non verrà sequenziata. Se invece il mio frammento è di 200, facendo un

sequenziamento di 150pb avrò una parte centrale sequenziata due volte—> questi sono dati importanti che serviranno successivamente.

Per capire come avviene il sequenziamento vero e proprio io ho che:

Vengono utilizzati dei nucleotidi colorati con una molecola fluorescente e colorati diversamente l'uno dall'altro, e mano a mano che ogni nucleotide si lega alla molecola di DNA emetterà fluorescenza, di un colore corrispondente alla base che è stata legata.

Questa fluorescenza viene percepita da una macchina che a sua volta percepisce l'intensità e la colorazione e ci restituirà l'informazione, ci dirà cioè che base è stata incorporata in quella posizione.

L'altra tecnologia è PacBio. A differenza di Illumina ci fornisce dei frammenti molto più lunghi—> Illumina ci restituisce delle reads che sono più corte, ma ha come pro il fatto di avere un'alta coverage.

ovvero ogni regione/posizione/base della sequenza viene letto tantissime volte—> per questo illumina viene sempreutilizzato in caso di chiamata di varianti. Mentre Pac Bio fa un sequenziamento a singola molecolae quindi il DNA non viene frammentato—> viene inserito nella macchina intero. Grazie a una DNApolimerasi attaccata alla base riesce a sequenziare il lamento complementare ottenendo readsmolto lunghe. Il suo limite è quello di non generare profondità e quindi coverage. Lo stesso vale per Nanopore. Ha il vantaggio di avere piccole dimensioni e permette il sequenziamento in tempo reale. Essenzialmente è basato sulla presenza di una matrice, con un poro all'interno della quale passa la molecola. Prima di attraversare il poro però, nelle vicinanze di quest'ultimo si trova un'elicasi che scinde la doppia elica facendo in modo che il DNA passi sotto forma di singola elica. Mano a mano che la singola molecola di DNA passaattraverso questo poro, entra in una zona che è caratterizzata da un potenziale. In base a quanto è grossa la base che entra in questa zona, si avrà un calo del potenziale, cioè una variazione, che viene registrata dalla macchina e in base a questo cambiamento si capisce se è passata un'adenina, una timina o altre. Anche in questo caso otterremo sequenze molto lunghe ma con poca profondità. Andremo quindi a scegliere la tecnologia di sequenziamento in base al nostro scopo di analisi. Se andiamo a fare chiamata di varianti utilizzeremo Illumina, che ha un'alta coverage (la coverage si calcola facendo il rapporto tra il numero di basi sequenziate/ numero di basi del genoma). Con Illumina abbiamo che ogni base viene letta anche 100, 200 o 300 volte e viene indicata come 100x ecc. Con PacBio ad esempio la coverage è solamente di 4x. Per quanto riguarda la lunghezza delle reads, con Illumina abbiamo lunghezza max di reads di 300pb.con la sequenza, gli errori possono accumularsi e influenzare la precisione complessiva del sequenziamento. Pertanto, è importante prendere in considerazione la qualità dei dati ottenuti da entrambe le tecnologie durante l'analisi dei risultati. Inoltre, è importante notare che il sequenziamento Illumina produce reads più corte rispetto a PacBio. Questo può essere un vantaggio quando si tratta di assemblare il genoma di riferimento, poiché le reads corte possono essere facilmente allineate e assemblate in modo accurato. Tuttavia, le reads lunghe prodotte da PacBio possono essere utili per risolvere regioni complesse o ripetute del genoma, che potrebbero essere problematiche per le reads corte. In conclusione, entrambe le tecnologie hanno i loro vantaggi e svantaggi e possono essere utilizzate in modo complementare per ottenere una visione più completa del genoma di interesse.necessario, quale delle due reads è la prima o la seconda.Nella seconda riga troviamo la sequenza di nucleotidi che compongono la reads.Nella terza riga troviamo un simbolo + che indica semplicemente che la riga successiva contiene la qualità dei nucleotidi della reads.Nella quarta riga troviamo la qualità dei nucleotidi della reads, rappresentata da una serie di caratteri che indicano la probabilità di errore per ciascun nucleotide. Per formattare il testo utilizzando tag html, puoi utilizzare i seguenti tag: - `` per evidenziare il testo in grassetto - `` per evidenziare il testo in corsivo - `` per inserire il testo in apice - `` per inserire il testo in pedice - `
` per andare a capo - `` per formattare il testo come codice Ecco un esempio di come potresti formattare il testo utilizzando i tag html: ```html

Nel sequenziamento ci sarà più probabilità di ottenere degli errori. Ovviamente quando facciamo la nostra analisi e i nostri studi, dobbiamo tenere conto di costi e tempi del sequenziamento e anche che tipo di campione abbiamo. Es. per fare un genoma completo utilizzerò reads che mi favoriscono l'assemblaggio come PacBio, per fare ricerca di varianti Illumina e per fare metagenomica possibilmente entrambi.

Tutte queste tecnologie di sequenziamento abbiamo detto che ci forniscono le cosiddette reads e queste sono sottoforma di un formato standard che è un formato di testo chiamato FILE FASTQ.

Nel FILE FASTQ per ogni reads ci sono quattro righe:

  1. Nella prima troviamo una @ e un codice che mi permette di capire due cose importanti. Innanzitutto il cluster della zona della piattaforma in cui vado a fare il sequenziamento con Illumina a cui appartiene la reads, e poi abbiamo un numero 1/2 che mi indica se è stato fatto un sequenziamento paired-end, e se necessario, quale delle due reads è la prima o la seconda.
  2. Nella seconda riga troviamo la sequenza di nucleotidi che compongono la reads.
  3. Nella terza riga troviamo un simbolo + che indica semplicemente che la riga successiva contiene la qualità dei nucleotidi della reads.
  4. Nella quarta riga troviamo la qualità dei nucleotidi della reads, rappresentata da una serie di caratteri che indicano la probabilità di errore per ciascun nucleotide.
``` Ricorda di includere i tag ``, `` e `` per creare un documento HTML completo.

quella è la reads in forward o in reverse;

Nella seconda riga abbiamo la sequenza;

Nella terza riga un segno +;

Nella quarta riga c'è la qualità che noi assegnamo a ogni nucleotide, cioè la qualità di chiamata.

Cos'è?

Abbiamo visto che, nel caso di Illumina, si ha questa emissione di fluorescenza, questa fotocamera rileva la fluorescenza e ciò che noi visualizziamo per poi ricostruire la sequenza è l'elettroferogramma - cioè una serie di picchi di diverso colore che ci indicano la base che è presente in quella posizione. Ovviamente non tutte le chiamate saranno limpide e non visualizzeremo per tutte le chiamate un picco alto di un unico colore, ma possiamo visualizzare in un'unica posizione un picco più alto di un colore che magari ci indica l'adenina e un picco più piccolo di un altro colore che ci indica la citosina. In questo caso, avendo un picco più

granderispetto all'altro, noi andiamo ad inserire in quella posizione la base corrispondente al picco piùalto con una certezza abbastanza alta. Cosa può succedere però? Che in una posizione ci siano tre picchi di tre colori diversi che hanno la stessa ampiezza e che la macchina per caso inserisca una base piuttosto che un'altra, ma potrebbero starci anche le altre due. Questo, in caso in cui quella posizione sia importante perché magari è la posizione di una certa mutazione, può portarci a errori nella nostra deduzione di analisi. Perché questi errori possono avvenire?
  • Per motivi legati alla macchina (va troppo veloce e il segnale giusto viene sporcato da un segnale sbagliato);
  • Perché una delle sequenze resta indietro e abbiamo una sfasatura della percezione delle basi.
Dobbiamo considerare anche che gli errori si propagano, soprattutto andando verso la fine delle reads. Cosa facciamo? Ci sono degli algoritmi, chiamati algoritmi

BASE CALLING che vanno ad associare ad ogni baseinserita, un valore che indica la qualità di quella chiamata.

Noi parleremo di un tipo di questo algoritmo, cioè PHRED—> associa il cosiddetto PHREDSCORE a ogni base incorporata.

Per associare questo score considera: l’intensità del segnale, data da ampiezza e altezza delpicco.

Nell’esempio di prima in cui abbiamo un picco molto grande e un altro sempre nella stessaposizione ma più piccolo, noi associamo una qualità abbastanza alta a quella base.

Se invece osserviamo più picchi della stessa altezza nella stessa posizione, questa avrà unaqualità più bassa.

Di solito si vanno a considerare le posizioni con un PHRED SCORE maggiore di trenta.

Con questo score inferiore a 30, quella chiamata viene considerata scarsa e non viene presa inconsiderazione.

Quindi noi andiamo a calcolare la probabilità di ottenere quella base in quel punto

qualità delle basi sequenziate e assicurarci che non ci siano errori di sequenziamento. Per fare ciò, utilizziamo il formato FASTQ, che contiene le informazioni sulla sequenza nucleotidica e sulla qualità associata a ciascun nucleotide. Nel formato FASTQ, ogni sequenza nucleotidica è rappresentata da quattro righe: 1. La prima riga inizia con il simbolo "@" seguito da un identificatore univoco per la sequenza. 2. La seconda riga contiene la sequenza nucleotidica. 3. La terza riga inizia con il simbolo "+" e può contenere informazioni aggiuntive (opzionale). 4. La quarta riga contiene i valori di qualità associati a ciascun nucleotide della sequenza. I valori di qualità sono rappresentati da caratteri ASCII che corrispondono a un punteggio di qualità. Questi punteggi possono variare da 0 a 93, dove un punteggio più alto indica una maggiore qualità. Per esempio, la sequenza nucleotidica "ATCG" con valori di qualità "HHHH" sarebbe rappresentata nel formato FASTQ come: ``` @identificatore ATCG + HHHH ``` In questo modo, possiamo controllare la qualità delle basi sequenziate e identificare eventuali errori o problemi durante il sequenziamento.lunghezza delle reads. Infatti con Illumina le reads devono essere tutte lunghe uguali. Esistono de
Dettagli
Publisher
A.A. 2022-2023
28 pagine
SSD Scienze biologiche BIO/18 Genetica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher bia252525 di informazioni apprese con la frequenza delle lezioni di Bioinformatica con laboratorio e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Firenze o del prof Fondi Marco.