Appunti di genomica applicata
Capitolo 1 – Introduzione alla gestione di dati genomici
Il primo problema da affrontare nella gestione di dati genomici è la mole di dati ottenuti (output) per singola sequenza; infatti si parla di decine di GB di dati ottenuti e non elaborati per singola sequenza, tanto che ad oggi i laboratori di genomica di medie dimensioni di solito necessitano di diversi TB di spazio di archiviazione per gestire i dati di sequenziamento per le analisi attuali e spazio aggiuntivo per il backup dei dati ottenuti. I requisiti di spazio su disco stanno aumentando nel tempo, poiché aumentano anche gli output delle piattaforme di sequenziamento ed in aggiunta vi è la necessità di archiviare sia i dati di sequenziamento grezzi sia i dati di sequenziamento «puliti» (in quanto i dati vengono generalmente cancellati/spostati in un archivio pubblico solo dopo che le analisi sono state completate e i risultati sono stati pubblicati).
I file generati dalle analisi sono perciò di grande dimensione in quanto anche per ogni file non elaborato ottenuto in media vengono generati dei file nel complesso di circa 3 volte la dimensione iniziale.
Un secondo problema nella gestione dei dati genomici è dato dalla loro analisi, in quanto il potere computazionale richiesto non è trascurabile, tanto che di solito sono necessarie più CPU per eseguire algoritmi di assemblaggio e mappatura de novo. Per caricare i dati di sequenziamento è necessaria una memoria RAM elevata quindi l'analisi genomica non è qualcosa che di solito puoi eseguire sul tuo laptop (può essere fatto mediante l’accesso remoto ad un server però, in quanto attraverso il nostro schermo possiamo visualizzare i dati generati dai calcoli eseguiti da un’altra CPU remota).
Un terzo problema è dato invece dalla compatibilità del formato dei dati, in quanto ogni piattaforma di sequenziamento genera file di output che devono essere interpretati per essere «letti» dalle applicazioni a valle e ogni applicazione di terze parti utilizza i propri formati file. Lo spostamento avanti e indietro tra un'applicazione e un'altra richiede la capacità di leggere formati diversi e a tal proposito vengono usati script (ad esempio BioPerl, Phyton, etc) per la conversione del formato in bioinformatica; comunque diverse applicazioni bioinformatiche dispongono di script integrati che consentono tali conversioni in una versione automatizzata.
Il quarto problema è dato dalla possibilità di utilizzo di molti strumenti autonomi diversi, sviluppati da persone diverse e svolgono attività che possono essere utili ma diverse tra loro. Questi strumenti possono essere combinati in sequenza per creare una pipeline per l'analisi dei dati, tuttavia questo è un processo per utenti esperti, che hanno le competenze necessarie per eseguire tutti i programmi (spesso attraverso la riga di comando), eseguire il debug di possibili problemi e avere almeno alcune conoscenze di base sulla programmazione, quindi ciò non è sicuramente adatto a «utenti regolari», ad esempio biologi o medici senza background bioinformatico.
La soluzione ai problemi precedentemente esposti riguardo l’analisi di dati genomici consiste nell’utilizzo di software intuitivi che combinano molti strumenti in un'interfaccia intuitiva attraverso cui è possibile gestire diversi formati di dati e leggere gli output di sequenziamento creando report, grafici e tabelle che possono essere esportati e interpretati facilmente dall'utente finale. L’utilizzo di questi software non richiede competenze bioinformatiche avanzate anche se è comunque ovviamente necessario un addestramento per capire come eseguire correttamente le analisi.
- Costantemente aggiornati per rimanere aggiornati con le più recenti innovazioni nel campo del sequenziamento, altrimenti invecchiano velocemente
- Devono essere facili da usare e compatibili con i sistemi operativi più utilizzati (Windows, Mac, Linux)
- Devono includere più strumenti per permettere di effettuare tutte le fasi di un'analisi, dall'importazione dei dati grezzi ai risultati desiderati
- Devono fornire risultati chiari, riassunti in tabelle, figure, grafici che possano essere compresi dagli utenti finali
La gestione di questi aspetti richiede un supporto costante, lo sviluppo di guide per l'utente e tutorial, e quindi la maggior parte di tali software sono sviluppati (o acquistati) da grandi aziende che possono fornire supporto finanziario al progetto mantenendolo sempre “vivo”.
Galaxy è una raccolta di strumenti disponibili online su server pubblici che possono aiutare gli utenti che non dispongono di un computer adeguato a eseguire analisi genomiche avanzate online. Esso è uno strumento per utenti intermedi/avanzati, con capacità limitate di visualizzazione dei dati che consente all'utente di calcolare attività altrimenti irrisolvibili, ma non fornisce molto aiuto nell'interpretazione dei risultati ottenuti. L'utente può caricare/scaricare file dai server Galaxy, ma tutte le attività vengono eseguite in remoto e ciò è una buona opzione fintanto che sai cosa stai effettivamente facendo (utenti intermedi). La maggior parte di questi siti sono iniziati come strumenti liberamente disponibili al pubblico e sono stati successivamente acquistati da aziende più grandi che ora richiedono la registrazione e l'accesso attraverso il pagamento di una quota annuale e quindi ciò significa che sono accessibili solo alle università e/o ai grandi centri di ricerca (un esempio è iPathwayGuide).
CLC Genomics Workbench è un’interfaccia intuitiva che integra molte applicazioni autonome che di solito possono essere eseguite dalla riga di comando; permette l’utilizzo di strumenti bioinformatici di base per la visualizzazione e modifica delle sequenze (come BLAST, MSA) o strumenti avanzati per il rilevamento delle varianti, approfondimenti biologici, etc. CLC Genomics Workbench è un software commerciale che mette a disposizione diversi tool (moduli operativi) ed è utilizzabile attraverso un server in remoto (MobaXterm). Il software permette di importare ed esportare file in diversi formati come: FASTA, FASTQ (output di analisi NGS), Sanger sequencing traces, annotation files (GFF), mapping files (SAM/BAM), phylogetic trees (Newick), protein structure files (pdb), etc. una volta importati i file permette di effettuare delle analisi delle sequenze nucleotidiche in quanto sono presenti anche annotazioni come le regioni geniche nei genomi, la distinzione tra introne ed esoni all'interno dei geni, SNP in sequenze nucleotidiche, domini conservati in proteine, etc.
Le sequenze utilizzabili sono comunque raggruppate in liste come: tutti i cromosomi di un genoma o tutti gli mRNA di un trascrittoma.
BLAST è invece il più importante tool in genomica comparativa, esso permette di individuare le similarità tra sequenze ed è fondamentale per l’annotazione funzionale della sequenza. Può essere usato per cercare somiglianze in un database locale o in un database disponibile al pubblico presso l'NCBI.
Altri importanti tool (MUSCLE ad esempio) l’allineamento di sequenze multiple (MSA) da usare poi a fini filogenici; essi sono strumenti importanti per allineare un insieme di sequenze omologhe ed identificare mutazioni e nucleotidi divergenti oppure per effettuare delle analisi filogeniche.
Analisi dei dati di sequenziamento
Questa analisi include:
- La visualizzazione dei dati ottenuti
- Il trimming (la rimozione degli adattatori dalle reads e la rimozione di regioni di bassa qualità)
- Il demultiplexing di una serie complessa di analisi a valle
I parametri da utilizzare in queste analisi dei dati di sequenziamento ovviamente dipendono essenzialmente dall’organismo oggetto di studio (modello o non modello ad esempio) e dall’applicazione dei dati da ottenere (risequenziamento o assemblaggio de novo).
Nel caso si vogliano effettuare degli studi sull’uomo si effettua mappatura su un genoma di riferimento (ultima versione di Ensembl), mentre per l’analisi funzionale useremo un software esterno (Ingenuity Pathway Analysis) che consente l'interpretazione biologica delle alterazioni dell'espressione genica e la previsione dei regolatori a monte e degli effetti a valle della alterazione.
Capitolo 2 – Il Trimming delle reads
Il termine trimming potrebbe venir tradotto in “rifinitura” o “spuntatina”; esso consiste nella procedura utilizzata per elaborare i dati di sequenziamento non elaborati e ottenere "letture pulite" a partire da reads grezze iniziali (ottenute direttamente dal sequenziamento e non “trattate”). Gli output di sequenziamento non elaborati possono contenere errori e questi errori nel sequenziamento delle reads possono compromettere l'analisi dei dati a valle (ad esempio le reads non corrispondono al genoma di riferimento o introducono errori nel processo di assemblaggio). Tali errori (ad esempio le reads possono contenere al loro interno il barecode) devono essere rimossi mediante il trimming che deve essere eseguito prima dell'analisi dei dati successiva così da tagliare i pezzi di reads o intere reads di scarsa qualità.
Come effettuare il trimming
Le reads del sequenziamento vengono fornite come file FASTQ, ovvero file di testo come quello visualizzato qui di seguito; questi file mostrano una sequenza di nucleotidi e il loro punteggio di qualità (dei valori numerici visualizzati come istogrammi e che rappresentano il punteggio di confidenza per la chiamata della base, ossia la probabilità che quella base letta durante il sequenziamento sia quella corretta).
Nel trimming possiamo impostare una soglia minima per la qualità della chiamata di base, così facendo le basi con valori al di sotto della soglia verranno scartate (la procedura viene effettuata con tools in quanto è impensabile effettuarla a mano).
Nei file FASTQ con la lettera N vengono indicati i nucleotidi ambigui ossia quelli che non è stato possibile definire mediante sequenziamento.
Nel momento in cui genero dei dati di qualsiasi tipo attraverso la ricerca, questi devono essere resi disponibili al resto della comunità scientifica; tante volte è difficile ritrovare dei dati fiancheggianti quelli forniti che ricapitolino come i precedenti dati sono stati ottenuti. NCBI SRA (sequence read archive) è dove questi dati di sequenziamento vengono depositati (dati di sequenziamento ottenuti con qualsiasi metodica e da qualsiasi animale purché siano di NGS); il database SRA contengono dei bioproject che al loro interno racchiudono degli esperimenti e sotto-esperimenti i cui dati sono necessari per la creazione del bioproject.
È spesso utile ottenere un'ampia panoramica della qualità dell'output di sequenziamento prima di eseguire il trimming ma anche dopo la procedura di taglio (per verificare il corretto utilizzo della procedura di taglio e la corretta impostazione dei parametri). Ispezioniamo brevemente l'output di una corsa Illumina:
- Il primo grafico è molto semplice, esso traccia la lunghezza della lettura. In questo caso, prima del taglio, tutte le letture hanno la stessa lunghezza (come previsto), che è di 100 nucleotidi, quindi l'istogramma raggiunge il 100% alla lunghezza della sequenza = 100 (ciò cambierà dopo il taglio, perché alcune letture verranno abbreviate)
- Questo grafico mostra invece il contenuto GC di ogni reads. Di solito, questo grafico mostra una distribuzione gaussiana, con la posizione del picco dipendente dal contenuto GC del genoma delle specie bersaglio. Ogni genoma ha il suo contenuto GC, che potrebbe non essere del 50%; il genoma umano ad esempio ha un contenuto di GC del 46,1%
- Questo grafico mostra invece il contenuto di nucleotidi in ciascuna posizione delle reads. Poiché il genoma (o il trascrittoma) è stato frammentato casualmente per produrre le reads, non ci aspettiamo di vedere alcun pregiudizio compositivo, cioè la sovrarappresentazione di alcuni nucleotidi in una qualsiasi posizione. Nell'esempio però possiamo notare una distorsione compositiva alle prime 15 basi delle letture, questo dovrebbe essere rimosso con il trimming
- Questo grafico mostra il contenuto di nucleotidi ambigui (indicato come «N»), cioè nucleotidi che non possono sono stati identificati dal sequenziatore. Il grafico mostra la loro frequenza per ciascuna posizione delle reads. La frequenza dovrebbe essere generalmente molto bassa nelle reads Illumina e la loro distribuzione irregolare potrebbe indicare alcuni problemi. In ogni caso, a seconda dei parametri di taglio utilizzati, i nucleotidi ambigui dovrebbero scomparire dopo il trimming
- È infine importante ispezionare la qualità dei nucleotidi rispetto alla lunghezza della reads, poiché la qualità è generalmente inferiore nelle ultime posizioni della reads. Il grafico traccia i punteggi di qualità PHRED di una determinata frazione di reads (ad esempio, il 5% utilizza il 5% delle letture con il punteggio medio più basso). L'esempio mostra che, se prendiamo il 95% delle letture con la massima qualità, la loro qualità è davvero buona. Questo è uno dei passaggi più importanti nella scelta dei parametri di taglio
L'obiettivo finale del trimming come detto, è quello di rimuovere tutte le basi di bassa qualità e la maggior parte degli "N" (nucleotidi ambigui), mantenendo solo quelli di cui possiamo fidarci; a tal proposito il CLC Genomics Workbench ci dà l'opportunità di selezionare la soglia di probabilità (ad esempio, se impostiamo la soglia su 0,1, tolleriamo un errore di probabilità del 10% e quindi utilizziamo una soglia PHRED = 10). Una soglia = 0,01 sarà più rigorosa (vogliamo solo mantenere le basi supportate da una probabilità maggiore del 99%) e quindi usiamo una soglia PHRED = 20.
Quanto detto tuttavia non basta per la procedura di trimming, infatti accade spesso che adattatori di sequenziamento siano presenti in alcune delle reads generate dal sequenziamento, quindi dobbiamo conoscere le sequenze dei primer, degli adattatori e dei barcode utilizzati per la preparazione della libreria (questo dipende dal kit e dalla piattaforma di sequenziamento) in modo da creare un elenco che verrà utilizzato dallo tool per il trimming (lo strumento di ritaglio cerca tali sequenze e le rimuove dalle letture, quindi alcune letture verranno completamente rimosse, altre saranno abbreviate e altre magari non toccate).
La presenza di adattatori può essere spesso capita dall'ispezione del grafico che mostra il contenuto di nucleotidi in ciascuna posizione delle reads; poiché le letture dovrebbero derivare dalla frammentazione casuale di genomi o trascrittomi, non ci aspetteremmo di osservare una distorsione compositiva correlata alla posizione di una base nella lettura, quindi in altre parole, la frequenza di osservazione dei 4 nucleotidi dovrebbe essere costante per l'intera lunghezza di una lettura.
Tuttavia, un pregiudizio compositivo non è sempre un'indicazione della presenza di adattatori residui: in alcuni protocolli di preparazione delle biblioteche la legatura dei frammenti non è realmente casuale e i frammenti con particolari composizioni nucleotidiche sono talvolta preferiti rispetto ad altri quindi in alcuni casi può succedere che il grafico inizialmente risulti sballato anche senza una reale presenza di un adattatore iniziale o un primer.
Step nella procedura di trimming:
- Step 1: imposto la soglia del punteggio di qualità (ad esempio 0,95 significa che non elimino le basi che hanno almeno il 95% di probabilità di essere state chiamate correttamente dalla macchina) e il numero massimo di nucleotidi ambigui
- Step 2: analizzando la procedura utilizzata per la creazione della libreria si crea un elenco di adattatori che potrebbero essere osservati (si può osservare anche, dopo aver creato la lista, il quantitativo di adattatori trovati in un sottogruppo di 1000 reads di partenza così da capire se si è soddisfatti di quanti adattatori si sono trovati e nel caso non siamo soddisfatti, prima di continuare, possiamo inserire altre sequenze di adattatori all’elenco)
- Step 3: siccome le letture troppo brevi non sono utili, possiamo impostare una soglia di lunghezza minima e scartare tutte le letture più brevi di questo limite (dopo che le basi di bassa qualità, i nucleotidi ambigui e gli adattatori sono stati rimossi)
Effettuato il trimming ci aspettiamo di ottenere letture pulite, pronte per l'analisi a valle senza ulteriori modifiche; tuttavia, le letture saranno in media più brevi e spesso in un numero molto più basso rispetto a quelle che avevamo originariamente (perché molte sono state scartate durante la procedura di taglio) e quindi risulta giusto chiedersi se il numero di letture ottenute dopo il taglio va bene per la nostra applicazione a valle oppure se il numero è troppo basso (in questo caso potremmo voler usare parametri meno stringenti ed eseguire un nuovo taglio "più morbido"). In clinica così come in diagnostica biomedica è meglio effettuare un trimming molto stringente in quanto devo operare poi per trovare delle eventuali varianti anche a singolo nucleotide che portano a patologie quindi lavorare con sequenze molto rudi con nucleotidi che non sono sicuro siano quelli giusti non è il massimo.
Capitolo 3 – Mappaggio delle reads
La mappatura è il processo utilizzato per allineare le reads a un genoma o trascrittoma di riferimento. Questo si basa sul rilevamento della somiglianza di sequenza tra la read e i suoi
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.