Estratto del documento

Complessità del Microbioma e Impatto sull'Assemblaggio e i Risultati

La composizione di un campione metagenomico può contenere moltissimi microbi diversi.

• L'assemblaggio di un microbioma complesso è paragonato a un puzzle con un numero

• elevatissimo di pezzi, senza conoscere l'immagine finale. Il numero di pezzi (sequenze) è molto

alto, potenzialmente milioni. L'analogia è cercare di capire quanti cani ci sono in un'immagine,

quali sono i loro nomi, quanti sono e quali macchie hanno. Questo è molto più complesso

rispetto a un campione dove ci si aspetta un organismo noto.

Non tutti i microbiomi sono ugualmente complessi; alcuni sono più semplici, con meno

• specie. La diversità alpha è un concetto correlato.

I microbiomi del suolo sono estremamente complessi.

• All'aumentare della complessità del microbioma, gli approcci basati sull'assemblaggio

• potrebbero non essere la scelta migliore.

In microbiomi altamente complessi, il tasso di sequenze che non vengono assemblate

• (unassembled reads) può essere molto alto. Queste sequenze non assemblate non vengono

considerate per il binning basato sull'assemblaggio.

Un'alta percentuale di sequenze non assemblate significa che si perde una grossa parte di

• informazioni. Per questo motivo, gli approcci assembly-free potrebbero essere utili.

Se la comunità microbica è meno ricca (meno complessa), l'assemblaggio è più gestibile.

• La complessità del microbioma può influenzare la qualità dei risultati. Maggiore è la

• complessità, maggiore è il tasso di sequenze non assemblate. Di conseguenza, la

ricostruzione dei genomi (bins) potrebbe essere meno completa.

Anche in microbiomi molto ricchi, come quello del suolo (considerato uno dei più ricchi), si

• recupera un numero inferiore di bin. Questo rende la decisione sull'approccio da usare molto

complessa.

Requisiti di Dati e Computazionali

Genomi meno abbondanti (rare species) sono più difficili da recuperare e potremmo non

• ottenere abbastanza sequenze da quelle specie specifiche per poterle includere in un bin.

Un numero maggiore di reads (maggiore profondità di sequenziamento) aumenta le possibilità

• di recuperare geni, ma richiede anche molto più spazio di archiviazione su laptop o server

(sull'hard disk, HD) e risulta computazionalmente più impegnativo.

La profondità di sequenziamento (più gigabyte) implica non solo l'archiviazione, ma anche la

• necessità di gigabyte (RAM) per l'analisi.

Una possibile soluzione per gestire la quantità di dati è escludere le sequenze o i k-mer più

• rari. Tuttavia, ciò non offre un quadro completo della comunità. Le sequenze rare sono anche

quelle con minore copertura (lower coverage) e quindi maggiori probabilità di contenere errori.

Copertura (Coverage)

La copertura di sequenziamento è la media delle volte che una base nel genoma è stata letta

• dalle sequenze.

In metagenomica, la copertura varia notevolmente tra le diverse sequenze

• (contigs/scaffolds) a seconda di quali genomi sono più o meno abbondanti.

Alcuni k-mer (sequenze corte di k nucleotidi) possono essere estremamente rari (lower

• coverage) e quindi avere maggiori probabilità di contenere errori.

In comunità complesse, è necessario trovare un compromesso tra i requisiti di memoria (RAM

• e HD) e la completezza dei bin.

Generalmente, gli scaffold che appartengono alla stessa specie tendono ad avere una

• copertura coerente. Questa coerenza nella copertura è particolarmente utile nell'analisi di

campioni sequenziali nel tempo (time series) o campioni simili (es. tutti dall'intestino di

diversi pazienti).

L'analisi della copertura è molto data-driven. È fondamentale selezionare attentamente i

• dataset; usare dataset molto diversi (es. campioni di pelle e intestino, anche se la stessa

specie è presente in entrambi) potrebbe portare a risultati di binning errati perché il profilo di

copertura è influenzato dalla diversa abbondanza nel campione.

Un buon caso di studio per l'approccio basato sulla copertura sarebbe una serie temporale o

• microbiomi simili (es. tutti dall'intestino di pazienti diversi). Tuttavia, confrontare pazienti e

controlli potrebbe non essere ideale con questo approccio.

Binning: Identificazione dei Genomi Assemblati (Bins)

Il binning è il processo di raggruppare gli scaffold assemblati (pezzi di genoma) che si ritiene

• appartengano alla stessa specie. È un processo per identificare le diverse specie presenti e i

loro genomi.

Il binning viene fatto secondo diversi approcci.

• Approccio basato sulla Composizione: Si basa sull'idea che ogni specie microbica ha una

• firma specifica nell'utilizzo dei nucleotidi, in particolare dei k-mer come i tetranucleotidi

(finestre di quattro nucleotidi). Le specie hanno preferenze nell'uso dei nucleotidi (codon bias).

Questa firma unica può essere usata per raggruppare gli scaffold.

Approccio basato sulla Copertura (Coverage Analysis): Come detto prima, gli scaffold della

• stessa specie dovrebbero avere profili di copertura coerenti. Questo approccio raggruppa gli

scaffold con profili di copertura simili. È particolarmente utile con campioni sequenziali.

Approccio Filogenetico: Si basa sull'idea che gli scaffold assegnati allo stesso genere (o a un

• livello tassonomico simile) facciano parte dello stesso bin. Tuttavia, questo approccio da solo

non funziona e deve essere combinato con l'analisi della composizione (tetranucleotidi) e

della copertura. Uno scaffold eterogeneo (con geni assegnati a phyla molto diversi, es.

Firmicutes, Proteobacteria) non può essere assegnato correttamente solo con l'approccio

filogenetico.

Nessuno di questi approcci (composizione, copertura, filogenetico) viene generalmente

• utilizzato da solo. I software di binning spesso li combinano.

Software di Binning e Workflow

Software come Metabat e MaxBin sono strumenti per il binning.

• Metabat, ad esempio, integra informazioni come la lunghezza e la copertura degli scaffold, e

• la composizione in tetranucleotidi.

L'input per questi software di binning include l'assembly (in formato FastA, che sono

• sequenze lineari senza informazioni di copertura) e file che derivano dal mapping delle reads

sull'assembly.

Il workflow per ottenere questi file di mapping è standard:

• 1. Creare un database dall'assembly. Questo database funge da "falso assembly" su cui

mappare.

2. Mappare le reads sull'assembly/database utilizzando software come BWA. Questo

genera un file SAM (Sequence Alignment Map).

3. Convertire il file SAM in BAM (Binary Alignment Map), ordinarlo (sorted BAM) e

indicizzarlo. Questi file BAM contengono le informazioni sulla copertura delle reads

mappate sull'assembly.

Questi file di mapping (BAM/SAM) e l'assembly sono l'input per il software di binning.

• Prima di creare il database dall'assembly per il mapping, è utile rinominare gli header degli

• scaffold nell'assembly. Questo perché, concatenando gli scaffold da diversi bin (cosa

necessaria per creare un database unico su cui mappare), gli header potrebbero non essere

unici. Rinominare gli header con informazioni significative (es. Bin1_Scaffold1, Bin1_Scaffold2,

Bin2_Scaffold1) permette di ricollegare le sequenze mappate al bin corretto. Concatenare i bin

significa semplicemente metterli tutti in un unico file FastA.

I software di binning generano una lista di bin. Questi bin rappresentano i genomi degli

• organismi presenti nella comunità che sono stati assemblati.

Esistono diversi software di binning e nessuno è considerato il "migliore". Il campo è ancora in

• sviluppo.

Spesso si utilizzano più software di binning e poi si selezionano i "migliori" bin da ciascun set.

• Questo perché software diversi usano approcci diversi.

Bins vs. MAGs (Metagenome-Assembled Genomes)

I termini "bin" e "MAG" (Metagenome-Assembled Genome) sono usati in modo un po'

• interscambiabile.

Tuttavia, i MAGs sono i bin che sono stati controllati per completezza e contaminazione e

• sono considerati "utilizzabili", rispettando standard di qualità elevati (es. almeno 90% di

completezza e massimo 5% di contaminazione). I bin sono ciò che si ottiene dal processo di

binning, mentre i MAGs sono i bin che "ce l'hanno fatta" dopo il controllo qualità.

Controllo Qualità dei Bins/MAGs: Completezza e Contaminazione

Una volta ottenuti i bin (spesso più set da software diversi), è necessario controllarli.

• I bin/MAGs devono essere controllati per completezza (completeness) e contaminazione

• (contamination).

Un software utilizzato per questo è CheckM. Sebbene non sia considerato ottimale, è

• attualmente uno degli strumenti migliori disponibili. La sua esistenza e i suoi limiti evidenziano

quanto spazio ci sia ancora per il miglioramento nel campo.

CheckM funziona utilizzando un set di geni marker (marker genes) che sono specifici per i

• diversi lignaggi tassonomici. Questi geni marker vengono cercati nei bin.

L'idea è che questi geni marker siano presenti in singola copia nella maggior parte dei genomi

• batterici. Cercando questi geni marker in un bin, si può stimare la sua completezza (quanti

geni marker attesi sono presenti) e la sua contaminazione (quanti geni marker sono presenti in

più di una copia, indicando che sequenze di genomi diversi sono state raggruppate

erroneamente nello stesso bin).

I geni marker usati sono un subset dei geni core. Si basano su geni che sono nel core genome

• (presenti in quasi tutti i ceppi di un gruppo tassonomico) ma che sono anche in singola copia e

di cui si conosce l'esatta posizione genomica.

Per i batteri, CheckM utilizza un set di 110 geni marker. Questo numero è considerato

• relativamente piccolo rispetto al potenziale numero di geni in un genoma.

La completezza è una stima basata su quanti di questi geni marker attesi sono trovati nel bin.

• La contaminazione considera il numero di copie in eccesso dei geni marker trovati rispetto

• alla singola copia attesa.

Possono verificarsi casi ambigui nel controllo qualità, ad esempio un bin con altissima

• completezza ma anche altissima contaminazione, o uno con bassa completezza ma bassa

contaminazione. Non è sempre facile scegliere tra diversi set di bin.

Alcune versioni di CheckM utilizzano anche modelli di machi

Anteprima
Vedrai una selezione di 20 pagine su 100
Microbiomica - Appunti chiari, completi e pronti per l’esame Pag. 1 Microbiomica - Appunti chiari, completi e pronti per l’esame Pag. 2
Anteprima di 20 pagg. su 100.
Scarica il documento per vederlo tutto.
Microbiomica - Appunti chiari, completi e pronti per l’esame Pag. 6
Anteprima di 20 pagg. su 100.
Scarica il documento per vederlo tutto.
Microbiomica - Appunti chiari, completi e pronti per l’esame Pag. 11
Anteprima di 20 pagg. su 100.
Scarica il documento per vederlo tutto.
Microbiomica - Appunti chiari, completi e pronti per l’esame Pag. 16
Anteprima di 20 pagg. su 100.
Scarica il documento per vederlo tutto.
Microbiomica - Appunti chiari, completi e pronti per l’esame Pag. 21
Anteprima di 20 pagg. su 100.
Scarica il documento per vederlo tutto.
Microbiomica - Appunti chiari, completi e pronti per l’esame Pag. 26
Anteprima di 20 pagg. su 100.
Scarica il documento per vederlo tutto.
Microbiomica - Appunti chiari, completi e pronti per l’esame Pag. 31
Anteprima di 20 pagg. su 100.
Scarica il documento per vederlo tutto.
Microbiomica - Appunti chiari, completi e pronti per l’esame Pag. 36
Anteprima di 20 pagg. su 100.
Scarica il documento per vederlo tutto.
Microbiomica - Appunti chiari, completi e pronti per l’esame Pag. 41
Anteprima di 20 pagg. su 100.
Scarica il documento per vederlo tutto.
Microbiomica - Appunti chiari, completi e pronti per l’esame Pag. 46
Anteprima di 20 pagg. su 100.
Scarica il documento per vederlo tutto.
Microbiomica - Appunti chiari, completi e pronti per l’esame Pag. 51
Anteprima di 20 pagg. su 100.
Scarica il documento per vederlo tutto.
Microbiomica - Appunti chiari, completi e pronti per l’esame Pag. 56
Anteprima di 20 pagg. su 100.
Scarica il documento per vederlo tutto.
Microbiomica - Appunti chiari, completi e pronti per l’esame Pag. 61
Anteprima di 20 pagg. su 100.
Scarica il documento per vederlo tutto.
Microbiomica - Appunti chiari, completi e pronti per l’esame Pag. 66
Anteprima di 20 pagg. su 100.
Scarica il documento per vederlo tutto.
Microbiomica - Appunti chiari, completi e pronti per l’esame Pag. 71
Anteprima di 20 pagg. su 100.
Scarica il documento per vederlo tutto.
Microbiomica - Appunti chiari, completi e pronti per l’esame Pag. 76
Anteprima di 20 pagg. su 100.
Scarica il documento per vederlo tutto.
Microbiomica - Appunti chiari, completi e pronti per l’esame Pag. 81
Anteprima di 20 pagg. su 100.
Scarica il documento per vederlo tutto.
Microbiomica - Appunti chiari, completi e pronti per l’esame Pag. 86
Anteprima di 20 pagg. su 100.
Scarica il documento per vederlo tutto.
Microbiomica - Appunti chiari, completi e pronti per l’esame Pag. 91
1 su 100
D/illustrazione/soddisfatti o rimborsati
Acquista con carta o PayPal
Scarica i documenti tutte le volte che vuoi
Dettagli
SSD
Scienze biologiche BIO/19 Microbiologia generale

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher valentina.bolletta.angio di informazioni apprese con la frequenza delle lezioni di Microbiomica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi Roma Tre o del prof Basile Arianna.
Appunti correlati Invia appunti e guadagna

Domande e risposte

Hai bisogno di aiuto?
Chiedi alla community