Anteprima
Vedrai una selezione di 20 pagine su 101
Appunti Bioinformatica Pag. 1 Appunti Bioinformatica Pag. 2
Anteprima di 20 pagg. su 101.
Scarica il documento per vederlo tutto.
Appunti Bioinformatica Pag. 6
Anteprima di 20 pagg. su 101.
Scarica il documento per vederlo tutto.
Appunti Bioinformatica Pag. 11
Anteprima di 20 pagg. su 101.
Scarica il documento per vederlo tutto.
Appunti Bioinformatica Pag. 16
Anteprima di 20 pagg. su 101.
Scarica il documento per vederlo tutto.
Appunti Bioinformatica Pag. 21
Anteprima di 20 pagg. su 101.
Scarica il documento per vederlo tutto.
Appunti Bioinformatica Pag. 26
Anteprima di 20 pagg. su 101.
Scarica il documento per vederlo tutto.
Appunti Bioinformatica Pag. 31
Anteprima di 20 pagg. su 101.
Scarica il documento per vederlo tutto.
Appunti Bioinformatica Pag. 36
Anteprima di 20 pagg. su 101.
Scarica il documento per vederlo tutto.
Appunti Bioinformatica Pag. 41
Anteprima di 20 pagg. su 101.
Scarica il documento per vederlo tutto.
Appunti Bioinformatica Pag. 46
Anteprima di 20 pagg. su 101.
Scarica il documento per vederlo tutto.
Appunti Bioinformatica Pag. 51
Anteprima di 20 pagg. su 101.
Scarica il documento per vederlo tutto.
Appunti Bioinformatica Pag. 56
Anteprima di 20 pagg. su 101.
Scarica il documento per vederlo tutto.
Appunti Bioinformatica Pag. 61
Anteprima di 20 pagg. su 101.
Scarica il documento per vederlo tutto.
Appunti Bioinformatica Pag. 66
Anteprima di 20 pagg. su 101.
Scarica il documento per vederlo tutto.
Appunti Bioinformatica Pag. 71
Anteprima di 20 pagg. su 101.
Scarica il documento per vederlo tutto.
Appunti Bioinformatica Pag. 76
Anteprima di 20 pagg. su 101.
Scarica il documento per vederlo tutto.
Appunti Bioinformatica Pag. 81
Anteprima di 20 pagg. su 101.
Scarica il documento per vederlo tutto.
Appunti Bioinformatica Pag. 86
Anteprima di 20 pagg. su 101.
Scarica il documento per vederlo tutto.
Appunti Bioinformatica Pag. 91
1 su 101
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

FASTQ).

➢ FLAG = bitwise FLAG, ossia è un singolo

numero che però indica, convertito in

numero binario, ogni bit ci dà delle

informazioni.

FLAG

• Per capire il significato dobbiamo convertire quel numero in un

numero binario (0 e 1).

• La conversione è la somma di potenza di 2 per ogni cifra

rappresentata nel codice binario (le posizioni si contano a partire dallo 0).

• Per capire che tipo di informazione codifica, dobbiamo vedere questo numero in un contesto binario.

• Un numero binario composto da 12 bit; ad ogni bit è associato un certo tipo di informazione:

bit READ PAIRED la read è in modalità paired (forward e reverse). Questo non vuol dire che entrami i

paired si allineano, ma vuole semplicemente dire che nel file FASTQ ho sia il forward

che il reverse. L’informazione del fatto che non si allinea è presente nel mate

unmapped.

2 bit READ MAPPED IN la read è mappata in “proper pair” (appaiamento corretto). Viene stimato se i paired-

PROPER PAIR end sono stati mappati correttamente sulla base della distanza.

4 bit READ UNMAPPED Il SAM contiene le informazioni di tutte le reads, anche di quelle che non si allineano

8 bit MATE UNMAPPED Se il sequenziamento è in modalità paired-end, restituisce informazioni anche circa il

“fratello” di quella sequenza

16 bit READ REVERSE Se settata a 1, la read mappa nello strand opposto, ossia si allinea come inverso

STRAND complementare sul genoma di riferimento.

32 bit MATE REVERSE fornisce l’informazione relativa al mate

STRAND

256 bit NOT PRIMARY Una sequenza può essere allineata più volte.

ALIGNEMT

512 bit READ FAILS la qualità della read è troppo bassa. Troviamo la sequenza ma settata come sequenza

PLATFROM/VENDOR di bassa qualità (chastity filter)

QUALITY CHECK

1024 bit READ IS PCR OR la read deriva da un duplicato di PCR

OPTICAL DUPLICATE

2048 bit SUPPLEMENTARY una read chimerica. fatta da porzioni diverse del nostro genoma.

ALIGNEMENT le read chimeriche può allinearsi un pezzo da una parte e un pezzo dall'altra.

• Ogni bit del numero può assumere o 1 o 0:

➢ Se il bit associato a quell’informazione è 1, vuol dire che quell’informazione è vera

➢ Se il bit associato a quell’informazione è 0, vuol dire che quell’informazione è falsa

• Per capire che tipo di FLAG esistono dei convertitori, anche se i FLAG sono

più o meno sempre quelli: fornisco il numero e questo mi restituisce i FLAG

che sono settati a 1 e a 0;

• ES con 99: la read è in paired; la read è mappata in maniera corretta; il mate

è nel reverse strand; questa read è first in pair.

QUALITY

• MAPQ: mapping quality (vedi spiegazione pagine precedenti)

• A seconda del programma abbiamo dei valori (tipo 255) che indicano che la qualità non è disponibile.

NB→Tra FLAG e QUALITY abbiamo anche:

❖ RNAME (Reference sequence NAME) = è il reference su cui allineiamo (il cromosoma 12 ad

esempio).

❖ POS = l’informazione relativa alla base a partire dalla quale si allinea (21788327): vuol dire che la

sequenza si allinea nel cromosoma 12 a partire dalla base numero 21788327

CIGAR

• →è

CIGAR una combinazione di numeri e di lettere che ci dicono il modo in cui la read si allinea sul

genoma di riferimento.

• Lettere del cigar:

➢ M (Match) = la sequenza si allinea in maniera contigua sul genoma (possono essere sia match

che mismatch)

➢ I (Insertion) = inserzione sul reference

➢ D (Deletion) = delezione sul reference

➢ N = abbiamo una regione che viene saltata nel nostro reference; in quella regione non c’è

allineamento della nostra sequenza

➢ S = soft clipping. Le sequenze non si allineano (di solito le estremità di bassa qualità) ma sono

comunque presenti dentro il file SAM.

➢ H = hard clipping. le sequenze vengono tagliate, quindi perdo le informazioni.

• Esempio: 45M200N25M vuol dire che la mia sequenza si allinea per 45 match, per 200 basi non c’è

allineamento ma poi questo riparte per altri 25 match (questo è il CIGAR tipico di quando si

allineano dati RNA-seq, in cui la read si allinea a cavallo di una giunzione esone-esone)

• Le soft e hard clipping sono regioni della sequenza che non si allineano (la read viene allineata solo

in parte) perché stiamo eseguendo un allineamento locale e non globale. In un allineamento locale

posso avere la regione prima o la regione dopo (o entrambe) che non si allineano sul genoma.

RNEXT e PNEXT

• Se presente, contengono informazioni relative al mate della read.

a) RNEXT = rappresenta il reference sequence del mate.

✓ Se è “=”, il mate si allinea sullo stesso reference dell’altro, in questo caso il cromosoma12.

✓ Se è “*”, l’informazione non è disponibile.

b) PNEXT = è la posizione in cui parte il mate; è settata a “0” quando l’informazione non è disponibile.

c) TLENGH = lunghezza stimata del templato, ossia è la lunghezza compresa tra l’inizio della read e la

fine del suo mate.

• TLENGHT si calcola dall’inizio del reverse

(410), sommato a quanto si allinea (37),

meno l’inizio del forward (254).

• Calcolare la distanza di tutti i pairend con

T-LENGHT e facendo statistica su tutte le

read allineate possiamo calcolare la

distribuzione.

CAMPI OPZIONALI

• Questo campo può essere popolato in maniera varia in relazione al programma utilizzato. Essendo

opzionale possiamo trovare diversi di queste informazioni:

• Il tipo di informazione presente dipende quindi dal tipo di programma utilizzato.

✓ TAG = può essere XA, MD, NM, con un significato preciso che identifica il significato di quel

campo

✓ TYPE = restituisce il tipo di valore, ad esempio se è un intero, una stringa…

✓ VALUE = restituisce il valore vero e proprio

• Ci sono poi tutta una serie di campi, di cui i più utili sono:

✓ IH = è il numero totale di allineamenti. Es: IH = 10, vuol dire che la sequenza si allinea 10 volte

✓ HI = è l’indice. il primo allineamento avrà HI=1 (e IH=10), il secondo allineamento avrà HI=2 (e

IH=10)…

✓ NH = è il numero di allineamenti riportati; IH è il numero di volte in cui la sequenza si allinea,

ma l’allineatore può decidere di riportare, ad esempio, solo 3 allineamenti su 10!

Trascrittomica e RNA-Seq

• Trascrittoma è l’intero set di trascritti che viene codificato da una cellula/tessuto/organismo in un

determinato condizioni; stimoli, quindi, influenzano il pool di trascrittomi.

• Si va a identificare quali geni che vengono trascritti e quanto vengono trascritti (profilo di espressione)

• Esistono due tecnologie che ci permettono di fare analisi trascrittomica:

✓ Tecnologie basate sull’ibridazione (microarray)

✓ Tecnologie basate sul sequenziamento (RNA-seq)

• Viene studiato il trascrittoma per:

✓ Fare una predizione genica

✓ Comparare i profili di espressione in condizioni diverse

RNA-Seq

• È un particolare metodo per fare analisi dell’espressione basato sul

sequenziamento; permette di utilizzare sequenziatori NGS.

• Ci permette in base al tipo di libreria di effettuare determinate analisi

trascrittomiche specifiche per peculiari RNA.

• I vantaggi dell’RNAseq rispetto al microarray sono:

1. Non ho necessita di sapere quali sono i geni che voglio andare

a quantificare come il microarray.

2. Può essere usato per rilevare la precisa locazione dei confini

di un trascritto, con una risoluzione a singola base.

3. Si può usare anche per fare variant calling, ossia trovare

differenze a livello di singolo nucleotide nel mio campione

rispetto ad un genoma di riferimento (identificare

polimorfismi)

4. Ha un segnale di background molto basso (non c’è il problema di cross-ibridazione come nel

microarray). L’unico problema dell’RNAseq è legato a quelle reads che non riesco a mappare in

maniera univoca sul genoma di riferimento.

5. Non ha limiti di quantificazione. L’unico limite è la profondità di sequenziamento.

• Con i dati RNA-Seq possiamo fare:

✓ Quantificazione dei geni e dei trascritti→ci permette di vedere quali sono i geni

differenziamente espressi (over-espressi o down-espressi) rispetto ad un gruppo di controllo

✓ Ricostruzione di geni o di trascritti→permette di ricostruire la struttura del mio

gene/trascritto. È utile nel contesto della predizione genica e per fare analisi differenziale.

WORFLOW

• Ho sempre bisogno di un reference per le analisi del trascrittoma:

✓ se ho genoma di riferimento possiamo procedere con metodi:

o se ho già annotato sul genoma i geni procedo con “genome alignement”;

o se devo creare una predizione genica o migliorarne una esistente utilizzo il “genome

guide trascripts reconstruction”.

✓ se non ho genoma di riferimento si può procedere con un De-novo assembling ricostruendo e

assemblando il trascrittoma (ottenendo un file FASTA con le sequenze dei trascritti) potendo

quantificare direttamente i trascritti.

*predizione genica→'individuazione dell'esatta struttura del gene, determinando il confine esone-introne e la

localizzazione dei geni sul genoma

• Esistono diversi tipi di tool per ogni analisi, non è presente un metodo univoco:

• EXPERIMENTAL DESIGN:

✓ Quando si fa un’analisi RNASeq è importante avere almeno 3 o più repliche biologiche;

✓ Inoltre, è indispensabile ottenere un numero sufficiente di reads per essere sicuri di

quantificare in maniera corretta un determinato gene (dipende da complessità dell’organismo).

Infatti, ci sono dei geni che sono espressi a bassissimi livelli e se ho un numero di basso di reads

per quelle sequenze i geni non verranno osservati.

✓ Maggiore è la quantità di reads che produco (profondità di sequenziamento) tendenzialmente

maggiore è il numero di geni che identifico (all’aumento delle reads per geni codificanti

proteine non varia molto ma per lncRNA l’aumento delle reads porta a maggiore identificazione

dei geni)→vedi grafico

NB→Per un’analisi di espressione in un genoma complesso come quello dell’uomo sono sufficienti circa 30

milioni di sequenze per campione.

Alllineamento dati RNAseq

• Nell’allineamento di RNA-seq il problema è che tutte le read che sono a cavallo di due esoni nel

momento in cui si rimappa si devono slippatre per identificare l’introne

• Exon-first app

Dettagli
A.A. 2023-2024
101 pagine
SSD Scienze biologiche BIO/10 Biochimica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher beabonnychiesi di informazioni apprese con la frequenza delle lezioni di Bioinformatica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Verona o del prof Vitulo Nicola.