Che materia stai cercando?

Anteprima

ESTRATTO DOCUMENTO

Questo è il grafico della qualità dei nostri reeds. Ogni barretta corrisponde ad una base e il

rettangolo giallo rappresenta la distribuzione dei valori per quella base in tutto il nostro file FastQ.

Quindi abbiamo la posizione 1 di tutti i reed, in ordinata abbiamo il quality score, più siamo in alto,

più il quality score per tutti i nostri reed è alto. Man mano che andiamo avanti con i cicli di

sequenziamento, inizia ad abbassarsi la qualità, quindi la distribuzione dei valori diventa sempre

più ampia (si ingrandisce il rettangolo giallo), vuol dire che all’inizio avevamo tutti i valori distribuiti

in un range da 32 a 33, dopo si arriva addirittura a 20. Quindi il sequenziatore sta facendo più

errori. Quello che possiamo fare è scartare una porzione del reed, questo processo è chiamato

TRIMMING, cioè andiamo ad eliminare dalla fine del reed le basi di cui abbiamo visto che il quality

non è così eccellente. Solitamente vengono scartate le posizioni che hanno un QS inferiore a 20

(cioè un accuratezza inferiore al 99%). A questo punto andiamo a mappare i reed sul genoma.

MAPPING DEI REED

Abbiamo un set di reed prodotti dal sequenziatore, i reed vengono fatti molto corti (36-75bp), dato

questo set di reed (che in un allineamento viene chiamato query), vogliamo trovare la coordinata di

ciascun reed sul genoma, dal quale questa sequenza si è originata. Quindi da dove viene il

frammento di DNA letto in quel reed. I problemi sono principalmente 3:

Il reed può contenere errori

 Il genoma di riferimento può essere un po’ diverso da quello delle cellule usate per

 l’esperimento. Ci sono single nucleotide variance and polimorfis, inserzioni, delezioni,

mutazioni che possono essere avvenuti casualmente nelle cellule mentre le stavamo

coltivando. Quindi ci possono essere differenze tra la sequenza letta e quella del genoma.

I reed potrebbero non avere un mapping univoco, cioè potrebbero esserci più punti nel

 genoma che hanno la stessa identica sequenza, quindi non possiamo attribuire in modo

non ambiguo la loro origine ad una posizione rispetto ad un’altra.

Ci sono una serie di linee guida che dobbiamo seguire per fare un buon allineamento.

1) In un allineamento meno mismatch (cioè basi non corrispondenti) sono migliori che tanti

mismatch

2) Mettiamo che non esista mai una posizione del genoma in cui non ci siano mismatch.

Andiamo a considerare il quality score del sequenziatore, cioè se i mismatch ricadono nelle

regioni a basso QS, probabilmente commettiamo un errore minore che fallire

nell’allineamento di regioni che hanno QS maggiori, cioè le basi che hanno QS minore

hanno più probabilità di essere state lette sbagliate, quindi è più probabile che il mismatch

del genoma derivi da una lettura sbagliata.

3) I reed che hanno una sequenza altamente ripetuta posso derivare da regioni altamente

ripetute del genoma. Quindi non possiamo dire in modo non ambiguo in quale regione del

genoma si è originato, quindi non lo mapperemo, ma andremo a prendere i reed che hanno

solo una posizione unica nel genoma

Il programma prenderà i reed li mappera sul genoma e ci dirà do dove vengono. Il programma

quindi ci restituisce un nuovo file in formato SAM.

SAM FILE

Questo formato è nato per memorizzare all’allineamenti di sequenza derivati da esperimenti di

NGS (new generation sequencing), infatti SAM è l’acronimo di Sequence Alignment Map. Cioè le

coordinate dei reed.

In questo file abbiamo due parti: una prima parte chiamata Header, cioè intestazione all’inizio del

file e una seconda parte con tutti allineamenti dei reed.

Il file memorizza le stesse informazioni del file FastQ oltre a quelle relative alle posizioni dei reed

mappati. Quindi se avessimo un SAM e volessimo tornare al FastQ lo possiamo fare.

Prima parte: abbiamo una prima riga che è identificata da un tag, che iniziano con @. Il

 primo che troviamo è HD che sta per Header e ci dice solo la versione del formato SAM

perché esso viene sempre aggiornato. Poi troviamo SO (sottotag di HD), cioè come i reed

sono stati ordinati, cioè in base a come sono stati mappati e non in base all’ordine della

loro posizione sul genoma. Poi troviamo il tag SQ, che identifica le sequenze del nostro

genoma, nel caso del genoma umano avremo un tag SQ per ogni promotore del genoma,

questo serve per capire com’è strutturato il genoma su cui è stato mappato il reed. Per ogni

SQ troviamo dei sottotag: SN ci dice il nome della sequenza, cioè il nome del cromosoma e

LN, cioè la lunghezza del cromosoma.

Seconda parte: quella che memorizza gli allineamenti, cioè le sequenze dei reed che sono

 stati mappati sul genoma. Ogni riga identifica un singolo reed. Abbiamo il nome del reed (al

primo campo), la sequenza del reed (al nono campo) e il QS del reed (al decimo campo).

Poi abbiamo il FLAG che memorizza un informazione molto importante, ovvero il modo in

cui il reed è stato allineato sul genoma. siccome sul computer il genoma esiste come

un’unica sequenza (quella del filamento superiore), cosa fa il programma quando vuole

mappare sullo strand reverse? Fa il reverse complement del reed. A questo punto può

andare a mapparlo sullo strand superiore. Il flag sarà 0 se il reed mappa sullo strand

forward, se il reed mappa sul reverse, il flag sarà 16 (cioè il programma ci dice che quel

reed in realtà mappa sullo strand reverse, ma lui, dato che ha solo lo strand forward, ne ha

fatto il reverse complemet e lo ha mappato sullo strand forward). Poi vi è il nome della

sequenza reference e la posizione su cui il reed mappa. (cromosoma + posizione). La

posizione viene data considerando il 1 based, ovvero la prima base della sequenza di

riferimento ha il numero 1. Ci sono dei file che usano il metodo 0 based, ovvero la prima

posizione sul cromosoma è numerata 0, quindi si avrà una posizione più bassa rispetto al

file SAM.

Poi c’è un quinto campo che molti programmi non usano, è un altro QS, ovvero

rappresenta la probabilità che il sequenziamento abbiamo fatto un errore.

Infine c’è CIGAR, che rappresenta il modo in cui il reed è stato mappato sul genoma sotto

forma di stringa. Ci sono diverse possibilità:

1Se il nostro reed è lungo 16 e mappa perfettamente sul genoma, il CIGAR sarà 16M. M

significa che c’è un match in quella posizione per 16 volte.

2. ci sono delle basi in più rispetto a quelle mappate sul genoma, quindi nelle nostre cellule

di partenza c’è stata un’inserzione. Il

programma quindi deve andare ad inserire un

gap nella sequenza del genoma rispetto alla

sequenza del reed. Il cigar indica: 11M (match

perfetti), 2I (due inserzioni) e 3M (match

perfetti che seguono l’inserzione).

3.In questo caso nel genoma è avvenuta una

delezione rispetto a quello di riferenza. Quindi

avremo 11M (match perfetti) 3D (gap

di delezione) 2M (match perfetti).

4.Se il numero di delezioni è superiori alle 5

basi, non si mette più la D, ma la N.

Dopo aver ottenuto il file SAM possiamo

vederlo graficamente. Per farlo generiamo

un file wiggle.

WIGGLE FILE

Formato di file che è in default per

visualizzare graficamente gli esperimenti di

genome wild. È un file di testo che contiene

il numero di reed che mappano ad ogni

posizione del genoma. Ogni base ha un reed che mappa su di essa. Abbiamo un intestazione che

ci dice il tipo di file, poi abbiamo una seconda riga che ci dice il cromosoma a cui ci stiamo

riferendo e a seguire abbiamo le coordinate sul cromosoma in ordine crescente e il numero di reed

che hanno mappato in quella posizione. Adesso contiamo quanti reed ci sono in ogni posizione. Il

risultato finale è che possiamo disegnare una curva con questi valori.

In un esperimento di ChIP-seq

però otteniamo tutt’altro:

Sopra vediamo com’è fatto il

genoma, il quadrato nero pieno è

l’esone, quello bianco l’introne.

Sotto abbiamo i segnali per ogni riga, cioè tutti i segnali derivanti da diversi esperimenti di ChIP-

seq. Possiamo notare la presenza di picchi, ovvero i punti di legame della nostra proteina sul

genoma. questo segnale deriva

dal sequenziamento di migliaia di

frammenti di DNA legati dalla

nostra proteina di interesse.

Come facciamo a trovare tutti

questi picchi sul genoma? Usiamo

un programma che fa

un’operazione di peak calling,

ovvero va letteralmente a

chiamare i picchi, cioè va a

trovare tutti i picchi presenti sul genoma. questo è lo step più importante nell’analisi di un dato di

ChIP-seq!!!!!!!!!!

PEAK CALLING Esso analizza la distribuzione dei

reed sul genoma e trova le regioni in

cui i reed si accumula, ovvero le

regioni arricchite da questi picchi.

Noi potremmo aver sequenziato il +

strand o il – strand perché gli

adattatori sono uguali sia da una

parte che dall’altra. Potremo avere

quindi avere una sequenza sense e

altre reverse. Ci possiamo aspettare

un 50 e 50. Dato che i reed sono più

corti, sequenzieremo solo un pezzo,

quindi quanto lo mappiamo sul

genoma avremo metà dei reed

mappati sul forward e metà su

reverse. Avremo quindi due picchi,

uno dei reed che mappano sullo

strand + e uno dei reed che mappano

sullo strand – sono lievementi

decentrati uno rispetto all’altro.

Abbiamo due picchi e andiamo a

prendere la distanza fra i due diviso

due. Cioè ci andaimo a mettere

proprio in mezzo ai due.

A noi interessa il punto intermedio,

ovvero (a+b)/2. Cioè la nostra

proteina lega in mezzo.

A questo punto il programma conta quanti

reed stanno in questo punto. Dice: ho trovato

n reed che hanno mappato in questo punto

del genoma, ma come fa a sapere che il fatto

che i reed mappino li significa che c’è un

arricchimento dovuto al fatto che abbiamo

davvero arricchito la proteina, oppure è

dovuto ad altre ragioni (cioè che sia solo

rumore di fondo, background)? Il background è tutto quello che abbiamo tirato giù con l’Ab, ma che

non era legato alla proteina. Noi vogliamo sempre avere un’idea di quale sia questo background,

quindi inseriamo una serie di controlli:

Sequenziare l’intero DNA derivante dalle cellule usate per l’esperimento, quindi se ci sono

 regioni del DNA che si amplificano, sequenziano, meglio ecc possiamo vederle e andarle a

confrontare con i picchi ottenuti in quella regione che si è amplificata meglio e sapere con

certezza che quel segnale è solo dovuto ad altri motivi.

Usare un anticorpo generico IgG, specifico per niente che ci darà quindi l’idea di quello che

 è il background, essendo che lei non lega niente tutto quello che noi andremo a

sequenziare è roba che si sia legata casualmente e che la stessa roba si sia legata al

nostro Ab specifico, quindi possiamo andare a confrontare i due esperimenti di ChIp-seq e

vedere qual è il segnale vero e quale no

Fare lo stesso esperimento con lo stesso Ab, ma in cellule knock out che non hanno più il

 gene che codifica per il gene di interesse. Quindi sappiamo che tutto quello che lega

quell’Ab è background perché la nostra proteina non c’è. A questo punto lo confrontiamo

con le cellule wild type e vediamo qual è il significato dei peek.

Il programma si aspetta uno di questi controlli e va a vedere se i picchi ci sono anche

nell’esperimento di controllo e ci dice quali sono i picchi “falsi”. In molti casi però l’esperimento non

si fa, quindi il programma valuta il background anche senza di esso. Come fa? Quello che

sappiamo è che fattori di trascrizione e modificazioni istoniche danno due profili di ChIP-seq

diversi: NARRROW: dato dai fattori di trascrizione, essi danno un picco molto preciso di segnale

 nel punto in cui legano il DNA, perché li c’è la sequenza consenso che legano. E legano

solo li.

BROAD: segnale delle modificazioni istoniche, è esteso per regioni molto ampie perché gli

 enzimi che mettono le modificazioni istoniche, vanno sull’istone, mettono la modificazione e

poi arriva una proteina che recluta di nuova i fattori che la mettono ed estendono la

modificazione anche agli istoni vicini.

Nel caso in cui non abbiamo l’esperimento di controllo e vogliamo valutare il background, è

importante sapere quale tipo di dato stiamo analizzando. Possiamo stimare il background in due:

Localmente: il programma guarda una finestra intorno alla regione in cui ha trovato il picco

 e vede se il segnale del picco è maggiore rispetto a quella finestra. Se il segnale è

maggiore allora è un arricchimento vero, sennò è tutto rumore di fondo

Globalmente: invece che prendere una finestra va a vedere l’intero cromosoma o genoma.

Se abbiamo un picco narrow il risultato non cambia sia che usiamo un metodo locale sia se

usiamo un metodo globale. Nel caso di un broad, invece la situazione cambia. Nel caso del

metodo locale, prendiamo solo una finestra quindi copriamo solo il punto di legame della proteina,

quindi per il programma non è un picco vero. Invece, usando un metodo globale, il programma

chiama un picco perché su tutto il cromosoma c’è solo quel sito, tutto il resto è pulito.

Il programma come memorizza i picchi? A noi interessano solo le coordinate, quindi il programma

analizza il SAM, vede come sono distribuiti i reed e vede le regioni di arricchimento. Noi vogliamo

che ci dica le coordinate. Questa informazione viene memorizzata in formato Bed

BED FILE

Questo formato serve per annotare e memorizzare certe caratteristiche sul genoma, che siano siti

di binding dei fattori di trascrizione, coordinate dei geni, sequenze consenso ecc. Ci sono 3 campi

che sono essenziali per questo file, poi ci sono altri 9 campi opzionali. A noi interessano questi:

Nome della sequenza di reference sul genoma (es chr 1)

 Posizione sul genoma della caratteristica che vogliamo annotare (nel nostro caso è il picco

 di ChIP-seq)

Posizione sul genoma della caratteristica che vogliamo annotare

Poi ci sono i 9 campi opzionali:

Campo del nome (nome del picco)

 Score

 Strand (nel nostro caso non ci interessa perché i picchi sono sial sul minus strand che sul

 plus strand)

A questo punto ci interessa ANNOTARE I NOSTRI PICCHI, ovvero capire se i nostri picchi

cascano su un punto ben preciso del genoma, cioè punti funzionalmente importanti: es una

regione del promotore, esoni, introni, enhancer. Quest’analisi è importante per capire la funzione

della nostra proteina. Ogni regione del genoma può essere classificata: molto generalmente

possiamo classificare le regioni in INTRAGENICHE ed INTERGENICHE, poi possiamo scendere

ancora più nel dettaglio, quindi le regioni intrageniche possono essere esoni o introni, ancora gli

esoni possono essere codificanti o non. Poi abbiamo promotori, enhancer, regioni ripetitive ecc.

Durante l’annotazione, prendiamo le coordinate dei nostri picchi e andiamo a guardare, rispetto

alle coordinate di caratteristiche note (es geni, promotori ecc), quanti picchi cascano nelle regioni

del genoma. Se ad esempio i nostri picchi cadono sulle regioni del promotore, molto probabilmente

(99%) la nostra proteina sarà un regolatore della trascrizione, cioè può essere sia un attivatore

trascrizionale, che inibitore ecc.

Nella nostra annotazione vediamo che la nostra proteina sta legando il promotore di circa 1000

geni (è un fattore di trascrizione). Quello che vogliamo capire è se questi geni hanno qualcosa in

comune dal pdv funzionale. Quest’analisi viene chiamata GENE ONTOLOGY.

GENE ONTOLOGY

Ad esempio abbiamo trovato che più del 70% dei picchi lega il promotore dei geni vicino al TSS,

cioè il sito di inizio della trascrizione, da dove la poli inizia a trascrivere, (Transcription Start Site).

Siccome le cellule tendono ad adottare dei sistemi di controllo della trascrizione coordinata, cioè

usano sistemi comuni per attivare set comuni di geni, cioè con funzione simile, quindi geni che

hanno una funzione simile, sono regolati dagli stessi fattori perché fanno parte della via di

regolazione e quindi devono essere attivati tutti insieme. Quindi noi vogliamo se i geni legati dal

nostro fattore hanno qualcosa in comune. Quindi facciamo un’analisi detta GO ENRICHMENT

(GENE ONTOLOGU ENRICHMENT), creiamo un set di termini univoco che descrive i geni. Il go

project quindi ha creato un vocabolario di termini che descrivono i prodotti di sintesi dei geni,

all’interno di questo go project ci sono essenzialmente 3 vocabolari detti ontology. Questi 3

ontology sono:

Cellular component (dove il prodotto del nostro gene si localizza)

 Molecular function (funzione molecolare di base del prodotto gene es DNA binding protein)

 Biological process (qual è la funzione del nostro gene su scala globale, es processi cellulari

 quali traduzione, differenziamento ecc)

Ogni termine GO, cioè ognuna delle parola è identificato da un numero identificativo chiamo GO

ID. dato il nostro set di geni, andremo a fare un analisi di arricchimento con gene ontology per

vedere se qualche GO TERM è overrappresentato o sottorappresentato. Andiamo a calcolare il

numero di geni che cascano in ogni categoria e si associamo ad ogni termine di ogni categoria. A

questo punto il programma fa anche un altro calcolo, dopo aver associato ogni gene con ogni

termine ci dice anche tutti i geni presenti nell’organismo di interesse e come essi sono distribuiti

nelle varie categorie. Se noi gli diamo una lista, ad es, di mille geni e vede che 10 (1%) sono

chinasi, lui va a guardare sull’intero genoma quante chinasi si aspetta di trovare e vede che ce ne

sono sempre 10. 10/20000 è più basso rispetto a 10/1000, quindi l’atteso è più basso rispetto a

quello che ha osservato. In sintesi, il programma fa una statistica per ogni GO TERM e vede se il

nostro gene è over-rappresentato o sottorappresentato. Poi calcola un p-value, ovvero la

probabilità che l’arricchimento di una certa categoria che stiamo osservando, sia dovuto al caso.

Più è basso il p-value più è significativo quello che stiamo vedendo, cioè non attribuibile al caso.

Solitamente si prendono p-value minori di 0,05 e poi si va a scendere.

Sotto ogni # go term vi è il numero di geni della nostra lista che cadono in quella categoria, il

programma si è calcolato il suo atteso su tutto il genoma umano e ci dice che il p-value di questo

arricchimento è pari a 1,78e^-6. Cioè 0,00000178, quindi è un arricchimento molto significativo. Il

programma ci ordina i geni per p-value.

A questo punto, mettiamo il caso che il nostro FT (fattore di trascrizione) è un FT nuovo. Tutti

funzionano riconoscendo una sequenza consenso (o motivo) particolare sul genoma. l’analisi con

cui cerchiamo il motivo del nostro FT si chiama MOTIF DISCOVERY

MOTIF DISCOVERY

Cerchiamo la sequenza consenso legata dal nostro FT. Con motif si riferisce a piccoli pattern di

seqeunze sul genoma che hanno una funzione biologica, solitamente funzionano da sito di

riconoscimento per le DNA binding protein.

Abbiamo le sequenze dei nostri picchi in formato Fasta. I programmi per fare motif discovery sono

tutti diversi, il più semplice approccio si chiama ENUMERAZIONE che consiste ad andare a

contare quante volte occorre un elemento in un insieme. Nel nostro caso settiamo una dimensione

di finestra (es 6 bp) e la scorriamo lungo tutte le nostre sequenze e contiamo quante volte la

sequenza di 6 nucleotidi occorre nel nostro set di sequenza. alla fine avremo un risultato che ci

dice tutte le sequenze di 6 nucleotidi presenti e quante volte compaiono, quindi avremo dei set di

sequenze che non troviamo mai, e un set di sequenze che si trovano una o più volte.

Possiamo escludere tutte quelle mai trovate, mentre in quelle trovate potrebbe esserci quella

riconosciuta dall’FT. A qeusto punto possiamo raggruppare le sequenze in base alla similarietà.

Facciamo questo perché le PDB hanno una preferenza per una sequenza, però legano anche

quelle che sono leggermente variate. Ad esempio myc lega una sequenza palindromica che è

CACGTG, però può legare anche CACCTG.

Noi andiamo a raggruppare queste sequenze per similarità.

La rappresentazione sotto il box di sequenze si chiama sequence logo, serve a rappresentare la

frequenza con cui ogni base

ricorre in ogni posizione.

A questo punto avremo un set di

sequenze possibili, però come

facciamo a capire qual è quella

importante e se la sequenza che

abbiamo trovato è un vera seq.

consenso o è solo casuale?

Dobbiamo capire se

l’arricchimento di sequenza è

significativo.

Ogni programma fa un analisi in

cui riprendono le seq dei picchi

e fanno uno shuffling, cioè

cambiano l’ordine delle basi più

volte per dare seq totalmente

diverse. Adesso va a cercare i motivi di prima nelle

sequenze scombinate e vede quante volte si trovano all’interno di quelle scombinate. Se le

ritroviamo, il programma fa un test statistico e si calcola quante volte lui si aspetta di trovare quella

sequenza e quante volte l’ha ritrova e si calcola il p-value. Nel caso sotto il p-value non sarà

significativo perché l’arricchimento è più presente nell’atteso che nell’osservato. Quindi il motivo

che ha trovato è casuale molto probabilmente e lo esclude. Fa ciò per tutti finchè non ne trova una

significativo.

Alla fine avremo tutti i motivi trovati ordinati per p-value. Poi il programma ci dice anche la

percentuale dei picchi che avevano questa sequenza prima e dopo aver fatto lo shuffling.

Spegniamo il nostro fattore di trascrizione nelle cellule (knok out o knok down) e vediamo cosa

succede alle cellule, cioè quali geni vengono modulati. Ciò, insieme al dato di ChIP-seq, ci può

dare un informazione più approfondita di quali sono i target di geni regolati da FT.

RNA-seq WORKFLOW

I primi step di analisi di RNA-seq sono uguali a quelli di ChIP-seq: sequenziatore, file FastQ,

analisi della qualità. A questo punto mappiamo le nostre sequenze sul genoma di riferimento.

Quello che cambia a questo punto, è il tipo di file su cui andiamo a memorizzare l’informazione di

mapping (cioè le coordinate del genoma). In questo caso il file si chiama BAM, la struttura è simile

al formato SAM.

La principale differenza di un mapping di RNA-seq con quello di ChIP-seq è che l’RNA non ha gli

introni, quindi nel nostro RNA sequenzieremo due regioni attaccate tra loro ma che nel genoma

magari sono molto distanti perché in mezzo c’è un introne.

L’RNA viene trascritto per dare un pre-mRNA che ha ancora gli introni, poi avviene lo splicing e

perdiamo gli introni. A questo punto facciamo la libreria. Frammentiamo casualmente l’RNA,

avremo pezzi di esoni e una serie che avranno giunzioni di splicing. Per prima cosa mappiamo

quelli che non hanno regioni di splicing, il mapping di questi è uguale a quello della ChIP-seq con

le stesse regole. A questo punto abbiamo una fetta consistente dei reed che hanno le giunzioni di

splicing, quindi la nostra sequenza dovrà essere spezzata in modo che ogni pezzo mappi

sull’esone corrispondente. Per fare questo mapping, però, andiamo contro quella che era la regola

di evitare di aprire dei gap negli

allineamenti, ma adesso è necessario.

Questo tipo di mapping, ovvero che

consente l’apertura di gap molto

grandi (150 kb, dimensione massima

di un introne), viene chiamato

SPLICED READS MAPPING. Questa

è la differenza essenziale tra un

sequenziamento di RNA e uno di

DNA. A questo punto salviamo il

mapping su un BAM file.

BAM FILE

Sono SAM file, l’unica differenza è che i SAM sono in formato di testo, mentre i BAM sono in

codice binario. Dal nostro BAM file possiamo andare a fare una traccia grafica che ci permetta di

visualizzare il nostro esperimento. Mentre nella ChIP vedevamo i picchi sul genoma, in questo

caso vediamo i segnali sul genoma derivanti dall’mRNA.

Questa è l’actina che ha 6 esoni. Ogni riga sotto è un esperimento derivante da una cellula

diversa. I reed sono tutti mappati solo sugli esoni. Il segnale va proprio a picco quando iniziano gli

introni, perché non li abbiamo mai sequenziati perché abbiamo usato l’mRNA maturo.

LO SCOPO DI UNA RNA-seq è

QUELLO DI EVIDENZIARE LE

DIFFERENZE TRA DUE LINEE

CELLULARI, AD ESEMPIO

CELLULE WILD TYPE E QUELLE A

CUI ABBIAMO TOLTO IL FT DELLA

CHIP-seq. Andremo quindi a fare

un’analisi di espressione

differenziale, per fare ciò però

dobbiamo calcolare il livello di

espressione dei nostri geni nelle

cellule attraverso una misura

chiamata RPKM.

RPKM

Nel nostro esperimento di RNA-seq

abbiamo tolto l’rRNA e abbiamo

preso solo l’mRNA, frammentato, legato agli adapter e sequenziato. Quindi, il numero di frammenti

che mapperemo su un certo gene è correlato all’abbondanza che aveva quel messaggero nella

cellula. Se un certo gene è più espresso avremo più frammenti che mapperanno su di esso. Però

abbiamo una serie di problemi:

Un RNA più lungo genererà molti più frammenti di un RNA più corto. Se abbiamo due RNA

 derivanti da due geni diversi, il primo è lungo 100 nucleotidi ed è presente in 5 copie, il

secondo è lungo il doppio ma ce ne sono sempre 5 copie nella cellula. Se andiamo a

sequenziare i reed vedremo che 50 reed mappano sull’RNA 1 e 100 sull’RNA 2. Ad una

prima occhiata diremmo che RNA 2 è espresso 100, mentre l’1 è espresso 50, ma non è

vero è solo perché abbiamo più frammenti che 100 mappano sull’RNA 2. Cosa dobbiamo

considerare? Il conto dei reed non è una buona misura dell’abbondanza dell’RNA, quindi

possiamo normalizzare il numero di reed per quel gene in base alla lunghezza di quel

gene, cioè dividiamo

il numero di reed che

mappano sul gene 1

per la lunghezza del

gene 1 e cos’ anche

per gli altri. Se

facciamo questo

succede che nel

primo caso abbiamo

un livello di

espressione di 0.5

(50/100) e nel

secondo anche

(100/200). Quindi

andando a considerare la lunghezza del gene, non andiamo a sovrastimare l’abbondanza

di geni più lunghi

Quando andiamo a fare una comparazione tra due condizioni diverse, quindi un RNA-seq

 per la cellula wild type e uno per quello con FT silenziato. Quando li mettiamo nel

sequenziatore, potremo caricare un po’ di più di una libreria che per l’altra, quindi avremo

sequenziato più reed per un esperimento che per l’altro. questa è un info di cui dobbiamo

tenere conto. Se stiamo misurando un certo geen X nella cellula wild type (WT) e in una

knock out (KO). Mettiamo caso che la quantità di RNA non cambi per le due, cioè abbiamo

5 molecole per WT e 5 per KO. Però nell’esperimento della cellula WT abbiamo prodotto un

milione di reed, mentre nell’esperimento della KO, 2 milioni. Quindi troveremo 50 reed che

mappano sul primo RNA e 100 sul secondo, quindi diremo che il gene è più espresso nelle

cellule KO, ma ancora una volta questa cosa non è vera. Quando noi compariamo due

condizioni differenti dobbiamo anche tener conto del numero totale dei reed prodotti.

Normalizziamo il numero di reed per il numero totale dei reed che abbiamo sequenziato.

La misura usata per quantificare l’espressione genica mediante una RNA-seq, è definita READS

PER KILOBASE PER MILLION READS (RPKM), derivante dalle due normalizzazioni precedenti

RPKM= (C/ N*L) * 1000000

Numero di reed che mappano per un certo gene diviso il prodotto della lunghezza di quel gene e il

numero di reed prodotti. Se un gene ha una RPKM uguale a n, ciò vuol dire che per ogni kilobase

del gene noi abbiamo sequenziato n reed che mappano sul gene su un totale di 1 milione di reed.

In questo modo compariamo due esperimenti di RNA-seq.

A questo punto abbiamo tutti gli RPKM per ogni cellula e ne possiamo fare l’analisi differenziale

DIFFERENTIAL EXPRESSION ANALYSIS

Andiamo ad usare una condizione come riferimento(es WT) e l’altra come trattamento.

Esprimeremo la differenza nell’espressione genica come FOLD CHANGE, ovvero numero di volte

che quel gene è più espresso in una condizione rispetto ad un’altra, ovvero il rapporto della RPKM

del gene di una condizione (campione 1) e della RPKM dello stesso gene ma dell’altra condizione

(campione 2).

Se il rapporto è 1 il livello di espressione genica nelle due condizioni è uguale.

Se il rapporto è >1 vuol dire che il gene è più espresso nel campione 1

Se il rapporto è < 1 vuol dire che il gene è più espresso nel campione 2

Per semplificare ancora di più, invece che prendere direttamente il rapporto, si prende il logaritmo

del fold change per rendere più chiara la differenza. Se prendiamo il log di 1 è 0, se prendiamo il

log di un valore >1 esso sarà maggiore di uno, quindi il gene è upregolato (nella condizione 1 il

gene è upregolato rispetto alla condizione 2), se prendiamo il log di un valore <1 esso sarà minore

di uno e il gene sarà downregolato (nella condizione 1 il gene è downregolato rispetto alla

condizione 2). Ciò rende più semplice l’analisi.

Come viene rappresentato questo tipo di dato? Si va a fare una HEATMAP, ogni colonna è una

condizione cellulare comparata con quella di controllo e vediamo come il pattern dell’espressione

genica cambia, in colonna uno abbiamo il knock out del gene 1, nella colonna 2 il knock out del

gene 2 e così via. Ogni riga rappresenta un gene, cioè ogni riga è il fold change di quella

condizione rispetto al controllo. In verde abbiamo il fold change <1 (geni downregolati rispetto al

controllo), mentre in rosso abbiamo il fold change >1 (geni upregolati rispetto al controllo). In nero

abbiamo i geni che avevano fold change =1 (log =0) cioè la cui espressione rimaneva invariata.

Questo tipo di rappresentazione serve solo di vedere graficamente se due condizioni diverse

danno in qualche modo un comportamento cellulare simile. Ai lati del grafico troviamo dei grafici

fatti tipo ad albero, chiamati DENDOGRAMMI. Il dendogramma è una rappresentazione di come le

condizioni correlano tra loro, tanto sono più simili due condizioni, tanto più vicine saranno la loro

connessioni (come alberi filogenetici). La stessa cosa può essere fatte per stessi geni, ciò ci

permette di identificaredei cluster di geni che seguono lo stesso tipo di regolazione. Ci saranno

due geni collegati perché in tutte le condizioni si comportano in modo simile. Questo può servirci

per identificare un subset di geni che potrebbero essere importanti per una certa funzione e che

probabilmente subiscono la stessa identica regolazione.

Se avessi fatto solo una RNA-seq, facciamo la stessa cosa per la ChIP-seq ovvero l’analisi di

ontology. Prendiamo i geni downregolati e vediamo se ci sono regioni più arricchite di altre e la

stessa cosa per quelli upregolati.

Il vantaggio di una RNA-seq rispetto a un microarray è che possiamo

identificare nuovi geni o isoforme di geni noti. Questo perché in un

microarray abbiamo delle sonde ben definite spottate su un cip che

ibridizzano col messaggiero, quindi se non c’è una sonda per quel mRNA

non lo vediamo. Nell’RNA-seq vediamo tutto quello che c’è in una cellula

dopo aver arricchito il poliA. Quindi, se abbiamo geni nuovi li mapperemo

comunque, l’unica cosa è che quando li mapperemo nel genoma sotto non

vedremo il nome del gene noto ma solo il segnale di RNA seq. Questo

segnale lo possiamo usare per ricostruire la struttura del gene. Prendiamo

tutti i reed dell’esperimento e li mappiamo sul genoma, quindi la maggior parte mappano su geni


ACQUISTATO

1 volte

PAGINE

30

PESO

3.29 MB

AUTORE

Ile9

PUBBLICATO

+1 anno fa


DETTAGLI
Corso di laurea: Corso di laurea in scienze biologiche
SSD:
Università: Torino - Unito
A.A.: 2016-2017

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher Ile9 di informazioni apprese con la frequenza delle lezioni di Laboratorio biomolecolare e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Torino - Unito o del prof Friard Olivier Pierre.

Acquista con carta o conto PayPal

Scarica il file tutte le volte che vuoi

Paga con un conto PayPal per usufruire della garanzia Soddisfatto o rimborsato

Recensioni
Ti è piaciuto questo appunto? Valutalo!

Altri appunti di Laboratorio biomolecolare

Strutturistica di Macromolecole
Appunto
Laboratorio biomolecolare
Appunto
Laboratorio biomolecolare
Appunto
Risposte alle domande Fisiologia vegetale
Appunto