Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
DIFFERENTIAL METHYLATION
La metilazione differenziale può essere fatta con due modi diversi: metilazione locus-by-locus o
metilazione regionale (si studia la metilazione differenziale in più locus consecutivi che appartengono
ad una particolare regione genomica). Si hanno delle coordinate genomiche che ci dicono che qui ci
sta una particolare feature genomica e qui un’altra, e sulla base di questa annotazione si studia la
metilazione differenziale.
LOCUS-BY-LOCUS ANALYSIS
Studia la metilazione differenziale del singolo locus attraverso la differenza della mediana del singolo
locus. Si ha matrice di metilazione suddivisa nelle due solite categorie A e B o T e C e possiamo fare il
valore assoluto della mediana, prendendo come significativi i valori maggiori o uguali di 0,2. Questo
0,2 è un valore di Cut Off, una soglia, valutata internamente da Illumina, che hanno fatto gli array e
hanno studiato la loro sensibilità di identificazione (detection sensitivity) e hanno raccomandato di
utilizzare questa soglia per identificare differenze significative di metilazione. Lo 0,2 rappresenta il
livello di metilazione del 20%. Dal momento che Beta rappresenta la frequenza di metilazione, può
assumere valori intermedi, e quella differenza di 0,2 vuol dire che la percentuale della frazione
cellulare dei livelli di metilazione tra test e controllo è maggiore del 20% e quindi che mediamente i
casi o i test sono più o meno percentualmente metilati del controllo. Se mediamente quella CpG nei
casi è metilata al 20% allora nei controlli è metilata per più del 50% oppure per meno del 10%.
1 2
1 2 ) ( )
( , , … , − , , … , ≥ 0,2
Se ora si è visto un approccio che considera la metilazione come numeri reali (0,1; 0, 2;), in
quest’altro approccio invece Beta viene considerato intero. Si trasforma quindi Beta considerando
degli intervalli in cui si definisce non metilato (da 0 a 0.2 circa), emi metilato (da 0.4 a 0.6 circa) o
completamente metilato (da 0.7 a 1 circa). Si costruisce quindi la tabella di contingenza tra casi e
controlli, che riassume il numero di metilati, emi metilati e non metilati.
A questa matrice di contingenza si può applicare il test del t
quadro per vedere se la distribuzione tra metilati, emi metilati e
non metilati, è differente tra gruppo 1 e gruppo 2.
Andando a studiare queste differenze trovo una metilazione
differenziale di gruppo, globale, con il t quadro, ovvero somma
delle differenze tra osservato e atteso.
Quando il t square mi viene significativo so che le
distribuzioni sono diverse, ma non mi dice in che
verso, ovvero non so se ho maggiore sovraetilazione o
il contrario.
REGION ANALYSIS
La metilazione delle regioni generalmente si applica sempre il t test poiché è più facile poi riassumere
i risultati. La metilazione può influenzare la trascrizione, facendola partire dopo o non facendola partir
proprio. Studiamo la metilazione a livello regionale poiché la metilazione agisce in pattern, cioè su
CpG consecutive, non sulle singole CpG. Cioè lo stadio di metilazione di una singola CpG nel
genoma, non cambia quasi mai niente. Sono pattern di CpG consecutive che hanno un impatto sulla
trascrizione maggiore.
CLUSTERING METHYLATION
Altro approccio che cerca gruppi di individui che sono più simili fra di loro sotto il profilo della
metilazione.
Il primo dispositivo per queste analisi fu l’Human Methylation 27, che contava 27000 CpG, ovvero
molto poche. Nel genoma umano, infatti, il numero complessivo di CpG è di circa 28 milioni, quindi
27000 sono circa lo 0,1%. Attualmente invece c’è lo Human Methylation ethic che ne ha circa 900
000, quindi circa il 4%, che sono distribuiti principalmente nella zona di trascrizione. Le regioni
genomiche con un’elevata densità di siti CpG sono dette “Isole CpG” (CpG Island), seguite poi dalle
zone “shore” e “shelf”.
Nell’ultimo decennio sono state introdotte delle nuove tecnologie dette “Next Generation
Sequencing” (NGS), le quali a dei costi sempre più bassi consentono di sequenziare l’intero genoma
di un individuo. Queste tecnologie si basano su algoritmi sequenziatori che hanno varie
implementazioni commerciali, anche se al momento si predilige l’algoritmo formulato da Illumina.
Le caratteristiche fondamentali di questi sequenziatori di seconda generazione sono due:
Riesco a sequenziare a bassissimo costo, oggi sequenziare un intero genoma umano costa circa 200$
e sequenziare un trascrittoma umano 100/150$
Le sequenze che riesco a leggere, a generare, sono corte. Sono infatti formate da più o meno 100/150
basi. Avrò miliardi di questi segmenti.
13.SEQUENZIAMENTO
Il sequenziamento di seconda generazione consente di studiare, analizzare e sequenziare un genoma
con poche centinaia di dollari e soprattutto riescono a generare delle sequenze corte (100/150 basi).
Negli array vengono fatti studi con misure
indirette (studiamo l’abbondanza di una
molecola misurando l’emissione di
fluorescenza); nel caso del sequenziamento di
seconda generazione, andiamo a sequenziare
direttamente gli acidi nucleici, quindi
conosciamo direttamente la loro composizione
di base. Questo aumenta la nostra capacità di
studiarne le alterazioni.
I microarray sono molto limitati nell’identificazione delle varianti genomiche, perché possono
studiare soltanto varianti di singolo nucleotide note e alterazioni del numero di copie da qualche
kilobase in poi; qui, invece, abbiamo a disposizione l’intera sequenza del genoma, avendo
sequenziato e quindi conoscendo il contenuto di base dell’intero genoma, possiamo studiare le
varianti in maniera più precisa e approfondita.
Stessa cosa avviene per gli altri layer omici. Con microarray nella migliore delle situazioni eravamo in
grado di studiare l’abbondanza dei trascritti, cioè la quantità di RNA che ogni gene riesce a trascrivere.
Con il sequenziamento del trascrittoma siamo in grado anche di ricostruire la struttura di un
trascritto.
Anche nel caso della metilazione le possibilità sono maggiori. Con i microarray. Illumina, abbiamo
visto che siamo in grado di studiare 900mila nucleotidi CpG nella più grossa piattaforma a
disposizione, e 27/450mila nelle prime implementazioni. Con il sequenziamento diretto del metiloma
siamo in grado di studiare 28milioni nucleotidi CpG, aumentando enormemente la nostra capacità di
esplorazione di quel layer omico, e soprattutto la risoluzione nell’identificazione delle alterazioni.
Questi oggetti hanno rivoluzionato la nostra risoluzione di studiare i layer omici. La macchina NGS
genera short reads, ovvero legge piccoli frammenti di DNA che sono intorno alle 150 basi.
Esistono due approcci per leggere queste decine/centinaia di milioni di piccoli frammenti.
In campo genomico (ma anche trascrittomico), l’approccio più utilizzato è quello di confrontare le
sequenze generate dal sequenziatore con il genoma di riferimento.
Lo studio del genoma consiste nel cercare le varianti genomiche che stiamo studiando, e
quest’ultime vengono identificate attraverso il confronto delle stesse con il genoma di riferimento.
Gli array consentono di vedere SNP, varianti
strutturali.
Mentre, i sequenziatori di seconda generazione
consentono di vedere tutto tranne la striscia
grigia, detta zona d’ombra, in cui si ha più
difficoltà nel vedere i dati delle sequenze corte,
ovvero non hanno un’accuratezza elevata
nell’identificare questo piccolo range di
variazione (che va da 30 basi circa a 2/3
kilobase).
RESEQUENCING
Nel risequenziamento, un genoma di riferimento è già disponibile per la specie e si è interessati a
confrontare letture brevi ottenute dal genoma di uno o più donatori con il genoma di riferimento. Il
primo passo è la mappatura delle letture brevi su un genoma di riferimento (per determinare
correttamente la posizione corrispondente di ciascuna lettura nel genoma di riferimento).
Utilizzare i sequenziatori per studiare il genoma, consiste nel confrontare le sequenze che noi
generiamo rispetto al genoma di riferimento. Questo è possibile andando a trovare la posizione esatta
rispetto al reference, utilizzando degli algoritmi, dei metodi, che vengono detti allineatori o mappatori.
Questi ultimi allineano le sequenze rispetto al genoma riferimento e ne trovano l’esatta posizione,
cioè le coordinate genomiche. Questi algoritmi allineano decine/migliaia di milioni di sequenze in
tempi brevi.
Quello che si riesce ad ottenere dal
processo di allineamento è identificato
nell’immagine di seguito: in basso
vediamo il reference (in rosso), quelle
in nere sono le sequenze; quindi,
abbiamo le sequenze allineate rispetto
al genoma di riferimento. Ciascuna
base del genoma di riferimento è coperta, sequenziata più di una volta, questo serve per evitare errori
con la ridondanza.
SHORT READS ALIGNER
Questo processo di allineamento (o mappaggio) delle sequenze, dove ogni reads viene allineata
rispetto al genoma di riferimento, viene fatto da algoritmi.
Prima del sequenziamento di seconda generazione, c’era il sequenziamento di prima generazione,
che realizzava sequenze sanger molto più lunghe, dell’ordine delle 700 basi. Queste macchine di
sequenziamento riuscivano a sequenziare, quindi leggere frammenti di DNA circa un centinaio a
corsa. Questi frammenti per essere studiati dovevano essere allineati con il genoma di riferimento.
Questi algoritmi di allineamento non necessitano di una grande velocità computazionale.
Sono stati sviluppati algoritmi, detti Short Reads Aligner, quindi allineatori di sequenze corte, la cui
peculiarità era riuscire ad allineare in maniera estremamente veloce queste sequenze rispetto al
genoma di riferimento. Infatti, oggi grazie a questi oggetti siamo in grado di gestire l’allineamento di un
genoma umano, rispetto a quello di riferimento, è abbastanza affrontabile.
SINGLE NUCLEOTIDE VARIANTS: Per poter studiare le varianti con il
sequenziamento di seconda
generazione, una volta che le
sequenze sono state allineate
rispetto al genoma di riferimento,
le varianti si identificano cercando
le differenze fra le sequenze e il
genoma di riferimento stesso.
Una volta che le sequenze solo allineate, per trovare le differenze tra le sequenze lette e il genoma di
riferimento si vanno a vedere e contare le basi.
Sequenziamo più volte per la riduzione dell’errore. Si devono campionare 2 cromosomi e più cellule.
Ciascuna base è coperta da circa 30 sequenziamenti.
Le varianti a singolo nucleotide si i