Appunti Systems Biology

Name: Appunti Systems Biology
Rating: 5.0 (1 reviews)
Author: Giuliab17

Revisionato il 24/06/2026

di Giuliab17

Publisher

Vota 5,0/5 (1)

Contenuto verificato e approvato dal Team di Esperti di Skuola.net

Appunti relativi al corso di Systems Biology tenuto dal professore Alberto Magi nell'anno accademico 2024/25. Comprende gli argomenti relativi a: introduzione sulla biologia, epigenetica, dna, …

Esame System biology

Facoltà Ingegneria

Dal corso del Prof. Magi Alberto

Università Università degli Studi di Firenze

A.A. 2024-2025

101 pagine

Appunti esame

Scarica

Estratto del documento

DIFFERENTIAL METHYLATION

La metilazione differenziale può essere fatta con due modi diversi: metilazione locus-by-locus o

metilazione regionale (si studia la metilazione differenziale in più locus consecutivi che appartengono

ad una particolare regione genomica). Si hanno delle coordinate genomiche che ci dicono che qui ci

sta una particolare feature genomica e qui un’altra, e sulla base di questa annotazione si studia la

metilazione differenziale.

LOCUS-BY-LOCUS ANALYSIS

Studia la metilazione differenziale del singolo locus attraverso la differenza della mediana del singolo

locus. Si ha matrice di metilazione suddivisa nelle due solite categorie A e B o T e C e possiamo fare il

valore assoluto della mediana, prendendo come significativi i valori maggiori o uguali di 0,2. Questo

0,2 è un valore di Cut Off, una soglia, valutata internamente da Illumina, che hanno fatto gli array e

hanno studiato la loro sensibilità di identificazione (detection sensitivity) e hanno raccomandato di

utilizzare questa soglia per identificare differenze significative di metilazione. Lo 0,2 rappresenta il

livello di metilazione del 20%. Dal momento che Beta rappresenta la frequenza di metilazione, può

assumere valori intermedi, e quella differenza di 0,2 vuol dire che la percentuale della frazione

cellulare dei livelli di metilazione tra test e controllo è maggiore del 20% e quindi che mediamente i

casi o i test sono più o meno percentualmente metilati del controllo. Se mediamente quella CpG nei

casi è metilata al 20% allora nei controlli è metilata per più del 50% oppure per meno del 10%.

1 2

1 2 ) ( )

( , , … , − , , … , ≥ 0,2

Se ora si è visto un approccio che considera la metilazione come numeri reali (0,1; 0, 2;), in

quest’altro approccio invece Beta viene considerato intero. Si trasforma quindi Beta considerando

degli intervalli in cui si definisce non metilato (da 0 a 0.2 circa), emi metilato (da 0.4 a 0.6 circa) o

completamente metilato (da 0.7 a 1 circa). Si costruisce quindi la tabella di contingenza tra casi e

controlli, che riassume il numero di metilati, emi metilati e non metilati.

A questa matrice di contingenza si può applicare il test del t

quadro per vedere se la distribuzione tra metilati, emi metilati e

non metilati, è differente tra gruppo 1 e gruppo 2.

Andando a studiare queste differenze trovo una metilazione

differenziale di gruppo, globale, con il t quadro, ovvero somma

delle differenze tra osservato e atteso.

Quando il t square mi viene significativo so che le

distribuzioni sono diverse, ma non mi dice in che

verso, ovvero non so se ho maggiore sovraetilazione o

il contrario.

REGION ANALYSIS

La metilazione delle regioni generalmente si applica sempre il t test poiché è più facile poi riassumere

i risultati. La metilazione può influenzare la trascrizione, facendola partire dopo o non facendola partir

proprio. Studiamo la metilazione a livello regionale poiché la metilazione agisce in pattern, cioè su

CpG consecutive, non sulle singole CpG. Cioè lo stadio di metilazione di una singola CpG nel

genoma, non cambia quasi mai niente. Sono pattern di CpG consecutive che hanno un impatto sulla

trascrizione maggiore.

CLUSTERING METHYLATION

Altro approccio che cerca gruppi di individui che sono più simili fra di loro sotto il profilo della

metilazione.

Il primo dispositivo per queste analisi fu l’Human Methylation 27, che contava 27000 CpG, ovvero

molto poche. Nel genoma umano, infatti, il numero complessivo di CpG è di circa 28 milioni, quindi

27000 sono circa lo 0,1%. Attualmente invece c’è lo Human Methylation ethic che ne ha circa 900

000, quindi circa il 4%, che sono distribuiti principalmente nella zona di trascrizione. Le regioni

genomiche con un’elevata densità di siti CpG sono dette “Isole CpG” (CpG Island), seguite poi dalle

zone “shore” e “shelf”.

Nell’ultimo decennio sono state introdotte delle nuove tecnologie dette “Next Generation

Sequencing” (NGS), le quali a dei costi sempre più bassi consentono di sequenziare l’intero genoma

di un individuo. Queste tecnologie si basano su algoritmi sequenziatori che hanno varie

implementazioni commerciali, anche se al momento si predilige l’algoritmo formulato da Illumina.

Le caratteristiche fondamentali di questi sequenziatori di seconda generazione sono due:

Riesco a sequenziare a bassissimo costo, oggi sequenziare un intero genoma umano costa circa 200$

e sequenziare un trascrittoma umano 100/150$

Le sequenze che riesco a leggere, a generare, sono corte. Sono infatti formate da più o meno 100/150

basi. Avrò miliardi di questi segmenti.

13.SEQUENZIAMENTO

Il sequenziamento di seconda generazione consente di studiare, analizzare e sequenziare un genoma

con poche centinaia di dollari e soprattutto riescono a generare delle sequenze corte (100/150 basi).

Negli array vengono fatti studi con misure

indirette (studiamo l’abbondanza di una

molecola misurando l’emissione di

fluorescenza); nel caso del sequenziamento di

seconda generazione, andiamo a sequenziare

direttamente gli acidi nucleici, quindi

conosciamo direttamente la loro composizione

di base. Questo aumenta la nostra capacità di

studiarne le alterazioni.

I microarray sono molto limitati nell’identificazione delle varianti genomiche, perché possono

studiare soltanto varianti di singolo nucleotide note e alterazioni del numero di copie da qualche

kilobase in poi; qui, invece, abbiamo a disposizione l’intera sequenza del genoma, avendo

sequenziato e quindi conoscendo il contenuto di base dell’intero genoma, possiamo studiare le

varianti in maniera più precisa e approfondita.

Stessa cosa avviene per gli altri layer omici. Con microarray nella migliore delle situazioni eravamo in

grado di studiare l’abbondanza dei trascritti, cioè la quantità di RNA che ogni gene riesce a trascrivere.

Con il sequenziamento del trascrittoma siamo in grado anche di ricostruire la struttura di un

trascritto.

Anche nel caso della metilazione le possibilità sono maggiori. Con i microarray. Illumina, abbiamo

visto che siamo in grado di studiare 900mila nucleotidi CpG nella più grossa piattaforma a

disposizione, e 27/450mila nelle prime implementazioni. Con il sequenziamento diretto del metiloma

siamo in grado di studiare 28milioni nucleotidi CpG, aumentando enormemente la nostra capacità di

esplorazione di quel layer omico, e soprattutto la risoluzione nell’identificazione delle alterazioni.

Questi oggetti hanno rivoluzionato la nostra risoluzione di studiare i layer omici. La macchina NGS

genera short reads, ovvero legge piccoli frammenti di DNA che sono intorno alle 150 basi.

Esistono due approcci per leggere queste decine/centinaia di milioni di piccoli frammenti.

In campo genomico (ma anche trascrittomico), l’approccio più utilizzato è quello di confrontare le

sequenze generate dal sequenziatore con il genoma di riferimento.

Lo studio del genoma consiste nel cercare le varianti genomiche che stiamo studiando, e

quest’ultime vengono identificate attraverso il confronto delle stesse con il genoma di riferimento.

Gli array consentono di vedere SNP, varianti

strutturali.

Mentre, i sequenziatori di seconda generazione

consentono di vedere tutto tranne la striscia

grigia, detta zona d’ombra, in cui si ha più

difficoltà nel vedere i dati delle sequenze corte,

ovvero non hanno un’accuratezza elevata

nell’identificare questo piccolo range di

variazione (che va da 30 basi circa a 2/3

kilobase).

RESEQUENCING

Nel risequenziamento, un genoma di riferimento è già disponibile per la specie e si è interessati a

confrontare letture brevi ottenute dal genoma di uno o più donatori con il genoma di riferimento. Il

primo passo è la mappatura delle letture brevi su un genoma di riferimento (per determinare

correttamente la posizione corrispondente di ciascuna lettura nel genoma di riferimento).

Utilizzare i sequenziatori per studiare il genoma, consiste nel confrontare le sequenze che noi

generiamo rispetto al genoma di riferimento. Questo è possibile andando a trovare la posizione esatta

rispetto al reference, utilizzando degli algoritmi, dei metodi, che vengono detti allineatori o mappatori.

Questi ultimi allineano le sequenze rispetto al genoma riferimento e ne trovano l’esatta posizione,

cioè le coordinate genomiche. Questi algoritmi allineano decine/migliaia di milioni di sequenze in

tempi brevi.

Quello che si riesce ad ottenere dal

processo di allineamento è identificato

nell’immagine di seguito: in basso

vediamo il reference (in rosso), quelle

in nere sono le sequenze; quindi,

abbiamo le sequenze allineate rispetto

al genoma di riferimento. Ciascuna

base del genoma di riferimento è coperta, sequenziata più di una volta, questo serve per evitare errori

con la ridondanza.

SHORT READS ALIGNER

Questo processo di allineamento (o mappaggio) delle sequenze, dove ogni reads viene allineata

rispetto al genoma di riferimento, viene fatto da algoritmi.

Prima del sequenziamento di seconda generazione, c’era il sequenziamento di prima generazione,

che realizzava sequenze sanger molto più lunghe, dell’ordine delle 700 basi. Queste macchine di

sequenziamento riuscivano a sequenziare, quindi leggere frammenti di DNA circa un centinaio a

corsa. Questi frammenti per essere studiati dovevano essere allineati con il genoma di riferimento.

Questi algoritmi di allineamento non necessitano di una grande velocità computazionale.

Sono stati sviluppati algoritmi, detti Short Reads Aligner, quindi allineatori di sequenze corte, la cui

peculiarità era riuscire ad allineare in maniera estremamente veloce queste sequenze rispetto al

genoma di riferimento. Infatti, oggi grazie a questi oggetti siamo in grado di gestire l’allineamento di un

genoma umano, rispetto a quello di riferimento, è abbastanza affrontabile.

SINGLE NUCLEOTIDE VARIANTS: Per poter studiare le varianti con il

sequenziamento di seconda

generazione, una volta che le

sequenze sono state allineate

rispetto al genoma di riferimento,

le varianti si identificano cercando

le differenze fra le sequenze e il

genoma di riferimento stesso.

Una volta che le sequenze solo allineate, per trovare le differenze tra le sequenze lette e il genoma di

riferimento si vanno a vedere e contare le basi.

Sequenziamo più volte per la riduzione dell’errore. Si devono campionare 2 cromosomi e più cellule.

Ciascuna base è coperta da circa 30 sequenziamenti.

Le varianti a singolo nucleotide si i

Anteprima

Vedrai una selezione di 20 pagine su 101