Si prendeva il trascrittoma di due tipologie di campioni da
confrontare. Il trascritto veniva retrotrascritto in DNA
complementare per ragioni di stabilità. Si colorava di colori diversi
con la fluorescenza i due campioni. I due campioni vengono poi
miscelati e la miscela va su un chip. Poi avviene l ibridazione, in cui
le seq sul chip denaturate quindi che diventano a singolo filamento
vanno poi a legarsi alle seq complementari, quindi avrò segnale in
tutte le posizioni che si sono legate al campione, sia per il canale in
rosso che in verde. Scansionando la superficie con un laser avrò
fluorescenza nelle diverse bande. Così ho una quantificazione
digitale e poi elaborando l immagine posso ottenere le quantità e capire
quali sono le posizioni che hanno più trascritto.
Ottengo un immagine con degli spot luminosi emessi dai fluorofori
presenti. L analisi di immagine per la quantificazione del segnale
luminoso associato a ciascun fluoroforo o canale prevede:
1. il grid alignment, ovvero il posizionamento della griglia dei pixel
sull immagine, quindi devo trovare la posizione degli spot in termini di
pixel della matrice
2. segmentazione, ovvero devo selezionare i pixel appartenenti
allo spot luminoso
3. estrazione dell intensità, quindi associare allo spot luminoso un
valore numerico che può essere la media la mediana ecc, cioè la
quantificazione del livello di espressione
4. correzione di background, ovvero devo tenere in conto della
possibile luminosità dello sfondo e quindi devo sottrarla alla
luminosità complessiva per ottenere solo quella legata agli spot
5. valutazione della qualità degli spot, ovvero devo valutare la
qualità dell esperimento guardando la forma la dimensione l
uniformità degli spot.
Posso usare dei grafici di tipo scatter plot per rappresentare i dati d
espressione. Sugli assi ci sono G e R cioè green e red che sono i
colori degli spot indagati. Il valore è riportato dopo la
trasformazione logaritmica, per rendere i valori simili a una
distribuzione normale. Ogni punto è un trascritto. Se per i due
campioni i valori sono simili allora i punti saranno sulla bisettrice. Se
mi allontano dalla bisettrice vuol dire che ho delle differenze. Sono
quantificazioni relative, non ottengo concentrazioni di espressione ma
sono quantificazioni relative, non assolute. I punti che si allontanano
dalla bisettrice sono quelli che ci interessano perché
rappresentano le differenze riscontrate tra i due campioni. Lo
scatterplot a destra è molto usato, ovvero l MA plot, sull asse y ho il
log (R/G) e sulle x ho la semisomma di logR e logG ovvero la
2
media. A sinistra ho i valori a bassa intensità, a destra quelli ad alta
intensità. I trascritti non differenziali si trovano lungo l orizzontale
per 0 ovvero quando R=G quindi R/G=1 quindi il log è 0.
Con l MA plot posso vedere se ci sono bias sistematici. Es per i valori
a bassa intensità vedo un andamento non lineare, vedo una
distorsione, perché chiaramente dal pov biologico non ha senso che per
valori poco espressi ci sia una differenza grande tra R e G.
L andamento generale delle curve nei due grafici a scatter plot deve
essere rispettivamente la bisettrice e la retta orizzontale per 0, solo
alcuni punti saranno fuori da questo andamento e saranno quelli
differenziali.
Si possono applicare delle normalizzazioni. Una normalizzazione
preprocessing, prima del risultato su cui vedere le differenze, è quella
in cui si trasla la nuvola di punti di un certo valore lungo la
verticale, qunidi è un aggiustamento globale. Per capire di quanto
traslare vado a vedere l espressione dei geni housekeeping cioè
quelli base che non riteniamo differenziali. Si può prendere una media o
una mediana del set di questi hk per es. Tolgo ai punti l intensità
degli hk. Ci sono alcuni geni sempre usati come hk, ci sono però delle
eccezioni. c = log k.
2
Oppure posso sottrarre a ciascun punto un valore che non è una
costante ma dipende dall intensità dell espressione (x). Di solito
non si prende tutta la nuvola ma solo il cuore, di solito il 20%, si tolgono
gli outlier, per evitare di deformare troppo la nuvola. Questa
normalizzazione si chiama lowess = LOcally WEighted Scatterplot
Smoothing. Se vediamo che nel grafico c è un andamento che segue la
linea rossa, identifichiamo le oscillazioni per ogni valore di A
ovvero c=c(A) e lo sottraiamo ai punti.
Dye swap. La procedura di prima dipende molto dall efficienza dei
fluorofori (detti anche dye). A volte quindi si ripeteva l esperimento
scambiando i fluorofori, esperimento a canali invertiti. Quindi il log
ratio doveva venire molto simile a – il log ratio dell invertito. Per
valutare l affidabilità del risultato.
Questa è una tecnologia superata ormai. Poi arrivano gli array a
oligonucleotidi. Qui le sequenze sono sintetizzate direttamente
sul vetrino (in situ), che è il chip, con una tecnica fotolitografica con
la maschera. Le sonde sono brevi tipo 5 basi da cui il termine
oligonucleotidi, di cDNA. Il vetrino è suddiviso in tanti quadranti, ogni
quadrante contiene tante copie della stessa seq. Il trascritto viene
marcato dal fluoroforo e si va a legare alle sonde complementari, avviene
l ibridazione, la molecola di trascritto è marcata quindi con la scansione
vedo il segnale sulle posizioni in cui è avvenuto il legame, dove non c è
segnale significa che non è avvenuta l ibridazione.
Feature è il quadrante contenente tante copie di una stessa seq
sonda o probe. Di solito le dimensioni del quadrante sono di 5x5 micron,
contenenti milioni di copie della sonda. La sonda è una seq breve,
oligonucleotide, di qualche decina di basi, di solito 25 bp.
Probe set. Se abbiamo una seq breve abbiamo una sonda meno
specifica, perché può essere complementare a tante seq lunghe diverse.
Al contrario, una seq lunga aveva la sua specificità. Qunidi devo
mappare un gene usando non una singola sonda ma un insieme di
sonde, un probe set, dove ogni sonda è una sottosequenza, con un
certo overlap tra loro.
Probe pair. In alcuni macroarray non c è solo il probe set ma anche
delle sonde alterate, formando i probe pair. Ovvero, ogni probe pair è
costituito dalla sonda ovvero dalla sottoseq considerata del trascritto,
che è detta match probe, e da un'altra sonda identica ma con una
diversa base nel centro, che è detta mismatch probe. Questo serve per
valutare i leg non specifici, cioè se il trascritto si lega anche al
mismatch probe vuol dire che c è un problema.
Nel caso del microarray a cDNA: uso una singola sonda per ogni
trascritto; il trascrittoma marcato è doppio, perché vado sul vetrino con
la miscela dei campioni, quindi ho un ibridazione competitiva in cui
il leg è favorito dalla concentrazione maggiore o minore del trascritto di
un campione rispetto all altro. Negli oligonucleotidi (microarray di
Affymetrix): ho un set di sonde perché da sole non sarebbero
abbastanza specifiche; sul vetrino vado con il trascrittoma di un singolo
campione, ogni campione corrisponde a un vetrino, non c è ibridazione
competitiva.
-
Espressione genica
-
Biochimica - espressione e regolazione genica
-
Biologia - Regolazione espressione genica – Slides
-
Espressione della regolazione genica