Le read sono mappate sul genoma di riferimento. Applico l
allineamento. Algoritmi ottimizzati apposta, per trovare sequenze
identiche.
Ho le read allineate e posizionate sul genoma. Questa info è
contenuta nel SAM o BAM file, il bam è la versione binaria del sam. I
dati possono essere messi a disposizione su vari livelli. L abbondanza
delle read crea un profilo quantitativo. Le normalizzazioni sono
obbligatorie.
Per confrontare questi dati devo usare un modello statistico che
tenga conto dle fatto che la varianza dei valori cresce all aumentare
della loro media, la varianza è maggiore della media, proprietà detta
sovradispersione. Quindi si utilizza la binomiale negativa, per fare l
analisi differenziale.
NGS = Next Generation Sequencing, quello di prima. Sono tecnologie
non applicate solo alla trascrittomica, ma anche per cercare le mutazioni,
e per studiare la variabilità interindividuale, o per lo studio del
microbioma dell organismo, oppure chip-seq.
Fin qui stavamo facendo RNA-seq bulk, cioè prendo le cell di un
tessuto, che però sono diverse e mi danno dei valori medi. Con l RNA-
seq cs prendo una singola cell.
Analisi di basso livello va dal dato grezzo al valore che poi possiamo
osservare. Ora analisi di alto livello. Individuare i geni espressi in
modo differenziale, es fisiologico vs patologico o tessA vs tessB ecc.
anche per osservare similarità tra geni, geni che lavorano insieme.
Ho due condizioni da confrontare, c di controllo e t di
trattamento. Voglio vedere le differenze. Ho nc e nt replicati. Voglio
capire se il gene x è espresso in modo differenziale.
Posso valutare il fold change, cioè fare la media dei c e la media dei t,
se il rapporto è nettamente alto, superiore a una soglia, allora
posso dire che c è una differenza, ma questo è un po poco.
Allora posso fare un t-test, che va bene per i microarray ma non per
RNA-seq per cui dobbiamo usare la binomiale negativa. L approccio
statistico mi serve per vedere il livello medio ma anche la
variabilità.
Calcola una statistica t. Per valutare se le medie mc e mt sono
statisticamente diverse. A numeratore ho la differenza tra le
medie. A denominatore tengo conto della deviazione standard e del
numero di campioni. Posso usare un'unica varianza cioè due uguali o
andare a calcolare le due varianze diverse, nel metodo di Welch, che
è +rigorosa.
3 situazioni per verde e blu (controllo vs trattamento). Le campane
hanno una media simile. Ma in un caso le campane sono molto strette e i
picchi sono ben separati e distinguibili, nell altro ho due campane molto
larghe cioè ho una grande variabilità e quindi i due picchi sono
praticamente sovrapposti e non distinguibili.
Per un t-test alto ho un p-value basso e dunque una differenza
statisticamente significativa.
Test d ipotesi. L ipotesi nulla H0 è che il gene non è espresso in
modo differenziale nei due casi. L ipotesi alternativa H1 è che il
gene sia espresso in modo differenziale. L errore del I tipo ovvero
accettabile corrisponde a un falso positivo, che ha probabilità alpha
che stabilisco io, il valore del pvalue corrisponde ad alpha, di solito
5%=0.05. Se abbiamo un falso negativo è un err del II tipo cioè
grave e ha prob beta. Si stabilisce l alpha per minimizzare il beta.
Volcano plot. Sulle x ho il log fold change tra le due condizioni c e t.
qui il log è impo perché rende simmetrico il grafico. Col log ottengo
valori simmetrici se il rapporto favorisce C o se favorisce T,
indipendentemente da come ho formulato il rapporto. Sulle y c è la
significatività statistica=pvalue. Quindi sono interessato alle
regioni con fold change alto e con pvalue basso, doive ci sono gli
emoji. La significatività si guarda sempre, il fold change non sempre.
Replicato tecnico: si parte da uno stesso campione e si replica l
esperimento +volte. I replicati biologici: faccio lo stesso
esperimento du tanti campioni dievrsi, se ho diversi campioni di tess
da pazienti diversi che hanno stessa patologia per es.
Abbiamo un test statistico da fare per ogni gene. Abbiamo di solito
un 5% di probabilità di avere falsi positivi (alpha), ma questo su
un singolo test. Se facciamo tanti test perché vogliamo valutare il
confronto su tanti geni allora è +facile che escano dei falsi
positivi. Allora devo fare la correzione da test multiplo.
Ci sono tanti tipi di correzione. La correzione +nota è quella di
Bonferroni. È la +severa ma semplice. Moltiplico il pvalue di ogni
gene per il numero di test da effettuare ovvero il numero di geni. Il
pvalue calcolato sul singolo test statistico è detto nominale, il
pvalue corretto è quello ottenuto dopo la correzione che nel caso di
Bonferroni è ottenuto moltiplicando quello nominale per il numero di test.
Aumentare il pvalue significa peggiorare la significatività del
test. Oppure posso dividere la soglia imposta al pvalue (es
alpha=0.05=5%) per il numero di test, senza modificare il pvalue
nominale. Ad es se ho 1000 geni da valutare, allora posso aumentare
tutti i pvalue nominali per un fattore 1000 ottenendo i pvalue corretti
oppure posso mantenere i pavalue nominali e dividere per 1000 il pvalue
di soglia.
La correzione di Bonferroni step-down o Holm. Simile a quella di
Bonferroni ma meno stringente. Si ordinano i pvalue dal +piccolo/
+significativo/migliore al +grande/-significativo/peggiore. Qui il
coefficiente moltiplicativo non è uguale per tutti i pvalue, ma è n
per il pvalue + piccolo, n-1, n-2 ecc scendendo lungo i pvalue fino al
+grande, decresce da n (x1°) a 1 (xn°).
Correzione di Westfall e Young. + costosa dal pov computazionale.
La usiamo quando abbiamo un buon numero di campioni. Dal dataset
originale applico una permutazione e si ottiene un dataset fittizio,
facendo tante permutazioni diverse ottengo tanti migliaia di dataset
fittizi. Per ogni gene abbiamo due classi a confronto e tanti campioni
ciascuna. Poi assegno in maniera casuale i campioni alle due classi
scambiandole. Ricalcolo il pvalue per ogni gene per ogni permutazione.
Confronto il pvalue ottenuto sulla data matrix originale con il
pvalue ottenuto
sulle data matrix fittizie per ogni gene. Il pvalue corretto è la
proporzione dei datamatrix che presentano un pvalue maggiore
o uguale di quello originale. Devo fare tante permutazioni. Se ho un
valore basso di proporzione allora vuol dire che il pvalue non è dato dal
caso. Avrò un pvalue per ogni gene per ogni matrice quindi confronto i
pvalue delle permutazioni su ogni gene.
La correzione +usata in trascrittomica: Benjamini e Hochberg False
Discovery Rate. Qui abbiamo la lista dei pvalue dal +piccolo al
+grande. Ciascuno viene moltiplicato per n/r, dove r è il ranking/la
posizione, che per il +piccolo è 1 e per il +grande è n. Quindi il +grande
rimane così com è. È la correzione +permissiva.ù
La correzione di bonferroni è quella + severa ovvero quella che scarta
+risultati e che quindi con +probabilità dà falsi negativi. Non
applicare alcuna correzione da test multiplo dà con +probabilità falsi
positivi, insieme alla benjamini e hochberg.
Profili d espressione. Dato un gene ad esso è associato un set di
valori che ne diano l espressione attraverso +campioni. Es time
course, l espressione è acquisita in momenti successivi. Ritroviamo la
heat map, con sulle righe i diversi geni e sulle colonne i diversi
esperimenti. I valori possono essere relativi ovvero in fold change o
assoluti. Sono verdi o rossi o neri a seconda che il fold change sia di
induzione/upregolazione/positivi o
repressione/downregolazione/negativi o uguaglianza/0. Ogni
elemento della matrice (data matrix) è l espressione assoluta o
relativa di quel trascritto per quel campione. Il gene è descritto da
un vettore di valori, un set di valori, un profilo, che diventa una riga
tipicamente nella matrice. L heat map dev essere trasformata per
essere +leggibile, rielaborata. La procedura non applica calcoli sui
valori ma li riorganizza. Tramite una tecnica di clustering gerarchico
bottom-up. Può essere applicato ai geni quindi alle righe o/e agli
esperimenti che sono le colonne.
Ho tanti vettori, uno per ogni gene, di lunghezza pari al numero
di campioni. Per ogni coppia di vettori calcolo la distanza. Compilo
una matrice delle distanze, quadrata e di cui guardo solo metà perché
è simmetrica. Qua sto ragionando sulle righe, voglio riordinare le righe in
modo da metetre vicine quelle +simili quindi i geni con andamento
+simile in tutti i campioni.
Si può calcolare una distanza euclidea ovvero la radice quadrata della
sommatoria dei quadrati delle distanze delle singole componenti, cioè
calcola il modulo di un vettore a n componenti. Oppure la distanza di
Manhattan, ovvero la sommatoria dei moduli delle distanze. Altra
distanza, molto utilizzata, è basata sul coefficiente di correlazione di
Pearson, ovvero 1-la formula che indica il coeff di correlaz di pears. Le
+ usate sono quella euclidea e Pearson.
Tre vettori perché sono 3 geni con 4 valori ciascuno. Rosso e verde
sono molto vicini ma non perfettamente coerenti cioè l andamento
crescente o decrescente del verde non segue sempre quello del rosso
della stessa quantità, i segmenti non risultano paralleli. Rosso e blu
sono +lontani ma coerenti, salgono e scendono della stessa quantit. Se
applico la dist euclidea, vediamo come +simili rosso e verde, premia
i valori assoluti. Pearson vede come +simili profilo rosso e blu,
premia di + l andamento rispetto al valore assoluto, questo è molto
utilizzato per guardare se i due geni sono coinvolti nello stesso
processo.
Clustering gerarchico. Esistono quattro diverse strategie con cui
aggiornare le distanze tra cluster. Nel single linkage, la distanza tra due
cluster è la distanza minima tra i membri dei due cluster. Nell average
linkage prendo la distanza media. La complete linkage prende la
distanza max. Il centroid linkage prende la distanza tra i due
centroidi.
Riorganizzazione delle righe della heat map. Le righe sono riordinate
in base al dendrogramma che riconosce i profili simili e li
avvicina. Vedo vicini profili d espressione simili. Gruppi di geni con
profili simili allora condividono una stessa funzionalità.
Le annotazioni sono termini attribuiti a un gene per descrivere
delle sue proprietà e ruoli nei processi cellulari. Sono termini tecnici
convenzionali, standardizzati e automatizzati, non appartenenti al
linguaggio naturale, sono delle etichette, sono classificati nei dizionari
controllati. Ad es il Gene Ontology (GO).
I termini sono suddivisi in tre categorie: quella rela
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
-
Espressione genica
-
Espressione della regolazione genica
-
Regolazione dell espressione genica
-
Espressione genica I