Estratto del documento

Le read sono mappate sul genoma di riferimento. Applico l

allineamento. Algoritmi ottimizzati apposta, per trovare sequenze

identiche.

Ho le read allineate e posizionate sul genoma. Questa info è

contenuta nel SAM o BAM file, il bam è la versione binaria del sam. I

dati possono essere messi a disposizione su vari livelli. L abbondanza

delle read crea un profilo quantitativo. Le normalizzazioni sono

obbligatorie.

Per confrontare questi dati devo usare un modello statistico che

tenga conto dle fatto che la varianza dei valori cresce all aumentare

della loro media, la varianza è maggiore della media, proprietà detta

sovradispersione. Quindi si utilizza la binomiale negativa, per fare l

analisi differenziale.

NGS = Next Generation Sequencing, quello di prima. Sono tecnologie

non applicate solo alla trascrittomica, ma anche per cercare le mutazioni,

e per studiare la variabilità interindividuale, o per lo studio del

microbioma dell organismo, oppure chip-seq.

Fin qui stavamo facendo RNA-seq bulk, cioè prendo le cell di un

tessuto, che però sono diverse e mi danno dei valori medi. Con l RNA-

seq cs prendo una singola cell.

Analisi di basso livello va dal dato grezzo al valore che poi possiamo

osservare. Ora analisi di alto livello. Individuare i geni espressi in

modo differenziale, es fisiologico vs patologico o tessA vs tessB ecc.

anche per osservare similarità tra geni, geni che lavorano insieme.

Ho due condizioni da confrontare, c di controllo e t di

trattamento. Voglio vedere le differenze. Ho nc e nt replicati. Voglio

capire se il gene x è espresso in modo differenziale.

Posso valutare il fold change, cioè fare la media dei c e la media dei t,

se il rapporto è nettamente alto, superiore a una soglia, allora

posso dire che c è una differenza, ma questo è un po poco.

Allora posso fare un t-test, che va bene per i microarray ma non per

RNA-seq per cui dobbiamo usare la binomiale negativa. L approccio

statistico mi serve per vedere il livello medio ma anche la

variabilità.

Calcola una statistica t. Per valutare se le medie mc e mt sono

statisticamente diverse. A numeratore ho la differenza tra le

medie. A denominatore tengo conto della deviazione standard e del

numero di campioni. Posso usare un'unica varianza cioè due uguali o

andare a calcolare le due varianze diverse, nel metodo di Welch, che

è +rigorosa.

3 situazioni per verde e blu (controllo vs trattamento). Le campane

hanno una media simile. Ma in un caso le campane sono molto strette e i

picchi sono ben separati e distinguibili, nell altro ho due campane molto

larghe cioè ho una grande variabilità e quindi i due picchi sono

praticamente sovrapposti e non distinguibili.

Per un t-test alto ho un p-value basso e dunque una differenza

statisticamente significativa.

Test d ipotesi. L ipotesi nulla H0 è che il gene non è espresso in

modo differenziale nei due casi. L ipotesi alternativa H1 è che il

gene sia espresso in modo differenziale. L errore del I tipo ovvero

accettabile corrisponde a un falso positivo, che ha probabilità alpha

che stabilisco io, il valore del pvalue corrisponde ad alpha, di solito

5%=0.05. Se abbiamo un falso negativo è un err del II tipo cioè

grave e ha prob beta. Si stabilisce l alpha per minimizzare il beta.

Volcano plot. Sulle x ho il log fold change tra le due condizioni c e t.

qui il log è impo perché rende simmetrico il grafico. Col log ottengo

valori simmetrici se il rapporto favorisce C o se favorisce T,

indipendentemente da come ho formulato il rapporto. Sulle y c è la

significatività statistica=pvalue. Quindi sono interessato alle

regioni con fold change alto e con pvalue basso, doive ci sono gli

emoji. La significatività si guarda sempre, il fold change non sempre.

Replicato tecnico: si parte da uno stesso campione e si replica l

esperimento +volte. I replicati biologici: faccio lo stesso

esperimento du tanti campioni dievrsi, se ho diversi campioni di tess

da pazienti diversi che hanno stessa patologia per es.

Abbiamo un test statistico da fare per ogni gene. Abbiamo di solito

un 5% di probabilità di avere falsi positivi (alpha), ma questo su

un singolo test. Se facciamo tanti test perché vogliamo valutare il

confronto su tanti geni allora è +facile che escano dei falsi

positivi. Allora devo fare la correzione da test multiplo.

Ci sono tanti tipi di correzione. La correzione +nota è quella di

Bonferroni. È la +severa ma semplice. Moltiplico il pvalue di ogni

gene per il numero di test da effettuare ovvero il numero di geni. Il

pvalue calcolato sul singolo test statistico è detto nominale, il

pvalue corretto è quello ottenuto dopo la correzione che nel caso di

Bonferroni è ottenuto moltiplicando quello nominale per il numero di test.

Aumentare il pvalue significa peggiorare la significatività del

test. Oppure posso dividere la soglia imposta al pvalue (es

alpha=0.05=5%) per il numero di test, senza modificare il pvalue

nominale. Ad es se ho 1000 geni da valutare, allora posso aumentare

tutti i pvalue nominali per un fattore 1000 ottenendo i pvalue corretti

oppure posso mantenere i pavalue nominali e dividere per 1000 il pvalue

di soglia.

La correzione di Bonferroni step-down o Holm. Simile a quella di

Bonferroni ma meno stringente. Si ordinano i pvalue dal +piccolo/

+significativo/migliore al +grande/-significativo/peggiore. Qui il

coefficiente moltiplicativo non è uguale per tutti i pvalue, ma è n

per il pvalue + piccolo, n-1, n-2 ecc scendendo lungo i pvalue fino al

+grande, decresce da n (x1°) a 1 (xn°).

Correzione di Westfall e Young. + costosa dal pov computazionale.

La usiamo quando abbiamo un buon numero di campioni. Dal dataset

originale applico una permutazione e si ottiene un dataset fittizio,

facendo tante permutazioni diverse ottengo tanti migliaia di dataset

fittizi. Per ogni gene abbiamo due classi a confronto e tanti campioni

ciascuna. Poi assegno in maniera casuale i campioni alle due classi

scambiandole. Ricalcolo il pvalue per ogni gene per ogni permutazione.

Confronto il pvalue ottenuto sulla data matrix originale con il

pvalue ottenuto

sulle data matrix fittizie per ogni gene. Il pvalue corretto è la

proporzione dei datamatrix che presentano un pvalue maggiore

o uguale di quello originale. Devo fare tante permutazioni. Se ho un

valore basso di proporzione allora vuol dire che il pvalue non è dato dal

caso. Avrò un pvalue per ogni gene per ogni matrice quindi confronto i

pvalue delle permutazioni su ogni gene.

La correzione +usata in trascrittomica: Benjamini e Hochberg False

Discovery Rate. Qui abbiamo la lista dei pvalue dal +piccolo al

+grande. Ciascuno viene moltiplicato per n/r, dove r è il ranking/la

posizione, che per il +piccolo è 1 e per il +grande è n. Quindi il +grande

rimane così com è. È la correzione +permissiva.ù

La correzione di bonferroni è quella + severa ovvero quella che scarta

+risultati e che quindi con +probabilità dà falsi negativi. Non

applicare alcuna correzione da test multiplo dà con +probabilità falsi

positivi, insieme alla benjamini e hochberg.

Profili d espressione. Dato un gene ad esso è associato un set di

valori che ne diano l espressione attraverso +campioni. Es time

course, l espressione è acquisita in momenti successivi. Ritroviamo la

heat map, con sulle righe i diversi geni e sulle colonne i diversi

esperimenti. I valori possono essere relativi ovvero in fold change o

assoluti. Sono verdi o rossi o neri a seconda che il fold change sia di

induzione/upregolazione/positivi o

repressione/downregolazione/negativi o uguaglianza/0. Ogni

elemento della matrice (data matrix) è l espressione assoluta o

relativa di quel trascritto per quel campione. Il gene è descritto da

un vettore di valori, un set di valori, un profilo, che diventa una riga

tipicamente nella matrice. L heat map dev essere trasformata per

essere +leggibile, rielaborata. La procedura non applica calcoli sui

valori ma li riorganizza. Tramite una tecnica di clustering gerarchico

bottom-up. Può essere applicato ai geni quindi alle righe o/e agli

esperimenti che sono le colonne.

Ho tanti vettori, uno per ogni gene, di lunghezza pari al numero

di campioni. Per ogni coppia di vettori calcolo la distanza. Compilo

una matrice delle distanze, quadrata e di cui guardo solo metà perché

è simmetrica. Qua sto ragionando sulle righe, voglio riordinare le righe in

modo da metetre vicine quelle +simili quindi i geni con andamento

+simile in tutti i campioni.

Si può calcolare una distanza euclidea ovvero la radice quadrata della

sommatoria dei quadrati delle distanze delle singole componenti, cioè

calcola il modulo di un vettore a n componenti. Oppure la distanza di

Manhattan, ovvero la sommatoria dei moduli delle distanze. Altra

distanza, molto utilizzata, è basata sul coefficiente di correlazione di

Pearson, ovvero 1-la formula che indica il coeff di correlaz di pears. Le

+ usate sono quella euclidea e Pearson.

Tre vettori perché sono 3 geni con 4 valori ciascuno. Rosso e verde

sono molto vicini ma non perfettamente coerenti cioè l andamento

crescente o decrescente del verde non segue sempre quello del rosso

della stessa quantità, i segmenti non risultano paralleli. Rosso e blu

sono +lontani ma coerenti, salgono e scendono della stessa quantit. Se

applico la dist euclidea, vediamo come +simili rosso e verde, premia

i valori assoluti. Pearson vede come +simili profilo rosso e blu,

premia di + l andamento rispetto al valore assoluto, questo è molto

utilizzato per guardare se i due geni sono coinvolti nello stesso

processo.

Clustering gerarchico. Esistono quattro diverse strategie con cui

aggiornare le distanze tra cluster. Nel single linkage, la distanza tra due

cluster è la distanza minima tra i membri dei due cluster. Nell average

linkage prendo la distanza media. La complete linkage prende la

distanza max. Il centroid linkage prende la distanza tra i due

centroidi.

Riorganizzazione delle righe della heat map. Le righe sono riordinate

in base al dendrogramma che riconosce i profili simili e li

avvicina. Vedo vicini profili d espressione simili. Gruppi di geni con

profili simili allora condividono una stessa funzionalità.

Le annotazioni sono termini attribuiti a un gene per descrivere

delle sue proprietà e ruoli nei processi cellulari. Sono termini tecnici

convenzionali, standardizzati e automatizzati, non appartenenti al

linguaggio naturale, sono delle etichette, sono classificati nei dizionari

controllati. Ad es il Gene Ontology (GO).

I termini sono suddivisi in tre categorie: quella rela

Anteprima
Vedrai una selezione di 6 pagine su 25
Espressione genica II Pag. 1 Espressione genica II Pag. 2
Anteprima di 6 pagg. su 25.
Scarica il documento per vederlo tutto.
Espressione genica II Pag. 6
Anteprima di 6 pagg. su 25.
Scarica il documento per vederlo tutto.
Espressione genica II Pag. 11
Anteprima di 6 pagg. su 25.
Scarica il documento per vederlo tutto.
Espressione genica II Pag. 16
Anteprima di 6 pagg. su 25.
Scarica il documento per vederlo tutto.
Espressione genica II Pag. 21
1 su 25
D/illustrazione/soddisfatti o rimborsati
Acquista con carta o PayPal
Scarica i documenti tutte le volte che vuoi
Dettagli
SSD
Ingegneria industriale e dell'informazione ING-INF/06 Bioingegneria elettronica e informatica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher valillo2002 di informazioni apprese con la frequenza delle lezioni di Bioinformatica e genomica funzionale e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Politecnico di Milano o del prof Pattini Linda.
Appunti correlati Invia appunti e guadagna

Domande e risposte

Hai bisogno di aiuto?
Chiedi alla community