Bioinformatica avanzata

Corso di bioinformatica avanzata, argomenti trattati (con esercitazioni annesse) LCS, Distanza di Edit, NCBI, Allineamento globale, locale e multiplo (clustal omega), matrici di sostituzioni ( …

Esame Bioinformatica avanzata

Facoltà Scienze matematiche fisiche e naturali

Dal corso del Prof. Caruso Francesca Pia

Università Università degli Studi di Padova

Publisher sono_scema_

A.A. 2020-2021

110 pagine

Appunto

Vota 5,0 / 5 (1)

Scarica

Estratto del documento

RICERCA PWM IN UNA SEQUENZA

Per cercare un'espressione regolare all'interno di una sequenza è necessario far "scorrere" la PWM lungo la sequenza:

Facendo un passo di 1 posizione per ogni possibile finestra;
Calcolando uno score PWM per ogni i-esima finestra.

Ci troviamo davanti al calcolo di molti score, si può identificare la posizione con lo score più alto, spesso però si definisce una soglia e si va a selezionare solo le posizioni che hanno raggiunto almeno l'80% dello score massimo.

Per ogni posizione si considera lo score max, in questo esempio per la prima posizione lo score max è 0.36 di G, nella seconda è 0.83 di T e così via; questi score si vanno poi a moltiplicare tra di loro per ottenere lo score massimo ottenibile in questa matrice.

Le PWM vengono poi trasformate, prima vengono normalizzate rispetto al caso random, che rappresenta la probabilità di osservare uno dei 4 nucleotidi (1/4) o uno dei 20.

amminoacidi (1/20), quindi ogni elemento della tabella viene diviso, a seconda se abbiamo a che fare con nucleotidi o amminoacidi, in ¼ o 1/20. Poi si ha la seconda trasformazione logaritmica in base 2 (sempre di ogni valore delle celle) e si ottiene così la matrice PSSM, che rappresenta la matrice PWM ma trasformata. A questo punto, dalla matrice PSSM per ottenere lo score finale bisogna sommare i residui di interesse di ogni posizione.

Rappresentazione grafica della matrice PWM: sull'asse delle x ci sono le posizioni dei residui, i residui sono disegnati con un'altezza che risulta essere proporzionale alla frequenza: con una frequenza maggiore avremo una lettera più alta. Per ogni posizione si calcola l'entropia di Shannon che viene usata poi per poter calcolare l'altezza del residuo in unità di misura del bits che si trova sull'asse delle y.

Il valore massimo è rappresentato da 2 bits per i nucleotidi e 4.3 per

gliamminoacidi che corrisponde ad un solo nucleotide o un soloamminoacido per posizione.

TOOL E DATABASE: JASPAR

JASPAR è un database open-access di profili di legame dei fattori di trascrizione (TF), archiviati come matrici di frequenza di posizione (PFM).

I profili PFM possono essere convertiti in matrici PWM o PSSM, che possono essere utilizzate per scansionare sequenze genomiche, gratuitamente e direttamente on-line.

La collezione JASPAR CORE contiene una serie di profili di siti di legame dei fattori di trascrizione per gli eucarioti:

derivati da raccolte pubblicate (evidenze sperimentali),
selezionati,
non ridondanti.

Nel box del tool si seleziona il nome del fattore di trascrizione e si possono aggiungere una serie di filtri, si avrà poi il risultato con le varie PWM. Per ogni PWM c'è l'identificativo con la versione, il nome del fattore, la specie e il TF class sistem che definisce i livelli gerarchici delle caratteristiche strutturali del

dominio di legame al DNA. Vi sono 4 livelli generali (come famiglia e classe) e 2 specifici (gene e molecole).

Si clicca sul link dell'identificativo, sulla sinistra c'è un summary delle varie informazioni con il sequence logo e la matrice delle sequence che può essere scaricata, le frequenze però sono assolute (PFM) e per trasformarle in relative (PWM) si va a dividere ogni valore di ogni cella per il numero totale di osservazioni.

Inoltre si ha il tool scan che permette di scansionare la sequenza di DNA: nel box incolliamo la sequenza e si va a selezionare la soglia per poter avere la posizione del promotore in cui c'è il match con la PWM. Si considerano solo gli score che hanno superato la soglia. Il limite di questo tool è che non si possono scansionare sequenze con più di 3000 nucleotidi; un'alternativa è il tool FIMO dove posso verificare una o più sequenze insieme, FIMO fa parte del portale THE MEME SUITE (un

insiemedi tool sui promotori). Ci va a dare anche un p-value che ci da unasignificabilitá statistica che ci permette di scaricare tutti i risultatirandom. La collezione deve essere prima scaricata e poi si va a darecome input, come input si vanno a dare anche le sequenze promotrici. Nelcaso in cui si hanno risultati multipli si corregge il p-value con il q-value.

QUATTORDICESIA LEZIONE 23/11/2020

ESERCITAZIONE 3 BIOMART

Biomart è un tool presente in Ensemble e serve per poter recuperare idati di annotazione genomica.

ESERCIZIO 1

Utilizzando biomart recuperare i symbol e la coordinatecromosomiche di tutti i geni localizzati sul cromosoma X di uomo.

Vado su Ensemble e da li su Biomart (sulla banda blu scuro), clicca su“chose database” e seleziona Genes e poi su “chose dataset” e scegliere“human Gene”.

Vai su “filters” e poi clicca su region, compare cosí l’elenco di tutti i filtri,seleziona su “chromosom” e

dal menù vicina selezionare "X". Ora vai su "attributes" e seleziona "features" e poi vai su gene e seleziona "genename", "chromosome/scaffold name", "gene start", "gene end" per la localizzazione. In alto a sinistra premi su "count" e poi clicca su "result" per avere la tabella con i risultati, per scaricarli bisogna andare su "export all result", su file lascia su "TSV" e poi su "go" e si scarica un file denominato "IMART_EXPORT.TXT". ESERCIZIO 266 Utilizzando biomart scaricare le sequenze promotrici localizzate a 100bp (in condizioni reali si utilizzano sequenze di 1500 bp) a monte del sito di inizio della trascrizione dei geni TP53, BRCA1, KLF6 in uomo. Database: Genes; Dataset: Human Gene; Filters: seleziona "gene" e poi "input external" (il secondo) e nel box a destra scrivere il nome dei 3 geni, uno sotto l'altro.

l'altro (in colonna), selezionare dal menù a tendina "gene name".

Attributi: vai su "features" e poi su "gene", deseleziona i 4 campi già impostati e seleziona "sequence".

Flank gene indica una sequenza che precede l'inizio della trascrizione, Flank coding invece indica una sequenza che precede l'inizio dellatrascrizione più il primo esone in modo da poter scaricare una sequenza promotrice.

Seleziona qui "flank coding" e sotto "upstream flank" (che significa amonte) e nel box vicino scrivere 100.

Infine aprire "headen information" e seleziona "gene stable ID" e "gene name".

Vai su results e scarica informato FASTA.

ESERCIZIO 3

Data una lista di identificativi Affymetrix (u133plus2) recuperare gli Ensembl Gene ID e gli Accession numbers RefSeq degli mRNA dei geni corrispondenti:

Affymetrix ID: 202763_at

Affymetrix ID: 209310_s_at

Affymetrix ID: 207500_at

Database: Genes;

Dataset: Human

Gene;67Filtres: seleziona “gene” e poi “input microarray”, nel box scrivo i codici incolonna e nel menú a tendina seleziono il codice del CIP che da la traccia.

Attributi: vai su “features” e poi su “gene”, seleziona “Gene stable ID” epoi vai su “external” e in “external reference” e seleziona “RefSeq mRNAID”. vai su results e stampa il file in TSV.

Alcuni Ensemble ID sono ripetuti piú volte perché si riferiscono aitrascritti.

Per avere anche l’accession number dei trascritti, in attributi nelle“microarray probes” selezionare “Affy HG U133 PLUS 2 PROB”.

ESERCIZIO 4

Utilizzando biomart cercare tutti i geni umani coinvolti nelfenotipo «Alzheimer disease» e scaricare una tabella conrispettivi Gene Name ortologhi in Mouse e Zebrafish.

Database: Genes;Dataset: Human Gene;Filter: Seleziona “Phenotype” e sulla destra cercare

“Alzheimer disease”;

Attributi: selezionare “Homologues” dove troviamo le varie specie in ordine alfabetico, selezionare “mouse orthologues” e selezionare “mouse gene name, fare lo stesso anche con zebrafish. Ritorna sopra e in “gene” selezionare solo “gene name”. Vai su result e scaricare.

ESERCIZIO 5

Utilizzando Biomart riportare per tutti i geni umani codificanti per proteine localizzati sul cromosoma 4 nella posizione 1:10000000, il Gene Symbol e le informazioni relative dominifunzionali, in particolare:

Ensembl Family Description
PROSITE profiles ID
PROSITE patterns ID
PROSITE patterns start
PROSITE patterns end

Database: Gene;

Dataset: Human Gene;

Filter: vai su “region” e seleziona “Chromosome” e poi il numero delcromosoma di interessa e in “cordinates” inserire l’intervallo 1:10000000, in “gene” selezionare “gene type” e poi “protein coding”.

Attributi:

In "features" vai su "protein domains" e in "family information" seleziona "ensemble family", in "domains" seleziona "prositepatterns/patierns start profiles/ end ID" e in "gene" seleziona "genename". Pattern= espressione regolare; profilers= profilo PWM per lo stesso dominio funzionale. ESERCIZIO 668 Utilizzando biomart scaricare una tabella relativa a tutte le varianti Germline note del gene umano EGFR. In particolare la tabella deve contenere le seguenti informazioni: Gene Name Variant Name Variant alleles Clinical significance Chr position start Chr position end PolyPhen prediction SIFT prediction Variant consequence Database: Gene; Dataset: Human Gene; filter: seleziona "gene" e poi "input external" e nel box scrivere il nome del gene. Attributi: selezionare "variant (germline)" e in "gene" selezionare "genename", in "germline variant"

Utilizzando biomart eseguire una ricerca per i seguenti Entrezgene di uomo: 100 e 5728. Per ognuno di questi riportare il gene symbol e il name, accession e definition dei termini di Gene Ontology ad essi associati.

Database: Gene;

Anteprima

Vedrai una selezione di 20 pagine su 110