Bioinformatica avanzata

Appunti di Bioinformatica avanzata: la bioinformatica avanzata permette di ottenere dati input e output sulla biologia molecolare. grazie allo sviluppo di nuove tecnologie di next generation …

Esame Bioinformatica 2

Facoltà Medicina e chirurgia

Dal corso del Prof. Pintaudi Anna Maria

Università Università degli Studi di Palermo

Publisher carlotta199622

A.A. 2023-2024

15 pagine

Appunti esame

Vota

Scarica

Estratto del documento

NCBI-NUCLEOTIDE

La entry, in nucleotide, è relativa alla sequenza nucleotidica.

A sinistra si seleziona il database nucleotide e a destra nella barra di testo si inseriscono una o più parole

chiave di ricerca.

Anche in nucleotide esiste l’Advanced

NB: search.

Come si fa una ricerca su Nucleotide?

• Inserendo il nome di un gene;

• Inserendo la sequenza nucleotidica;

• inserendo l’accession number;

• inserendo il nome degli autori di una pubblicazione scientifica collegata con la sequenza di

riferimento;

• contenuto tra “”, costringendo lo strumento a trovare l’esatta sequenza

inserendo una frase esatta

delle parole chiavi. Se non si mettono gli apici, lo strumento cercherà una entry che contiene le

e l’altra ci

parole chiave in qualsiasi campo. (quando non si usano gli apici, è come se tra una parola

fosse un AND)

• utilizzando gli operatori logici AND, OR, NOT;

• utilizzando caratteri jolly come *, che permettono di specificare solo una radice che poi verrà

completata con un insieme di caratteri casuali.

Il risultato della ricerca è composto:

-nella parte centrale dalle entry che lo strumento restituisce.

destra si trova l’insieme degli organism in cui si trova la query, ordinati per numero di entry (il primo

-a

organism avrà un numero di entry maggiore rispetto al secondo organism).

NB: se si seleziona un orgnism presente nella parte destra, verranno visualizzate solo le entry di

quell’organism. È un processo analogo a quello dell’Advanced search.

-a sinistra si trovano una serie di qualificatori, ovvero dei filtri, che si possono aggiungere alla ricerca:

➢ Specie, si ha la possibilità di ricercare la query in una particolare specie;

➢ Tipo di molecola, si può scegliere tra DNA/RNA genomico, mRNA e c’è anche la possibilità di

aggiungere delle altre tipologie in base alle esigenze;

➢ Source databases, in cui si ha la possibilità di selezionare le sequenze RefSeq;

➢ Sequence length, si possono inserire informazioni riguardo la lunghezza della sequenza;

➢ Release date, si possono inserire informazioni riguardo la data di rilascio della sequenza;

➢ Revision date, si possono inserire informazioni riguardo la data di revisione della sequenza.

Esempio esercizio: ricerca su

Nucleotide si seleziona come

Si va su NCBI→

database Nucleotide→ si scrive bcl2

nella barra→ si preme search.

Come risultato si ottiene:

ADVANCED SEARCH IN NUCLEOTIDE È identico rispetto a quello di Gene e quello di Protein.

In advanced search si possono inserire più parole chiave.

In particolare è possibile inserire il nome dell’articolo

scientifico che permette di cercare una determinata entry di

riferimento

NB: alcuni limits presenti in advanced search (quelli cerchiati in

rosso nell’immagine) si trovano nella pagina di ricerca.

Tutto ciò che si scrive nella barra di ricerca e tutto ciò che si seleziona nei vari limits viene riportato nella

pagina di ricerca in una sezione specifica: In questo caso si

scrive bcl2 AND

(homo sapiens

[organism]) nella

barra di ricerca;

successivamente

si selezionano

mRNA e RefSeq

dai limits che si

trovano a sinistra

(cerchiati).

pagina dei risultati è possibile selezionare una entry; una volta aperta l’entry presa in considerazione, è

Dalla

possibile richiamare il formato FASTA della sequenza nucleotidica. La entry è organizzata con

una serie di etichette (a

sinistra) con accanto i

valori corrispondenti.Nel

campo definition si

inserisce una descrizione

della sequenza.

L’accession number

permette di capire che si

tratta di una RefSeq (NM).

utilizza come base per passare da una banca dati all’altra.

NB: il formato FASTA è la sequenza che si

Se si scorre in giù la pagina dell’entry si trova anche le sequenze codificanti:

ad esempio è una sequenza codificante la parte che va da

883 a 1602 (del gene bcl2) e codifica per una proteina.

dell’accession number

È importante notare la presenza

della proteina codificata da questa parte della sequenza.

Per visualizzare la proteina bisogna semplicemente

cliccare sull’accession number.

NCBI-PROTEIN

In Protein è tutto uguale a Nucleotide, con la differenza che le entry saranno sequenze proteiche. Esiste

anche Advanded search per protein, quindi si possono effettuare ricerche con più parole chiave e vari limits.

In ogni entry è presente una parte di informazioni correlate, dove è possibile passare da protein a nucleotide;

cioè si può risalire alla sequenza nucleotidica collegata alla sequenza proteica e viceversa.

Si può inoltre richiamare Pubmed per visualizzare gli articoli che trattano della sequenza proteica o

nucleotidica. viene immessa in database, bisogna inserire e definire ogni dettaglio dell’entry.

Quando una nuova sequenza

NCBI-PUBMED

PubMed ed è la raccolta di riferimenti

scientifici medico-biologici; è stato inserito in

NCBI da qualche anno e può essere

richiamato come tutti gli altri database. La

ricerca avviene nello stesso modo identico a

quello visto precedentemente, ovviamente

specializzato per le pubblicazioni scientifiche.

PubMed contiene al suo interno 4 database:

• MEDLINE, con citazioni dal 1966 ad oggi; abstract; MeSH; aggiornamento settimanale;

• OLDMEDLINE con citazioni dal 1951 al 1965, no abstract, no MESH

• PREMEDLINE (In Process citations) per citazioni non ancora indicizzate; no MeSH; aggiornamento

giornaliero

• PUBLISHER SUPPLIED CITATIONS per citazioni ricevute via elettronica direttamente

dall’editore non ancora pubblicate in cartaceo; il processo di pubblicazione in cartaceo è più lento

rispetto a quello telematico.

Come viene particolarizzata una entry di PubMed? A

sinistra si trovano i nomi dei campi (solitamente

indicati con due lettere) e a destra i valori

corrispondenti all’ entry considerata.

I Mesh terms [MH] sono termini tecnici che servono

per identificare l’ambito dell’articolo.

La data di pubblicazione e quella di inserimento si

trovano nel formato anglosassone (anno/mese/giorno).

Anche in PubMed esiste l’opzione Advanced che

permette di richiamare i dati presenti nella entry, e di

andare a specificare il valore che questi dati devono avere per rispondere al criterio di ricerca.

tutte le pubblicazioni di “smith” dal

ESERCIZIO: ricerca su PubMed Advanced di 2009 al 2010.

1) Si seleziona Author tra le opzioni disponibili, e si scrive nella barra smith, successivamente si preme

ADD.

2) Si seleziona Date- Publication, si scrive nella prima barra 2009 e nella seconda 2010, successivamente

premere AND.

3) controllare nella query box se è stato fatto tutto correttamente e premere search

MeSH (Medical Subject Headings)

È possibile selezionare come database MeSH dalla pagina di NCBI.

Dalla pagina di advanced search di PubMed è possibile accedere al vocabolario di termini medici utili alla

ricerca. Ricercare articoli scritti da “Bonnie W. Ramsey” riguardo la terapia

Esempio: genica nella fibrosi cistica

cystic fibrosis gene therapy ramsey bw (farò un video a riguardo che pubblicherò sul gruppo, perché non è

possibile spiegarlo qui).

SRS

SRS è la pagina iniziale di EBI (The European Bioinformatics Institute); questa banca dati è rimasta indietro

rispetto ad NCBI. La pagina SRS non è liberamente accessibile, e questo sottolinea il decadimento di questa

consentiva di fare delle ricerche all’interno di Pubmed abbastanza simili

banca dati. Questo tipo di banca dati

in origine a quelle fatte con NCBI, e forniva delle entry abbastanza simili (sempre ad NCBI).

EMBL-EBI a disposizione c’è Clustal Omega, cioè

Tra i tools messi un software che verrà utilizzato per le analisi

multiple di sequenze (di n sequenze con n≥3).

Tra i data resources è presente il link diretto a UniProt.

Esiste un’organizzazione molto simile alle banche dati viste fino a ora; infatti è presente una stringa di testo

per effettuare una ricerca ed è anche presente Advanced search.

UNIPROT

È presente una stringa di ricerca dove inserire le parole chiave; inoltre è anche presente advanced search.

Nell’Advanced search è sempre possibile inserire più parole chiavi e scegliere fra gli operatori logici (AND,

OR, NOT).

Una cosa che è presente in Advanced search di UniProt e non in Advanced search NCBI: in base alle parole

chiave che si digitano, lo strumento tenta di completarle con una nomenclatura che ha a disposizione.

Dopo aver cercato una proteina, si viene indirizzati in una pagina in cui sono presenti diverse entry che

corrispondo a:

• sequenze proteiche validate da operatori e

• sequenze proteiche o che non sono ancora state validate da operatori, o che derivano da analisi

bioinformatiche.

Le sequenze validate da operatori, analoghe delle Refseq hanno associato un simbolo giallo ( ), il

quale indica che la sequenza è stata validata manualmente, mentre le sequenze non validate hanno

associato un simbolo blu ( ).

Ogni entry corrisponde a una proteina e ha un proprio accession number.

le regole per assegnare l’accession number sono un po' diverse rispetto a NCBI:

In UniProt

-i primi Accession Number iniziavano con la lettera P (per Protein) oppure Q, oppure O seguiti da 5 numeri;

-Dal 2013 in poi si cominciarono ad assegnare Accession Number costituiti da 10 caratteri alfanumerici.

Si possono avere accession number formati da 6 o 10 caratteri; i primi accession number erano formati da 1

lettera seguita da 5 numeri, mentre adesso sono formati da 10 caratteri.

dell’accession number in Uniprot sono rappresentate in tabella.

Le regole di composizione In base al tipo di accession number si può avere una stima di

quanto sia vecchia la entry.

Ci sono dei casi in cui le entry possono essere suddivise:

• quando una proteina che si pensava unica in realtà ha due

obiettivi diversi, quindi una entry se ne formano due (questa

operazione di unione viene chiamata SPLIT) ;

• due diverse proteine si uniscono sotto un’unica

quando

sequenza (questa operazione di unione viene chiamata

accession number all’interno di una entry.

MERGE). In questo caso si possono trovare due

sono unificate in un’unica

Quando due Entry Entry, i due Accession Number delle Entry vengono

memorizzati nella nuova Entry come AC primario e AC secondario.

Quando una Entry esistente viene suddivisa in due o più sequenze, un nuovo AC viene assegnato alle Entry

mentr

Anteprima

Vedrai una selezione di 4 pagine su 15

Anteprima di 4 pagg. su 15.
Scarica il documento per vederlo tutto.

Scarica

Anteprima di 4 pagg. su 15.
Scarica il documento per vederlo tutto.

Scarica

Acquista con carta o PayPal

Scarica i documenti tutte le volte che vuoi

Dettagli

SSD

Scienze matematiche e informatiche INF/01 Informatica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher carlotta199622 di informazioni apprese con la frequenza delle lezioni di Bioinformatica 2 e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Palermo o del prof Pintaudi Anna Maria.

Appunti correlati

Invia appunti e guadagna

Recensioni

Ti è piaciuto questo appunto?

Bioinformatica avanzata

NCBI-NUCLEOTIDE

NCBI-PROTEIN

NCBI-PUBMED

ADD.

SRS

UNIPROT

OR, NOT).

Recensioni

Domande e risposte

I migliori insegnanti di Informatica

Salvatore F.

Andrea D.

Pietro S.