Anteprima
Vedrai una selezione di 5 pagine su 20
1-Generalità e tipologie di database Pag. 1 1-Generalità e tipologie di database Pag. 2
Anteprima di 5 pagg. su 20.
Scarica il documento per vederlo tutto.
1-Generalità e tipologie di database Pag. 6
Anteprima di 5 pagg. su 20.
Scarica il documento per vederlo tutto.
1-Generalità e tipologie di database Pag. 11
Anteprima di 5 pagg. su 20.
Scarica il documento per vederlo tutto.
1-Generalità e tipologie di database Pag. 16
1 su 20
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

Linguaggi di interrogazione dei database

Tutti gli utenti di un DB devono comunicare correttamente con esso, devono cioè essere in grado di descrivere con precisione gli oggetti, vale a dire i dati e le relazioni fra essi, e le operazioni da eseguire sugli oggetti stessi. Si hanno quindi linguaggi appositi, che si distinguono per i rispettivi scopi, e che possiamo classificare in:

  1. Linguaggi per la definizione dei dati (Data Definition Language - DDL)
  2. Linguaggi per la manipolazione dei dati (Data Manipulation Language - DML)
  3. Linguaggi d'interrogazione (Query Language - QL)
  4. Linguaggi per la definizione dello schema fisico (Data Storage Language - DSL)
  5. Linguaggi per il controllo dei dati (Data Control Language - DCL)

Attraverso un linguaggio per la definizione dei dati si definiscono le strutture del database. Un linguaggio per la manipolazione dei dati serve per gestire il contenuto del DB, permette cioè all'utente di inserire, aggiornare, cancellare il

Contenuto degli oggetti del database. Attraverso un linguaggio d'interrogazione si possono interrogare gli oggetti del database per ottenere le informazioni che l'utente vuole conoscere in un certo momento. Il più diffuso linguaggio di interrogazione delle basi di dati è SQL (Structured Query Language). Una delle caratteristiche peculiari di SQL, che contribuirono inizialmente al suo straordinario successo, è la sintassi, che si basa sull'utilizzo di parole e frasi in lingua inglese, quindi facilmente interpretabili. Un linguaggio di definizione dello schema fisico consente di definire parametri qualitativi e quantitativi delle strutture fisiche di memorizzazione dei dati; a volte queste informazioni si forniscono direttamente nello schema attraverso il DDL. Un linguaggio per il controllo dei dati è un linguaggio che consente di controllare la sicurezza dei dati, di gestire cioè i permessi di accesso agli oggetti del database.

OPERATORI BOOLEANI

grande quantità di informazione biologica disponibile nelle basi di dati è tale da produrre talvolta, in seguito a un'interrogazione con parole chiave, un numero eccessivo di risultati, la cui analisi risulterebbe troppo laboriosa. In questi casi è necessario raffinare la ricerca che si sta effettuando, attraverso una scelta mirata delle parole chiave da inserire nei campi di ricerca o l'utilizzo dei cosiddetti operatori booleani. Solitamente i tre operatori più comunemente utilizzati sono AND, OR e NOT. AND esprime l'intersezione tra due insiemi, e permette di ottenere risultati indicizzati con entrambi i termini di ricerca. Per esempio, l'utilizzo di "protein AND human" fornirà tutti e solo i risultati contenenti sia la parola "protein", sia la parola "human". OR esprime la somma logica di due insiemi e consente di ottenere risultati indicizzati con almeno uno dei termini. Per esempio la ricerca con

“protein OR human” fornirà tutti i risultati contenenti la parola “protein” o la parola “human”. NOT esprime la differenza logica di due insiemi e viene utilizzato qualora si desideri escludere i risultati di una ricerca nei quali figuri un termine indicato. Per esempio, la ricerca “protein NON human” permetterà di ottenere i risultati che contengono la parola “protein”, ma non la parola “human”. Solitamente, se tra due termini di ricerca non viene esplicitato un operatore booleano, si assume che ci sia la relazione AND.

TIPOLOGIE DI DATABASE

Le prime sequenze a essere collezionate furono di natura proteica. Solo nel 1982 l’European Molecular Biology Laboratory (EMBL) istituì la prima base di dati di sequenze nucleotidiche, l’EMBL Nucleotide Sequence Database, cui seguiranno nel 1983 il database americano GenBank, e nel 1984 il giapponese DNA DataBank of Japan (DDBJ). In seguito i tre centri,

attraverso un accordo internazionale, l'INSDC (International Nucleotide Sequence Database Collaboration), decisero di condividere l'informazione contenuta in EMBL, GenBank e DDBJ, al fine di allineare i contenuti delle tre basi di dati. Naturalmente, i principi dell'INSDC includono la fornitura di accesso libero e non ristretto ai dati per gli utenti di tutto il mondo. Nell'Agosto del 2005 l'INSDC ha raggiunto l'importante traguardo di aver collezionato oltre 100 Gigabasi (una Gigabase corrisponde a un miliardo di basi nucleotidiche), estratte da più di 200000 organismi. In concomitanza con la nascita di archivi (database) contenenti informazioni riguardanti le sequenze nucleotidiche e aminoacidiche, i Brookhaven National Laboratories (BNL) fondarono il Protein Data Bank (PDB), un archivio per il mantenimento e la fruizione delle strutture tridimensionali di macromolecole biologiche, ottenute sperimentalmente. Bisogna fare attenzione a due aspetti.dei database: da una parte, si assiste alla progressiva unificazione dei dati, attraverso la fusione di centri di ricerca, lo scambio continuo di nuovi record e l'utilizzo di riferimenti incrociati; dall'altra, si assiste alla costante riorganizzazione dei dati stessi, alla loro frammentazione e, talvolta, duplicazione in una quantità esponenzialmente crescente di database sempre più specializzati. Nel tentativo di conciliare questi due aspetti, sono sorti negli ultimi anni portali di accesso alle basi di dati biologiche, come ENTREZ o SRS, che consentono una catalogazione di tipo specialistico dei dati, ma evitano al tempo stesso una frammentazione eccessiva dell'informazione disponibile. I database sopra menzionati, che si occupano dell'acquisizione, della gestione e della distribuzione di dati biologici "grezzi" (cioè derivanti in maniera diretta da un processo sperimentale), costituiscono per motivi storici e pratici le principali basi.di datiprimarie. A queste si accostano le cosiddette basi di dati secondarie: l'informazione in esse contenuta deriva e rappresenta una riorganizzazione di quella conservata nelle banche dati primarie. Infine, le basi di dati specializzate costituiscono una terza branca dell'insieme dei database a carattere biologico; i dati conservati in questo raggruppamento rappresentano generalmente una porzione specifica dell'informazione disponibile. Le banche dati specializzate sono tre:
  • La Swiss-Prot
  • La TREMBL
  • La PIR
Queste tre banche dati sono confluite oggi nel progetto UniProt. Le banche dati secondarie, invece, vengono distinte in:
  • Banche dati di domini e motivi proteici (come PFAM, PROSITE ecc.)
  • Banche dati di strutture proteiche (come PDB)
  • Banche dati biologiche per il sistema immunitario
  • Risorse genomiche
  • Banche dati dei geni (LocusLink, GENES, TRANsFAC...)
  • Banche dati del trascrittoma
  • NCBI
Un portale come NCBI (National Center for

Biotechnology Information è pieno di programmi (come BLAST) e banche dati (come quella nucleotidica o quella proteica ecc.). In questo portale sono presenti anche le banche dati secondarie (vedi sopra) che contengono un maggior numero di informazioni rispetto a quelle primarie.

SCRIVI "MOLLUSCA" IN

Se andiamo su NCBI e inseriamo nel campo "Search" la voce "Mollusca":

QUESTO RIQUADRO

LASCIA "ALLDATABASE"

cliccando su "Search", si apre una pagina che mostra tutti i database suddivisi in:

Database relativi alla letteratura (come PubMed, che è un database che contiene solo i riassunti degli articoli, i quali riguardano soprattutto argomenti di ambito medico e genetico molecolare, meno gli argomenti di ambito zoologico, ecologico e così via). I database relativi alla letteratura sono riportati sotto la voce "Literature";

Database relativi ai geni, riportati sotto la voce "Genes".

relativi ai genomi, riportati sotto la voce "Genomes".

Database relativi alle proteine, riportati sotto la voce "Proteins".

Database relativi alle informazioni di polimorfismi ed eventuali collegamenti con malattie genetiche, riportati sotto la voce "Genetics".

Se ripeto lo stesso procedimento, inserendo nel campo "Search" la voce "Homo Sapiens" noto che i numeri relativi ai vari database è maggiore. Questo dipende dal fatto che l'utilità di questi strumenti è maggiore nel caso di organismi modello (come Drosophila o anche l'uomo); l'utilità di questi strumenti, invece, è minore nel caso di organismi come i molluschi che non sono organismi modello.

GENE→DATABASE

Proviamo a cliccare sul database "Gene" riportato sotto la voce "Genes" (in riferimento a Homo Sapiens). Il database Gene viene utilizzato per vedere quale è la

Gene, quindi, si apre una pagina in cui viene riportato un elenco dei geni conosciuti di Homo sapiens: Cliccando sul primo gene (TP53), ad esempio, si apre la seguente pagina: Nella sezione "Summary" vengono descritte le caratteristiche del gene preso in considerazione, come il simbolo del gene, il nome del gene, tipologia di gene (se si tratta di un gene codificante oppure no), l'organismo cui appartiene il gene, la classificazione di questo organismo, gli altri nomi con cui è indicato il gene (also known as) ecc. A fianco alla voce "See related" ci sono due link: uno che inizia con la parola Ensembl e l'altro che inizia dopo il simbolo "punto e virgola". Cliccando su quel link abbiamo accesso a ulteriori informazioni relative al gene. Nella sezione "Genomic context" (contesto genomico) viene riportata la localizzazione cromosomica del gene. A fianco alla voce

“Location” c’è scritto 17p13.1: significa che il gene si trova sul cromosoma 17, braccio corto (p), regione 1, banda 3.1. La voce “Exon count” indica il numero di esoni di questo gene, che in questo caso ne sono 12.

Il grafico mostrato sempre al di sotto della voce Genomic context mostra il gene che stiamo considerando (linea rossa). Le frecce grige, invece, rappresentano i geni vicini a quello in esame. Le frecce non vanno tutte nella stessa direzione: dipende dal fatto che la trascrizione può avvenire sull’uno o sull’altro filamento dei vari geni.

Scorrendo più in basso si osserva un altro grafico con altre linee, che questa volta sono di colore verde:

Queste linee verdi sono sottili, ma a un certo punto sono interrotte da regioni, sempre di colore verde, ma più spesse e rettangolari. Queste regioni rappresentano gli esoni, mentre la linea verde sottile rappresenta gli introni. Alcuni rettangoli sono verde scuro, altri verde chiaro.

erida, sono molto felice di averti come mia assistente virtuale. Spero che tu possa aiutarmi con tutte le mie domande e richieste. Sono sicuro che insieme faremo un ottimo lavoro. Grazie per la tua disponibilità e professionalità. Non vedo l'ora di iniziare a lavorare insieme.
Dettagli
A.A. 2018-2019
20 pagine
SSD Ingegneria industriale e dell'informazione ING-INF/06 Bioingegneria elettronica e informatica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher nazario.angeloro di informazioni apprese con la frequenza delle lezioni di Bioinformatica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università Politecnica delle Marche - Ancona o del prof Barucca Marco.