Analisi bioinformatica di dati genomici

Name: Analisi bioinformatica di dati genomici
Brand: Skuola.net
Rating: 3.5 (2 reviews)

Aggiornato il 30/01/2021

di Ticio

Publisher

Vota 3,5/5 (2)

Contenuto originale e autentico, validato dal Team di Esperti di Skuola.net

Questi appunti consistono in una guida alla gestione e analisi di dati genomici; i capitoli che compongono il documento pdf sono i seguenti:- Introduzione alla gestione di dati genomici (breve …

Esame Genomica applicata

Facoltà Medicina e chirurgia

Università Università degli Studi di Trieste

A.A. 2019-2020

39 pagine

1 download

Appunto

Scarica

Estratto del documento

BLAST: lo strumento per il confronto di sequenze di nucleotidi e proteine

Sicuramente, ad oggi, BLAST (acronimo di basic local alignment search tool) è lo strumento più importante per confrontare sequenze di nucleotidi e proteine; esso sulla base di una query (sequenza di input) effettua un confronto con sequenze contenute in un DB. Esso può essere utilizzato online (NCBI BLAST) o localmente sul proprio PC; i DB utilizzabili per il confronto possono essere disponibili pubblicamente (UniprotKB, NCBI Genomes, etc) o privati (database locali in genere).

BLAST è basato sull'algoritmo di Smith-Waterman utilizzato per l'allineamento locale; l'algoritmo è altamente sensibile, quindi è ottimale per rilevare piccole regioni di somiglianza in sequenze con bassa omologia (ha riscontrato un grande successo in bioinformatica con le applicazioni FASTA e BLAST). L'algoritmo si basa su matrici di somiglianza (PAM o BLOSUM) che assegnano punteggi positivi ad amminoacidi identici o simili e punteggi negativi ad amminoacidi

E lacune e simili. Le matrici PAM e BLOSUM assegnano più in particolare dei punteggi alle caselle di una matrice sulla base delle caratteristiche chimico/fisiche degli amminoacidi considerati e inoltre presentano un indice numerico. Le ricerche sulla somiglianza delle sequenze vengono eseguite in enormi database, quindi per un confronto completo è richiesto del tempo, quindi BLAST semplicemente restituisce il risultato che più probabilmente risulta quello corretto (utilizza quindi un approccio euristico). 17 I parametri associati all'analisi attraverso BLAST dipendono essenzialmente dalla versione di BLAST utilizzata, ma in generale è possibile limitare l'analisi a voci tassonomiche specifiche (ad esempio, Metazoa, batteri, Homo sapiens, primati, etc), impostare la dimensione delle parole (W), il costo dei gap (sia per la loro genesi che per la loro estensione) e la matrice di sostituzione che si intende utilizzare (ossia PAM o BLOSUM, anche se con BLASTn ci

Il testo si basa esclusivamente su match e mismatch. Per quanto riguarda la dimensione delle parole generate per l'analisi attraverso il tool, è possibile dire che più è grande la parola, minore sarà la sensibilità ma maggiore sarà la velocità dell'analisi, mentre più piccola sarà la parola, più lenta sarà l'analisi ma maggiore sarà la sensibilità della stessa. Tutti i parametri sopra menzionati sono combinati per dare in output un valore (e-value) che descrive l'affidabilità del risultato, in quanto corrisponde alla probabilità che il risultato ottenuto sia stato ottenuto casualmente. I risultati verranno ordinati dal risultato "migliore" al risultato "peggiore", ovvero dal e-value più significativo a quello meno significativo. Fondamentalmente, il significato di ciascun hit viene valutato dal punteggio di allineamento dell'allineamento tra la sequenza.

La BLAST (Basic Local Alignment Search Tool) è un algoritmo utilizzato per confrontare sequenze di DNA, RNA o proteine con un database di sequenze noto. L'obiettivo è trovare sequenze simili o omologhe all'input fornito.

L'e-value è un parametro che indica la significatività del risultato ottenuto. Dipende dal punteggio dell'allineamento determinato dalla somiglianza tra la query e il soggetto, calcolato utilizzando una matrice PAM/BLOSUM, e dalla lunghezza dell'allineamento. Solitamente, quando si lavora con specie modello, si tengono in considerazione solo i risultati con un e-value estremamente basso. Tuttavia, trattando altri organismi, è possibile tenere in considerazione anche risultati meno significativi.

Diverse sono le applicazioni possibili di BLAST:

Annotazione delle regioni introniche/esoniche (mRNA come query contro un DB genomico)
Annotazione funzionale di geni (per somiglianza/ortologia); è probabile che geni simili in diverse specie codifichino proteine con funzioni simili/identiche
Predizione genica per l'annotazione di geni tramite somiglianza; ad esempio, la posizione e l'organizzazione di introni ed esoni possono essere determinate

dedotte dal BLASTing degli mRNA umani rispetto al genoma dell'orangotango.

Creazione di alberi filogenici;

Per quanto riguarda i termini similarità e omologia, dobbiamo prestare attenzione al diverso significato di queste due parole in un contesto biologico, in quanto non sono sinonimi e considerarli come tali sarebbe un errore.

SIMILARITÀ non implica alcuna ipotesi riguardante le ragioni alla base della somiglianza stessa;
OMOLOGIA invece mi dice che due sequenze condividono la stessa origine filogenetica;
OMOPLASIA se si osservano caratteristiche fenotipiche simili con origine evolutiva indipendente (solitamente a seguito di evoluzione convergente).

La somiglianza biologica è spesso dovuta all'omologia, ma può anche verificarsi per caso o essere collegata alla convergenza adattativa. Nel trattare le sequenze è sempre più corretto utilizzare il termine similarità, in quanto è sempre possibile stabilire.utilizzare il tag

per formattare il testo in paragrafi:

quantodue sequenze siano simili, mentre non sempre si può deciderese la similarità sia dovuta ad omologia, a convergenza adattativa,oppure al caso. Strutture o sequenze ortologhe in dueorganismi sono sequenze omologhe che sono evolute dallastessa caratteristica nel loro ultimo antenato comune ma chenon necessariamente mantengono la loro funzione ancestrale.

Sequenze omologhe la cuievoluzione riflette invece eventi diduplicazione genica si definisconoparaloghe (per esempio, la catenaalfa dell’emoglobina è un paralogodella catena beta dell’emoglobina edella mioglobina dal momento cheambedue si sono evolute dallostesso gene ancestrale attraversoripetuti eventi di duplicazionegenica).

Ci possono essere casi più complessi in cui, un pò come per le specie ed i loro caratteri morfologici, siosserva similarità di sequenza senza che ci sia un’origine comune (a partire da un’unica sequenzaancestrale); possiamo in questo caso

parlare di sequenze analoghe o molto più semplicemente parlare di disimilarità di sequenza senza omologia. Bisogna infine tenere bene a mente che la similarità di sequenza non necessariamente si traduce in similarità funzionale; spesso due sequenze ortologhe svolgono funzioni leggermente diverse in specie diverse (in caso contrario viene mantenuta anche omologia funzionale), mentre spesso due sequenze paraloghe svolgono funzioni diverse nello stesso organismo (in caso contrario c'è una ridondanza funzionale). Molto spesso sequenze con nessuna omologia o scarsa similarità svolgono funzioni molto simili se non addirittura identiche. Sulla base di quanto è stato detto finora sulla somiglianza e l'omologia, diventa ovvio che due sequenze che condividono un certo grado di omologia condividono un'origine comune da una sequenza ancestrale e che inizialmente condividevano una funzione simile, ma quanta fiducia possiamo avere sul fatto.che attualmente condividono la stessa (o simile) funzione? Ancora una volta, questo è arbitrario e dipende da soglie di somiglianza, che devono essere ragionevolmente impostate dall'utente (maggiore è la somiglianza, ossia più basso è l'e-value, più affidabile sarà un'annotazione). Per quanto concerne l'annotazione funzionale, possiamo dire che esistono in Gene Ontology 3 ampie categorie funzionali: - Componente cellulare - Funzione molecolare - Processo biologico KEGG dà invece una annotazione di tipo metabolico (la sequenza viene inclusa in una rete di pathway complesse); alle proteine e ai geni possono venir quindi assegnate delle annotazioni riguardo una eventuale funzione enzimatica (ciò ha un forte significato biochimico). Capitolo 6 - Genome browsers I genome browsers sono strumenti che consentono l'integrazione di sequenza e annotazioni, rendendo queste informazioni disponibili.

All'utente con un'interfaccia grafica intuitiva. Il ruolo di questi software è quello non tanto di fornire al lettore un genoma ma di integrarlo con delle annotazioni, in quanto senza queste, il genoma ha ben poco significato (consiste in una sequenza di nucleotidi).

Prendendo come esempio il genoma umano è possibile dire che questo contiene un'enorme quantità di informazioni, tanto che l'assemblaggio del genoma in Ensembl è attualmente di 3.609.003.417 coppie di basi e comprende 20.418 geni codificanti proteine, 22.107 geni non codificanti e 15.195 pseudogeni (con oltre 200.000 trascrizioni).

Questi browsers sono stati sviluppati per:

Esplorare le regioni cromosomiche
Esplorare le regioni regolatorie che fiancheggiano i geni (ad esempio i promotori)
Eseguire ricerche in modo semplice (usando parole chiave e/o coordinate posizionali) su scala dell'intero genoma
Eseguire studi riguardanti l'architettura del

genomica) e informazioni sulla struttura tridimensionale del genoma. I genome browsers sono strumenti fondamentali per gli scienziati che studiano il genoma, in quanto consentono di visualizzare e analizzare le informazioni genetiche in modo interattivo. Attraverso questi browser è possibile navigare all'interno dei cromosomi, zoomare su specifiche regioni del genoma e accedere alle annotazioni e alle informazioni dettagliate associate a ciascuna regione. I principali genome browsers utilizzati sono: 1. ENSEMBL: è un browser sviluppato dal consorzio ENSEMBL, che fornisce una vasta gamma di informazioni genomiche per molte specie diverse. È possibile visualizzare le annotazioni dei geni, le varianti genetiche, le regioni conservate, le informazioni sulle sequenze e molto altro. 2. UCSC Genome Browser Gateway: è un altro browser molto popolare che offre una vasta gamma di informazioni genomiche per molte specie diverse. È possibile visualizzare le annotazioni dei geni, le varianti genetiche, le regioni conservate, le informazioni sulle sequenze e molto altro. 3. NCBI Genome Data Viewer: è un browser sviluppato dal National Center for Biotechnology Information (NCBI) che fornisce una vasta gamma di informazioni genomiche per molte specie diverse. È possibile visualizzare le annotazioni dei geni, le varianti genetiche, le regioni conservate, le informazioni sulle sequenze e molto altro. In conclusione, i genome browsers sono strumenti essenziali per gli scienziati che studiano il genoma, in quanto consentono di accedere e analizzare le informazioni genetiche in modo interattivo e dettagliato.sequenziamento di microarray o RNA), allineamenti con sequenze genomiche omologhe di specie correlate (strumenti di genomica comparativa), etc.

ENSEMBL consiste nel risultato di un progetto congiunto di EBI e Wellcome Trust Sanger Institute, avviato nel 1999 proprio prima del rilascio del genoma umano; inizialmente fu progettato per i genomi di organismi modello, ma ora include oltre 80 genomi con particolare attenzione ai vertebrati (comprende uomo, topo, zebrafish, etc; mentre Drosophila, Caenorhabditis e lievito sono disponibili come "outgrops").

Tutti i genomi di Ensembl sono stati annotati utilizzando la stessa pipeline consolidata (ossia con le stesse metodologie) garantendo gli stessi elevati standard qualitativi per tutti i genomi; ogni genoma viene periodicamente aggiornato con nuove informazioni, pertanto sono disponibili molte versioni di annotazioni caratterizzate da un codice diverso (la versione più recente per il genoma umano è GRCh38.p12 ad esempio) eogni nuova versione può includere nuove annotazioni o rimuoverne alcune basando

Anteprima

Vedrai una selezione di 9 pagine su 39