Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
BLAST: lo strumento per il confronto di sequenze di nucleotidi e proteine
Sicuramente, ad oggi, BLAST (acronimo di basic local alignment search tool) è lo strumento più importante per confrontare sequenze di nucleotidi e proteine; esso sulla base di una query (sequenza di input) effettua un confronto con sequenze contenute in un DB. Esso può essere utilizzato online (NCBI BLAST) o localmente sul proprio PC; i DB utilizzabili per il confronto possono essere disponibili pubblicamente (UniprotKB, NCBI Genomes, etc) o privati (database locali in genere).
BLAST è basato sull'algoritmo di Smith-Waterman utilizzato per l'allineamento locale; l'algoritmo è altamente sensibile, quindi è ottimale per rilevare piccole regioni di somiglianza in sequenze con bassa omologia (ha riscontrato un grande successo in bioinformatica con le applicazioni FASTA e BLAST). L'algoritmo si basa su matrici di somiglianza (PAM o BLOSUM) che assegnano punteggi positivi ad amminoacidi identici o simili e punteggi negativi ad amminoacidi
E lacune e simili. Le matrici PAM e BLOSUM assegnano più in particolare dei punteggi alle caselle di una matrice sulla base delle caratteristiche chimico/fisiche degli amminoacidi considerati e inoltre presentano un indice numerico. Le ricerche sulla somiglianza delle sequenze vengono eseguite in enormi database, quindi per un confronto completo è richiesto del tempo, quindi BLAST semplicemente restituisce il risultato che più probabilmente risulta quello corretto (utilizza quindi un approccio euristico). 17 I parametri associati all'analisi attraverso BLAST dipendono essenzialmente dalla versione di BLAST utilizzata, ma in generale è possibile limitare l'analisi a voci tassonomiche specifiche (ad esempio, Metazoa, batteri, Homo sapiens, primati, etc), impostare la dimensione delle parole (W), il costo dei gap (sia per la loro genesi che per la loro estensione) e la matrice di sostituzione che si intende utilizzare (ossia PAM o BLOSUM, anche se con BLASTn ci
Il testo si basa esclusivamente su match e mismatch. Per quanto riguarda la dimensione delle parole generate per l'analisi attraverso il tool, è possibile dire che più è grande la parola, minore sarà la sensibilità ma maggiore sarà la velocità dell'analisi, mentre più piccola sarà la parola, più lenta sarà l'analisi ma maggiore sarà la sensibilità della stessa. Tutti i parametri sopra menzionati sono combinati per dare in output un valore (e-value) che descrive l'affidabilità del risultato, in quanto corrisponde alla probabilità che il risultato ottenuto sia stato ottenuto casualmente. I risultati verranno ordinati dal risultato "migliore" al risultato "peggiore", ovvero dal e-value più significativo a quello meno significativo. Fondamentalmente, il significato di ciascun hit viene valutato dal punteggio di allineamento dell'allineamento tra la sequenza.
La BLAST (Basic Local Alignment Search Tool) è un algoritmo utilizzato per confrontare sequenze di DNA, RNA o proteine con un database di sequenze noto. L'obiettivo è trovare sequenze simili o omologhe all'input fornito.
L'e-value è un parametro che indica la significatività del risultato ottenuto. Dipende dal punteggio dell'allineamento determinato dalla somiglianza tra la query e il soggetto, calcolato utilizzando una matrice PAM/BLOSUM, e dalla lunghezza dell'allineamento. Solitamente, quando si lavora con specie modello, si tengono in considerazione solo i risultati con un e-value estremamente basso. Tuttavia, trattando altri organismi, è possibile tenere in considerazione anche risultati meno significativi.
Diverse sono le applicazioni possibili di BLAST:
- Annotazione delle regioni introniche/esoniche (mRNA come query contro un DB genomico)
- Annotazione funzionale di geni (per somiglianza/ortologia); è probabile che geni simili in diverse specie codifichino proteine con funzioni simili/identiche
- Predizione genica per l'annotazione di geni tramite somiglianza; ad esempio, la posizione e l'organizzazione di introni ed esoni possono essere determinate
- Creazione di alberi filogenici;
- SIMILARITÀ non implica alcuna ipotesi riguardante le ragioni alla base della somiglianza stessa;
- OMOLOGIA invece mi dice che due sequenze condividono la stessa origine filogenetica;
- OMOPLASIA se si osservano caratteristiche fenotipiche simili con origine evolutiva indipendente (solitamente a seguito di evoluzione convergente).
per formattare il testo in paragrafi:
quantodue sequenze siano simili, mentre non sempre si può deciderese la similarità sia dovuta ad omologia, a convergenza adattativa,oppure al caso. Strutture o sequenze ortologhe in dueorganismi sono sequenze omologhe che sono evolute dallastessa caratteristica nel loro ultimo antenato comune ma chenon necessariamente mantengono la loro funzione ancestrale.
Sequenze omologhe la cuievoluzione riflette invece eventi diduplicazione genica si definisconoparaloghe (per esempio, la catenaalfa dell’emoglobina è un paralogodella catena beta dell’emoglobina edella mioglobina dal momento cheambedue si sono evolute dallostesso gene ancestrale attraversoripetuti eventi di duplicazionegenica).
Ci possono essere casi più complessi in cui, un pò come per le specie ed i loro caratteri morfologici, siosserva similarità di sequenza senza che ci sia un’origine comune (a partire da un’unica sequenzaancestrale); possiamo in questo caso
parlare di sequenze analoghe o molto più semplicemente parlare di disimilarità di sequenza senza omologia. Bisogna infine tenere bene a mente che la similarità di sequenza non necessariamente si traduce in similarità funzionale; spesso due sequenze ortologhe svolgono funzioni leggermente diverse in specie diverse (in caso contrario viene mantenuta anche omologia funzionale), mentre spesso due sequenze paraloghe svolgono funzioni diverse nello stesso organismo (in caso contrario c'è una ridondanza funzionale). Molto spesso sequenze con nessuna omologia o scarsa similarità svolgono funzioni molto simili se non addirittura identiche. Sulla base di quanto è stato detto finora sulla somiglianza e l'omologia, diventa ovvio che due sequenze che condividono un certo grado di omologia condividono un'origine comune da una sequenza ancestrale e che inizialmente condividevano una funzione simile, ma quanta fiducia possiamo avere sul fatto.che attualmente condividono la stessa (o simile) funzione? Ancora una volta, questo è arbitrario e dipende da soglie di somiglianza, che devono essere ragionevolmente impostate dall'utente (maggiore è la somiglianza, ossia più basso è l'e-value, più affidabile sarà un'annotazione). Per quanto concerne l'annotazione funzionale, possiamo dire che esistono in Gene Ontology 3 ampie categorie funzionali: - Componente cellulare - Funzione molecolare - Processo biologico KEGG dà invece una annotazione di tipo metabolico (la sequenza viene inclusa in una rete di pathway complesse); alle proteine e ai geni possono venir quindi assegnate delle annotazioni riguardo una eventuale funzione enzimatica (ciò ha un forte significato biochimico). Capitolo 6 - Genome browsers I genome browsers sono strumenti che consentono l'integrazione di sequenza e annotazioni, rendendo queste informazioni disponibili.All'utente con un'interfaccia grafica intuitiva. Il ruolo di questi software è quello non tanto di fornire al lettore un genoma ma di integrarlo con delle annotazioni, in quanto senza queste, il genoma ha ben poco significato (consiste in una sequenza di nucleotidi).
Prendendo come esempio il genoma umano è possibile dire che questo contiene un'enorme quantità di informazioni, tanto che l'assemblaggio del genoma in Ensembl è attualmente di 3.609.003.417 coppie di basi e comprende 20.418 geni codificanti proteine, 22.107 geni non codificanti e 15.195 pseudogeni (con oltre 200.000 trascrizioni).
Questi browsers sono stati sviluppati per:
- Esplorare le regioni cromosomiche
- Esplorare le regioni regolatorie che fiancheggiano i geni (ad esempio i promotori)
- Eseguire ricerche in modo semplice (usando parole chiave e/o coordinate posizionali) su scala dell'intero genoma
- Eseguire studi riguardanti l'architettura del
ENSEMBL consiste nel risultato di un progetto congiunto di EBI e Wellcome Trust Sanger Institute, avviato nel 1999 proprio prima del rilascio del genoma umano; inizialmente fu progettato per i genomi di organismi modello, ma ora include oltre 80 genomi con particolare attenzione ai vertebrati (comprende uomo, topo, zebrafish, etc; mentre Drosophila, Caenorhabditis e lievito sono disponibili come "outgrops").
Tutti i genomi di Ensembl sono stati annotati utilizzando la stessa pipeline consolidata (ossia con le stesse metodologie) garantendo gli stessi elevati standard qualitativi per tutti i genomi; ogni genoma viene periodicamente aggiornato con nuove informazioni, pertanto sono disponibili molte versioni di annotazioni caratterizzate da un codice diverso (la versione più recente per il genoma umano è GRCh38.p12 ad esempio) eogni nuova versione può includere nuove annotazioni o rimuoverne alcune basando