Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
CAATAC•Sequenza 2: score= 18GACTTCAGAATT-A Smith-Waterman: allineamento locale2)Qual è l’allineamento? (globale)•Sequenza 1: ATGCT•Sequenza 2: AGCTRisultato: A-GCT score= 2DOMANDE D’ESAME (parte 3)A cosa serve il k-tuples e che cos’è? (indicizzare una sequenza)Serve per accelerare la ricerca in banca, cioè indicizzare la sequenza che vuol dire spezzare la sequenza in sottostringhedi lunghezza k. Il principio di indicizzazione delle sequenze vuol dire dividere le sequenze in sottostringhe e registrare laposizione di inizio di esse•Def. k-tuples → è sinonimo di Entry (linea del db) e indica una sottostringa di lunghezza k. Per trovare i Match esatti dividela sequenza Query e la sequenza Subject (“Subject” è il nome che si dà a tutte le sequenze immagazzinate in un db) inparole dette, appunto, “k-tuples”. In questo modo possono trovare parole comuni tra la mia Query e la
Subject.→ se parliamo di sequenze nucleotidiche le tuples sono fatte di → 6 nucleotidi→ se parliamo di sequenze amminoacidiche le tuples sono fatte di → 2 amminoacidi
Che cos'è BLAST, come funziona, quali funzione svolge? Quali sono i vari tipi di BLAST?
BLAST è un pacchetto software che possiede diversi eseguibili:
- blastn: si utilizza quando voglio confrontare una sequenza nucleotidica contro un db di sequenze nucleotidiche
- blastp: si utilizza quando voglio confrontare una sequenza proteica contro un db di sequenze proteiche
- blastx: si utilizza quando voglio confrontare una sequenza nucleotidica in input in un db di sequenze proteiche
- tblastx: si utilizza per confrontare una sequenza nucleotidica tradotta nei 6 possibili frame di lettura ottenendo una sequenza a.a che a sua volta viene confrontata con un db tradotto
- tblastn: consente di usare una sequenza proteica in input e di confrontarlo con un db di proteine che sono
Tutti gli eseguibili si basano sull'algoritmo di Smith-Waterman in maniera euristica.
- Ha approccio euristico, quindi, ricerca tra gli allineamenti più probabili; si usa per fare allineamenti locali
- Algoritmo più diffuso in bioinformatica → (perché) se otteniamo sperimentalmente una sequenza ed è sconosciuta, possiamo fare il BLAST per verificare se la sequenza ha sottostringhe simili a sequenze note presenti in banche dati.
- Usiamo BLAST anziché FASTA perché un algoritmo di allineamento locale può generare in output un allineamento GLOBALE (MAI il contrario).
Come funziona: con la tecnica dell'indicizzazione delle sequenze Query e Subject → se parliamo di sequenze nucleotidiche la tuples è: 11 nucleotidi → se parliamo di sequenze proteiche la tuples è: 3 a.a
Step: indicizzazione sequenze Query → confronto con tutte le parole ottenute utilizzando
Le sequenze Subject nella bancadati → identificazione Match → si definiscono HSP (high score pairs) coppie con punteggio alto e sono delle regioni chel’algoritmo estende sia a dx che a sx.
L’utilizzo è via interfaccia grafica dal portale NCBI dove è possibile interrogare tutte le banche dati sia esse di sequenzenucleotidiche che proteiche; possiamo scaricare gli eseguibili di BLAST ed essere indipendenti dalla rete e dalle banchedati che NCBI ci restituisce.
Che cosa sono le matrici di sostituzione? Descrivono il tasso di variabilità di un carattere lungo il tempo e sono usate sia per sequenze proteiche che per sequenzenucleotidiche.
Differenza PAM e BLOSUM (matrici di sostituzione) Sono due matrici di sostituzione importanti soprattutto se parliamo di proteine le quali pesano in maniera diversa qualsiasitipo di a.a con qualsiasi proprietà chimico-fisiche, a.a identici fino a quelli molto distanti tra loro: PAM (point accepted mutation);
BLOSUM (blocks substitution matrix)
- PAM: sono un insieme di matrici usate per dare un punteggio agli allineamenti; derivano da allineamenti globali di sequenze proteiche.
- Abbiamo diverse matrici PAM:
- PAM 1→ indica che ho confrontato tante sequenze che divergono tra loro solo dell’1%; quindi nella sequenza a.a varia 1a.a su 100
- PAM 250 →indica che avvengono 250 cambiamenti tra 2 proteine di lunghezza a.a 100
- PAM 40 →cioè moltiplica la PAM1 per sé stessa 40 volte; è utile quando ci aspettiamo un elevata similarità dal confronto di sequenze più corte.
- PAM 120 → può essere considerata una PAM di default; si usa quando si vogliono confrontare sequenze lontane filogeneticamente ad es., oppure se si vuole fare un allineamento generale di cui non si conosce nulla.
- BLOSUM: molto usato per le proteine e analogamente alla PAM crea più matrici di punteggio derivanti dal confronto di più sequenze.
diverse matrici BLOSUM→ La matrice BLOSUM deriva dall’allineamento di blocchi di sequenze che hanno il 90% o il 62% o il 30% di identità; inumeri rappresentano rispettivamente i nomi delle matrici, infatti abbiamo:
- BLOSUM 90: utile per allineamenti con elevata similarità le cui sequenze avranno al max similarità >90%
- BLOSUM 62: utile per allineamenti generici che possiamo utilizzare di default le cui sequenze avranno al max similarità>62%
- BLOSUM 30: utile per determinare la similarità tra sequenze divergenti che avranno al max similarità >30%
la differenza tra le PAM e la BLOSUM sta nel fatto che: le matrici blosum usano numeri più bassi per indicare le sequenzepiù distanti e numeri più alti per indicare sequenze più simili; le matrici pam usano numeri più alti per indicare le sequenzepiù distanti e numeri più bassi per indicare sequenze più simili. (sono
allineamento è statisticamente significativo, cioè: più basso è l'e-value e più significativo sarà lo score che ottengo. Score e e-value sono 2 parametri associati → lo score deve essere alto; l'e-value deve essere basso → questo perché lo scopo dell'algoritmo che applichiamo è quello di massimizzare appunto lo score. (A prescindere dallo score, vado a mettere un valore soglia per es. quando eseguo una ricerca in Blast)
L'e-value dipende da:
- Dimensione allineamento: l'e-value diminuisce all'aumentare della lunghezza dell'allineamento;
- Dimensione banca dati: l'e-value aumenta se la banca dati è di grosse dimensioni.
Che cosa suggerisce la metrica e-value? Che le sequenze sono omologhe ma che non mostrano la loro omologia.
Quali sono i valori e-value suggeriti? (da mettere in banche dati)
Abbiamo diversi valori soglia che possiamo inserire in banche dati;
normalmente vengono suggeriti i valori:- -6- 10 → quando faccio una ricerca di sequenze nucleotidiche (tutto quello che è >0,000001 non viene rappresentato inoutput)
- -3- 10 → quando confronto sequenze proteiche. (quello consigliato)
Differenza identità e positività (similarità)
Parlo di IDENTITA’: quando mi riferisco ad acidi nucleici (nell’output del BLAST ritroviamo solo identità)
Se parlo di proteine posso parlare di identità e positività: identità quando ho residui identici; positività (o similarità) quando due residui hanno caratteristiche chimico-fisiche simili. (contrariamente agli allineamenti nucleotidici, nell’output del BLAST avrò sia identità che positività in %).
Output BLAST ha 4 parametri ordinati che ricorda autonomamente, quali?
- E-value
- Score
- % identità
- Query coverage (cioè quanto della sequenza Query sono riuscito ad allineare la sequenza)
Che cos'è un MULTIFASTA?
Un MULTIFASTA è un file che contiene tutti i file FastA scaricati, combinati in un unico file. Questo file rappresenta il nostro database e tutte le sequenze contenute in esso sono le Subject.
Che cos'è Stand Alone BLAST?
Stand Alone BLAST è un software che ci consente di generare i cosiddetti "Db custom", cioè database personalizzati.
Che cosa rappresentano le lettere in minuscolo in un BLAST? Che cosa sono le sequenze a bassa complessità?
Le sequenze a bassa complessità sono sequenze con residui simili ripetuti, in cui troviamo gli stessi amminoacidi o nucleotidi. La complessità di queste sequenze è inferiore rispetto a mettere insieme residui diversi. Queste sequenze vengono rappresentate con lettere in minuscolo e vengono filtrate (vengono evidenziate in grigio) perché hanno elementi ripetuti e possono influenzare l'algoritmo di allineamento.
ESERCITAZIONE (parte 4) BLAST
GENERALITÀ
sulla velocità e accuratezza dell'allineamento.-gap costs → i costi di apertura e estensione di un gap nell'allineamento; possiamo modificarli per adattare l'allineamento alle nostre esigenze.-matrix → la matrice di sostituzione utilizzata per calcolare i punteggi di allineamento; possiamo scegliere tra diverse matrici predefinite o crearne una personalizzata.-filtering → possiamo applicare filtri per ridurre il rumore nei risultati dell'allineamento.-scoring → possiamo scegliere il tipo di punteggio utilizzato per valutare l'allineamento, ad esempio il punteggio di bit o il punteggio di bit normalizzato.-statistics → possiamo visualizzare statistiche sull'allineamento, come il numero di allineamenti trovati e il punteggio massimo.-output → possiamo scegliere il formato di output dei risultati dell'allineamento, ad esempio HTML, testo o XML.sull'output. - Opzioni legate alla matrice di sostituzione: possiamo scegliere una PAM piccola o una BLOSUM grande nel caso in cui stiamo confrontando u