Estratto del documento

Bioinformatica avanzata anno 2020/2021

Prima lezione 1/10/2020

Analisi di sequenza

Tramite la biologia evolutiva, si è visto che se confrontiamo due sequenze (DNA, RNA, proteina) di due specie diverse, se queste sono simili molto probabilmente svolgeranno la stessa funzione, molto probabilmente queste due specie hanno degli antenati in comune.

Identità: confronto residui identici di due sequenze o percentuale di molecole che corrispondono nell’allineamento tra due sequenze. SEQUENZA A= 320 amminoacidi e SEQUENZA B= 450 amminoacidi. Tra queste due sequenze sono stati trovati 100 amminoacidi in comune. I (identità) è calcolata come il rapporto tra il numero di amminoacidi in comune e la sequenza più corta = 100/ 320= 31.25%.

Similarità: amminoacidi diversi ma con caratteristiche simili che se vengono sostituiti tra di loro non danno alterazioni. Se tra le sequenze precedenti, vi sono 23 amminoacidi simili, la S (similarità) si calcola sommando gli amminoacidi identici a quelli simili e dividendo per la sequenza minore = 100+23/320=38.44%. Queste due sequenze sono quindi identiche al 31% e simili al 38%.

LCS = Misura di similarità

Se ho una stringa x formata da un tot di caratteri, la sottosequenza di x è formata dai caratteri estratti dalla stringa x nello stesso ordine ma non necessariamente vicina. Se la stringa ha una lunghezza n, la sottosequenza sarà 2

Se consideriamo S1 e S2 queste potrebbero avere sottosequenze in comune e quindi si fa riferimento a LCS che rappresenta la massima sottosequenza comune, cioè la sottosequenza comune ad entrambe che ha però lunghezza massima. Questa può non essere unica, ve ne possono essere diverse ma che abbiano tutte la stessa lunghezza (massima); maggiore è la lunghezza di LCS, maggiore sarà la similarità e quindi in grado di sovrapposizione.

Programmazione dinamica

1 È un modo per risolvere i problemi procedendo per step, creando dei sottoproblemi che vengono risolti singolarmente, tutte le soluzioni si uniscono per risolvere il problema iniziale. Per le suddivisioni si considerano 2 residui alla volta, considerando due sequenze di lunghezza m e n si considera l’equazione di ricorrenza:

Se consideriamo la sequenza S ATACGGT di lunghezza m=7 e la sequenza T TATTCT di lunghezza n=6 si confrontano per primi i residui che si trovano in ultima posizione, in questo caso notiamo che entrambe le sequenze terminano con T, quindi sicuramente la T fa parte della LCS.

LCS [ATACGGT, TATTCT] può essere considerato anche come LCS [m, n]. Quindi considerando che io ho già contato l’ultimo residuo e l’ho messo da parte, posso anche considerare a questo punto [m-1, n-1]. Siamo quindi passati da un problema iniziale in cui avevamo una lunghezza m=7 e una n=6 ad un sottoproblema con m=6 e n=5; a questo punto procediamo come prima considerando nuovamente l’ultima posizione, dove abbiamo nella prima sequenza G e nella seconda C, essendo uguali devo scegliere quali delle due posso togliere; consideriamo entrambi i casi, e ricordiamoci che dobbiamo ottenere una lunghezza massima, prendo allora in considerazione quella che mi darà una sottosequenza più lunga, in questo caso la prima eliminando G.

Continuando così arriveremo alla prima posizione in cui la sequenza S sarà m=1 mentre quella T sarà n=0, nel caso in cui una delle due è uguale a zero anche LCS lo sarà.

Esempio

Come si prosegue: si considera la prima casella vuota, che sarebbe la casella LCS [1, 1], si considerano le due basi, quindi in questo caso A e C, e si vanno a considerare le 3 celle numerate, quella in diagonale, quella superiore e quella inferiore. Se i due residui sono uguali, si considera la casella diagonale e si aggiunge +1 al numero della casella in diagonale.

Se come nel nostro caso, i due residui sono diversi, allora si considerano le caselle in alto e in basso e si prende il numero maggiore tra i due, nel nostro caso in entrambe c’è il numero 0 quindi è indifferente quale casella si sceglie. Procedendo in questo modo si compila tutta la matrice, e il numero di nostro interesse è l’ultimo numero nell’ultima casella in basso a destra, quello ci indica la lunghezza di LCS, da quel numero si procede a ritroso in diagonale, considerando gli elementi che abbiamo preso con la casella in diagonale ed escludendo quelli presi con le caselle superiori e inferiori, per avere tutta la sottosequenza.

Questo procedimento può essere svolto con Excel: dove le righe sono numerate da 1 e non da 0 e le colonne sono rappresentate da lettere. In questo caso la prima casella sarà C3 e la formula sarà così cambiata. Questa formula può essere scritta in Excel usando la funzione SE e si va a verificare se una data condizione è vera o meno. Questa formula può essere copiata da una cella all’altra, Excel però aggiorna l’indice delle righe e delle colonne, quindi bisogna inserire il simbolo del dollaro $ che blocca la riga e la colonna: SE C$1=$A3 alla fine per ricavare la sequenza posso colorare le celle selezionando la matrice, andando su formattazione condizionale, poi su regole evidenziazione celle, su altre regole e inserire la formula E (C$1=$A3) in modo tale che si evidenziano solo le celle in cui S1=T2.

Seconda lezione 8/10/2020

Distanza di editing

È una misura di similarità che serve per misurare il numero di operazioni che servono per poter trasformare una stringa in un’altra, quindi è una misura della differenza tra le due stringhe, maggiore è la differenza e minore sarà la similarità.

  • Inserimento di un nuovo elemento;
  • Cancellazione di un elemento;
  • Sostituzione di un elemento.

Le prime due sono dette operazioni indel e vengono rappresentate da ‘-’.

È sempre possibile trasformare una sequenza perché si potrebbero cancellare tutti gli elementi della prima sequenza e sostituirli con gli elementi della seconda.

Esempio

In questo caso si può trasformare la prima stringa nella seconda, effettuando 3 eliminazioni nelle posizioni finali della prima stringa, inserire un residuo (A) nella prima posizione, sostituire un residuo con un altro (sostituire G con C in terza posizione, e infine inserire un residuo (G in quarta posizione). La distanza nel particolare va ad indicare il numero minimo di trasformazioni effettuate ad esempio date due stringhe, una S e una T rispettivamente di lunghezza m ed n, la distanza è il numero minimo di trasformazioni effettuate per trasformare S in T.

Anche in questo caso si usa la programmazione dinamica con l’equazione di ricorrenza.

Esempio: S = ATACCGT di lunghezza m=7 e T = TATTCT di lunghezza n=6. Per calcolare la distanza si considerano le ultime posizione, dove in questo caso possiamo notare essere uguali e non si effettua l’editing. Procedendo, ci ritroviamo con due residui diversi, G e C, e quindi si può effettuare una sostituzione del residuo G con il residuo C. Oppure si può effettuare una eliminazione del residuo G. Infine, si può effettuare un inserimento della C nella prima stringa. Nella sostituzione avrò [m-1, n-1] perché ho effettuato un’operazione in entrambe le stringhe mentre nella cancellazione effettuiamo un’operazione solo nella prima stringa e non nella seconda, quindi si sottrae ad m mentre n rimane invariato. Infine con l’inserimento, io sottraggo il residuo alla seconda stringa quindi avrò n-1 ma nella prima io vado ad inserire una stringa quindi rimane m.

Le prime due possono essere rappresentate da un’unica equazione considerando delta che se è uguale a 0 sta a significare che i due residui sono uguali e che quindi si ha corrispondenza, se delta è uguale a 1 sta a significare che i residui sono diversi e che quindi vi sarà una sostituzione.

Anche in questo caso si costruisce una matrice, ma qui i primi valori non saranno tutti 0 ma andranno dallo 0 in poi. Considerando la prima cella [1,1], vediamo come vi sono due residui diversi (A e T) e quindi delta sarà uguale a 1 e [m-1] [n-1] + delta rappresenta la cella in diagonale; [m-1, n] + 1 rappresenta la cella in alto; [m, n-1] + 1 rappresenta la cella di lato. Sostituendo avremo che: [m-1] [n-1] + delta= 0+1= 1 (perché nella cella in diagonale c’è 0 e delta è 1) [m-1, n] + 1= 1+1= 2 (perché nella cella in alto c’è 1) [m, n-1] + 1= 1+1= 2 (perché nella cella di lato c’è 1) Di questi tre valori si prende solo il valore minore e si aggiunge alla casella. Si continua con lo stesso metodo per tutte le celle, le frecce rappresentano la direzione del numero nella cella, cioè se il numero più piccolo aggiunto poi alla cella, era quello in diagonale, in alto o di lato. Se la freccia è in diagonale vuol dire che è stata effettuata una sostituzione, se è verso l’alto vuol dire che vi è stato un inserimento, se è di lato c’è stata una cancellazione. Quando vi è corrispondenza significa che i residui sono uguali quindi non si prendono in considerazione. L’ultimo numero della matrice rappresenta il numero di operazioni effettuate.

Anche in questo caso, tutto ciò può essere effettuato su Excel, utilizzando la funzione MIN che restituisce il valore minimo; la formula si traduce in: se C1 è uguale a A3 allora si effettua B2+0, altrimenti se sono diversi si effettua B2+1. Anche qui, si può copiare la formula a tutte le celle inserendo il simbolo del dollaro, C$1=$A3 in modo da bloccare riga e colonna. Infine vi è un programma detto BABA in Java che serve per calcolare la distanza di editing, dove si seleziona “simple dp” si settano le due sequenze negli appositi box, premendo varie volte le frecce in basso, si avrà tutta la matrice completa.

Terza lezione 12/10/2020

Database

I database biologici sono importanti nelle nuove tecniche di sequenziamento perché ci permettono di sequenziare una grande quantità di dati, in quanto i database hanno proprio il compito di organizzare i vari dati.

I più importanti sono tre:

  • EBI-EMBL (europeo);
  • NCBI (centro biotecnologie informatiche USA);
  • NIG (istituto di genetica giapponese).

Nel corso degli anni, i dati registrati aumentano esponenzialmente, si pensi che nel 2009 i dati occupavano 10 milioni di giga e nel 2015 si arriva a circa 80 milioni.

In questi database si possono trovare tutti i dati che provengono dagli esperimenti fatti nei laboratori e non avremo informazioni solo sulle sequenze, ma anche sulla struttura e funzione di geni e proteine. I database si distinguono in:

  • Primari: sono dei veri e propri archivi di struttura e sequenza dove tutti i dati non vengono rimossi ma ne vengono aggiunti sempre di nuovi.
  • Secondari: possono integrare le informazioni di altri database e sono “curati” manualmente da team di persone per raccogliere solo determinati tipi di informazioni.

I vari database sono, quindi, collegati tra di loro e possono scambiarsi informazioni come si può notare dallo schema che è una rappresentazione delle interazioni tra database diversi. Il principale database che useremo sarà NCBI che è dell’istituto nazionale sanitario americano che si occupa di sviluppare software per analizzare i vari dati, e formato da un team di figure con ruoli diversi; l’interesse principale è quello di sequenziare il genoma umano, ma ha avviato anche altri studi ad esempio sull’HIV.

NCBI gestisce 39 database, ognuno focalizzato in un settore specifico: nucleotide e protein che permette di scaricare nucleotidi e proteine, nucleotide database che permette di scaricare specifiche sequenze nucleotidiche, GenBank che è una banca dati primaria che colleziona sequenze biologiche dal 1992 con sequenze sottomesse da laboratori individuali, è una risorsa pubblica con consultazione gratis in cui si trovano sequenze di 250,000 specie, il solo limite è la cosiddetta ridondanza di informazione, in quanto si trovano dati relativi alla stessa sequenza che derivano da esperimenti e laboratori diversi. Poi abbiamo RefSeq che contiene informazioni su 60,000 specie, è un database secondario quindi c’è uno staff che va ad integrare informazioni diverse sulle stesse sequenze dando così un solo risultato. Se lavoriamo su specie note come uomo o topo è meglio lavorare su RefSeq, al contrario se lavoriamo su specie meno note è meglio lavorare su GenBank che viene costantemente aggiornato ogni due mesi.

La prima cosa da fare su NCBI è quella di selezionare il database nella finestra in alto a sinistra, in questo caso abbiamo scelto di usare il database nucleotide, poi sulla barra di ricerca si inserisce il gene da voler studiare e si preme search. A questo punto ci saranno una serie di risultati, possiamo quindi utilizzare queste tendine a destra e sinistra per inserire i cosiddetti filtri, e quindi selezionare le informazioni che vogliamo come ad esempio in alto a destra in “top organism” si può selezionare la specie come Homo sapiens, in alto a sinistra vi sono filtri come “molecular type” in cui possiamo ad esempio selezionare mRNA oppure “source database” in cui possiamo scegliere dove andare a cercare nello specifico i miei risultati come RefSeq.

Una volta trovato il risultato che ci interessa, questa è la prima pagina che vediamo e la prima cosa che si va a notare è il cosiddetto acession number che sarebbe il codice identificativo della scheda presa in esame, è un codice alfanumerico che il più delle volte alla fine presenta un punto con un altro numero, quello indica gli aggiornamenti effettuati nel tempo.

Possiamo avere altre informazioni principali come la lunghezza della sequenza (numero di bp), il tipo di molecola e la data dell’ultimo aggiornamento. Le parole chiavi, l’organismo da cui deriva, le referenze, gli autori dello studio, il giornale in cui è stato pubblicato l’esperimento. In alto sotto il titolo si ha la scritta FASTA, premendola si apre una nuova finestra dove tramite il tasto “send to” è possibile stampare la sequenza in un formato che prende il nome proprio di FASTA che è equivalente a TXT in quanto sono entrambi dei formati di testo. Scorrendo verso il basso si possono trovare altre informazioni più specifiche e altri link che fanno aprire finestre in cui vi sono una serie di dati relativi al nostro gene, questi li vedremo nelle prossime lezioni. Anche il famoso PubMed è un database di NCBI ed è un database definito di lettura in quanto le risorse principali sono letture in campo biomedico come articoli rivisti e libri.

Si può inoltre utilizzare la ricerca avanzata: non si seleziona nessun database e nella barra di ricerca non si scrive nulla, si clicca direttamente su search e compare il link advanced, cliccarlo fa sì che compare una schermata dove possiamo inserire dei filtri in particolare si sceglie: “gene name” per il nome del gene, “organism” per la specie, “filter” dove solitamente si utilizza inserire RefSeq e “properties” dove si inserisce il tipo di molecola da considerare. O ancora, infine, si ha la ricerca complessa ove si possono usare come operatori booleani non solo AND come nel caso della ricerca avanzata ma anche NOT e OR, in questo tipo di ricerca si inseriscono delle stringhe con le varie informazioni direttamente nella casella di ricerca iniziale in questo modo: KLF6[GENE NAME] AND HOMO SAPIEN[ORGANISM] AND BIOMOL_mRNA[PROPERTIES] AND REFSEQ[FILTER].

Come svolgere l’esercizio: su NCBI scegliere il database protein e cliccare direttamente “search”, a questo punto cliccare su advanced e inserire come filtri: per “organism” inserire Homo sapiens, poi inserire “molecular weight” e cioè un range di peso molecolare e infine in “filter” inserire RefSeq. A questo punto dei vari risultati andiamo a considerare quello con il numero di amminoacidi maggiore e prendere sì il numero di amminoacidi che l’accession number. Andando verso il basso troviamo la sezione CDS e clicchiamo sul link corrispondente dove possiamo trovare le varie coordinate cromosomiche come il numero di cromosomi, la posizione di start e di and.

Quarta lezione 15/10/2020

Allineamento di sequenze biologiche

Si possono mettere a confronto le sequenze, sia di amminoacidi di DNA e RNA, ciò permette di valutare la similarità di due sequenze tenendo conto anche delle regioni in cui non vi è similarità.

L’allineamento si distingue in:

  • Globale: confronta le sequenze (di lunghezza simile) nella loro interezza, includendo tutti i residui tra le due estremità.
  • Locale: identifica sottosequenze (di lunghezza differente) con maggior numero di residui uguali.

Con gli allineamenti possiamo trovare i match che rappresentano i residui conservati (uguali), i mismatch che rappresentano una

Anteprima
Vedrai una selezione di 20 pagine su 110
Bioinformatica avanzata Pag. 1 Bioinformatica avanzata Pag. 2
Anteprima di 20 pagg. su 110.
Scarica il documento per vederlo tutto.
Bioinformatica avanzata Pag. 6
Anteprima di 20 pagg. su 110.
Scarica il documento per vederlo tutto.
Bioinformatica avanzata Pag. 11
Anteprima di 20 pagg. su 110.
Scarica il documento per vederlo tutto.
Bioinformatica avanzata Pag. 16
Anteprima di 20 pagg. su 110.
Scarica il documento per vederlo tutto.
Bioinformatica avanzata Pag. 21
Anteprima di 20 pagg. su 110.
Scarica il documento per vederlo tutto.
Bioinformatica avanzata Pag. 26
Anteprima di 20 pagg. su 110.
Scarica il documento per vederlo tutto.
Bioinformatica avanzata Pag. 31
Anteprima di 20 pagg. su 110.
Scarica il documento per vederlo tutto.
Bioinformatica avanzata Pag. 36
Anteprima di 20 pagg. su 110.
Scarica il documento per vederlo tutto.
Bioinformatica avanzata Pag. 41
Anteprima di 20 pagg. su 110.
Scarica il documento per vederlo tutto.
Bioinformatica avanzata Pag. 46
Anteprima di 20 pagg. su 110.
Scarica il documento per vederlo tutto.
Bioinformatica avanzata Pag. 51
Anteprima di 20 pagg. su 110.
Scarica il documento per vederlo tutto.
Bioinformatica avanzata Pag. 56
Anteprima di 20 pagg. su 110.
Scarica il documento per vederlo tutto.
Bioinformatica avanzata Pag. 61
Anteprima di 20 pagg. su 110.
Scarica il documento per vederlo tutto.
Bioinformatica avanzata Pag. 66
Anteprima di 20 pagg. su 110.
Scarica il documento per vederlo tutto.
Bioinformatica avanzata Pag. 71
Anteprima di 20 pagg. su 110.
Scarica il documento per vederlo tutto.
Bioinformatica avanzata Pag. 76
Anteprima di 20 pagg. su 110.
Scarica il documento per vederlo tutto.
Bioinformatica avanzata Pag. 81
Anteprima di 20 pagg. su 110.
Scarica il documento per vederlo tutto.
Bioinformatica avanzata Pag. 86
Anteprima di 20 pagg. su 110.
Scarica il documento per vederlo tutto.
Bioinformatica avanzata Pag. 91
1 su 110
D/illustrazione/soddisfatti o rimborsati
Acquista con carta o PayPal
Scarica i documenti tutte le volte che vuoi
Dettagli
SSD
Scienze matematiche e informatiche INF/01 Informatica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher sono_scema_ di informazioni apprese con la frequenza delle lezioni di Bioinformatica avanzata e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Padova o del prof Caruso Francesca Pia.
Appunti correlati Invia appunti e guadagna

Domande e risposte

Hai bisogno di aiuto?
Chiedi alla community