Appunti di Bioinformatica

Appunti di bioinformatica basati su appunti personali del publisher presi alle lezioni della prof.ssa Hellmer Citterich dell’università degli Studi di Tor Vergata - Uniroma2, …

Esame Bioinformatica

Facoltà Scienze matematiche fisiche e naturali

Dal corso del Prof. Hellmer Citterich Manuela

Università Università degli Studi di Roma Tor Vergata

Publisher Sassa27

A.A. 2016-2017

35 pagine

3 download

Appunto

Vota 3,0 / 5 (1)

Scarica

Estratto del documento

ARCHITETTURA FEED FORWARD

Affinchè la rete neurale impari deve aver luogo un opportuno apprendimento o training e

per questo è necessario che tutti i dati disponibili vengano suddivisi in un training set di

apprendimento e in un test set di valutazione. Si deve però porre attenzione a non

mescolare I dati di training con quelli del test set per non costruire una rete che conosce

già tutte le risposte e per fare questo si usa in genere il sistema della cross-validation. Si

tratta di una tecnica statistica utilizzabile in presenza di una buona numerosità del training

set. I dati vengono suddivisi in N parti e (N-1) parti vengono usate per il training set mentre

la restante parte va a formareil test set, la procedura può essere ripetuta per N volte per

evitare che una particolare scelta di training set e test set possa influenzare la validità

della tecnica.

Se I dati sono ridondanti o parzialmente ridondanti si ottiene un falso apprendimento

basato sul fatto che sono presenti dati identici sia nel training set che nel test set, per

evitare questo problema si deve procedere ad una riduzione della ridondanza prima di

dividere I dati in training set e test set

Training set

Deve essere rappresentativo, deve quindi contenere abbastanza dati di tutti le classi che

si vuole che il programma impari a riconoscere (esempio per I programmi di studio dei

motivi sono necessari come dati: sequenze contenenti e NON contenenti un dato motivi,

sequenze con residui in struttura secondara ad alfa elica, a foglietto beta e a nessuna

delle entrambe sequenze). Per ogni input del training set deve essere già nota la risposta

desiderata. Per far apprendere ad un programma gli vengono sottoposti in input I dait

presenti nel training set utilizzando dei pesi casuali e successivamente si misura il valore

dell'output per modificare I valori dei pesi e rendere il programma più preciso e funzionale.

La differenza tra l'output desiderato e quello ottenuto nel corso del training è ciò che

permette di modificare correttamente I pesi.

Riepilogando quindi I passaggi di un ciclo di training:

Si parte con pesi casuali

1. Si inserisce uan sequenza in input e si calcola l'output

2. Si calcola l'errore di output (rispetto a quello atteso)

3. Si modificano I pesi per diminuire l'errore usando l'algoritmo back-

propagation

Si ripetono I primi 4 punti per tutte le sequenze in input

5. Si ripetono I primi 5 punti per cercare di ridurre al minimo l'errore di output

Il processo di apprendimento termina quando il programma è in grado di generalizzare

facendo attenzione a non far andare il programma in overtraining. A questo punto si

utilizza il sistema della cross-validatio per valutare la capacità di predizione nella rete così

creata.

N.B. non confondere al funzione del training e quella della cross-validation. Il training

serve per rendere più precisi I pesi mentre la cross-validation serve effettivamente a

testare il programma per capire quanto sarà in grado di predire accuratamente I dati in

output

STUDIO DELL'INTERAZIONE PROTEINA-

PROTEINA

Per capire al meglio il funzionamento di una cellula non sono sufficienti informazioni sulle

sequenze geniche e sulla loro trascrizione ma è necessario anche avere informazioni sulle

interazioni tra le proteine, tra le proteine e gli acidi nucleici e su come queste vengano

regolate.

La maggior parte delle interfacce tra le proteine è costituita da un core di residui che si

trovano in profondità nella struttura della proteina stessa con una dimensione di circa 1600

+/- 400 A° quadrati.

Secondo un modello più recente le interfacce sarebbero costituite da poche regioni

indipendenti denominate hot-spots che darebbero un significativo contributo all'energia

libera di legame e questo modello sarebbe supportato dal fatto che alcuni amminoacidi

presentano delle frequenze più alte proprio negli hot-spot.

In molti processi le proteine riconoscono target specifici e la specificità di interazione

dipende dalle caratteristiche strutturali e chimico-fisiche delle due proteine interagenti,

questo spiega perchè proteine omologhe (che presentano strutture simili) in genere

interagiscano in modo simile.

Esistono diversi metodi sperimentali per l'analisi delle interazioni tra le proteine:

• Doppio ibrido in lievito

• Purificazione per affinità

• Phage display

• Pep-spot

• FRET

Esistono inoltre anche metodi strettamente bioinformatici per l'analisi delle interazioni:

• Docking

• Mutazioni correlate

• Profili filogenetici

• Stele di rosetta

• Similarità di alberi filogenetici

PROFILI FILOGENETICI

Tecnica bioinformatica in cui la presenza o assenza di determinati geni/proteine in una

simile distribuzione in specie viene usata per ipotizzare una significativa relazione

biologica come ad esempio il coinvolgimento nello stesso pathway biologico (stessa via

metabolica). Singole proteine possono essere caratterizzate da singole funzioni o far parte

di complessi proteici; se una o più proteine associate ad un processo si perdono anche le

altre diventano inutili e la selezione naturale rende improbabile che si mantengano nel

tempo; se quindi due famiglie proteiche tendono ad essere sempre assenti o sempre

presenti negli organismi simili è probabile che siano coinvolte negli stessi processi

biologici in entrambi gli organismi. I cambiamenti possono invece accumularsi tra specie

distanti a causa di trasferimenti orizzontali o perdita di geni.

Per il metodo dei profili filogenetici è necessario avere a disposizione le sequenze dei

genomi del maggior numero possibile di organismi.

Per fare un esempio ipotizziamo di avere a disposizione 7 proteine di E.coli e che,

utilizzando metodi di ricerca quali blast, identifichiamo eventuali ortologhi in altri organismi

di cui conosciamo il genoma completo. Definiamo quindi come profilo filogenetico della

proteina P4 ad esempio la tabella completa con l'elenco dei vari genomi e il dato

(simbolizzato da uno 0 o da un 1) della presenza o assenza della data proteina.

Otteremo ad esempio una tabella di questo tipo:

E.c. S.c. B.s. H.i.

P1 1 0 1

P2 1 1 0

P3 0 1 1

P4 1 0 0

P5 1 1 1

P6 0 1 1

P7 1 1 0

Notando che le proteine P2 e P7 hanno lo stesso profilo filogenetico (stesso anche tra P3

e P6) allora si può ipotizzare che siano funzionalmente correlate e ciò significa che

possono appartenere ad una stessa classe funzionale o anche avere un'interazione fisica

tra di loro magari copartecipando alla stessa via metabolica.

Una versione più raffinata dei profili filogenetici non usa 0 e 1 per definire al presenza o

assenza delle proteina date nei diversi proteomi ma usa dei valori reali come l'e-value

relativo al migliore confronto, e risulta quindi che la presenza/assenza è rimpiazzata dalla

probabilità che l'allineamento sia significativo (spesso identificato con gradazioni di

colore).

In questo esempio le gradazioni di colore indicano la significatività, più scura è la

gradazione di colore e più significativo è il risultato.

STELE DI ROSETTA

Metodo che si basa sull'osservazione del fatto che alcune proteine che in alcuni organismi

sono codificate da due geni indipendenti in altri sono invece fuse in una singola catena

polipeptidica. La fusione può verificarsi come risultato di una traslocazione, di una

delezione interstiziale o di un'inversione cromosomica.

Cosa comporta la fusione in un'unica sequenza proteica di 2 proteine originariamente

separate:

• Dal punto di vista termodinamico la coespressione è vantaggiosa

• Diventa possibile produrre meno proteina

• Gli enzimi coinvolti in stesse linee metaboliche possono formare complessi

funzionali

• I substrati possono passare da un enzima all'altro senza diffondere nel citosol

Il vantaggio di questo metodo per capire se due proteine possono avere interazioni è dato

dal fatto che è poco costoso ed è rapido ma il grande svantaggio è che fornisce

informazioni solo per quelle coppie di proteine che almeno in un genoma sono note essere

codificate dallo stesso gene.

DOCKING

Il docking è un metodo che predice l'orientamento preferito di una molecola verso una

seconda quando queste si legano fra di loro per formare un dato complesso che risulta

stabile. La conoscenza dell'orientamento preferito può essere utilizzato per predire la forza

di un'associazione o di un legame proteina-ligando tra due molecole utilizzando per

esempio le funzioni di score. Poichè le interazioni tra le molecole hanno un ruolo centrale

nella trasduzione del segnale, il relativo orientamento delle due molecole che

interagiscono può quindi influenzare il tipo di segnale prodotto. Il docking quindi è utile,

oltre che per predire la forza del legame, anche per predire il tipo di segnale prodotto. Il

docking è usato frequentemente per predire l'orientamento del legame di una piccola

molecola farmacologicamente attiva alla sua proteina bersaglio di modo da prevederne

l'affinità e l'attività. I programmi di docking funzionano prendendo in input due strutture

note e testando tutti I possibili orientamenti tra le due strutture e generando poi dei

punteggi (score) di probabilità e di stabilità del complesso. A causa della differenza nel tipo

di problema trattato, I vari programmi di docking esistenti sono di solito specializzati per

uno dei seguenti casi:

• Interazioni proteina-proteina ---> ulteriormente divisi in interazioni enzima-inibitore;

recettore-ligando e antigene-anticorpo

• Interazioni proteina-piccolo ligando ---> divisi in interazioni flessibili e interazioni

rigide.

Per alcune differenze è possibile utilizzare lo stesso algoritmo di docking variando I

parametri come ad esempio nel caso della differenza tra il trattare un ligando come un

corpo rigido oppure un corpo flessibile dove è possibile applicare un programma

sviluppato per analizzare corpi rigidi attraverso delle librerie di conformeri rappresentativa

delle diverse conformazioni assunte dalla molecola.

Nel caso delle interazioni proteina-proteina, per studiare la differenza tra le diverse

tipologie di complessi è sufficiente variare I parametri che hanno maggior o minore peso

alla curvatura della superficie (complementarietà geometrica) o alle caratteristiche chimo-

fisiche dei residui (complementarietà elettrostatica). Per portare degli esempi, el caso dei

complessi enzima-inibitore ci si trava spesso di fronte a interfacce con buche profonde da

una parte ed estrusioni dall'altra; nel caso dei complessi antigene-anticorpo le interfacce

Anteprima

Vedrai una selezione di 8 pagine su 35