Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
ARCHITETTURA FEED FORWARD
Affinchè la rete neurale impari deve aver luogo un opportuno apprendimento o training e
per questo è necessario che tutti i dati disponibili vengano suddivisi in un training set di
apprendimento e in un test set di valutazione. Si deve però porre attenzione a non
mescolare I dati di training con quelli del test set per non costruire una rete che conosce
già tutte le risposte e per fare questo si usa in genere il sistema della cross-validation. Si
tratta di una tecnica statistica utilizzabile in presenza di una buona numerosità del training
set. I dati vengono suddivisi in N parti e (N-1) parti vengono usate per il training set mentre
la restante parte va a formareil test set, la procedura può essere ripetuta per N volte per
evitare che una particolare scelta di training set e test set possa influenzare la validità
della tecnica.
Se I dati sono ridondanti o parzialmente ridondanti si ottiene un falso apprendimento
basato sul fatto che sono presenti dati identici sia nel training set che nel test set, per
evitare questo problema si deve procedere ad una riduzione della ridondanza prima di
dividere I dati in training set e test set
Training set
Deve essere rappresentativo, deve quindi contenere abbastanza dati di tutti le classi che
si vuole che il programma impari a riconoscere (esempio per I programmi di studio dei
motivi sono necessari come dati: sequenze contenenti e NON contenenti un dato motivi,
sequenze con residui in struttura secondara ad alfa elica, a foglietto beta e a nessuna
delle entrambe sequenze). Per ogni input del training set deve essere già nota la risposta
desiderata. Per far apprendere ad un programma gli vengono sottoposti in input I dait
presenti nel training set utilizzando dei pesi casuali e successivamente si misura il valore
dell'output per modificare I valori dei pesi e rendere il programma più preciso e funzionale.
La differenza tra l'output desiderato e quello ottenuto nel corso del training è ciò che
permette di modificare correttamente I pesi.
Riepilogando quindi I passaggi di un ciclo di training:
Si parte con pesi casuali
1. Si inserisce uan sequenza in input e si calcola l'output
2. Si calcola l'errore di output (rispetto a quello atteso)
3. Si modificano I pesi per diminuire l'errore usando l'algoritmo back-
4.
propagation
Si ripetono I primi 4 punti per tutte le sequenze in input
5. Si ripetono I primi 5 punti per cercare di ridurre al minimo l'errore di output
6.
Il processo di apprendimento termina quando il programma è in grado di generalizzare
facendo attenzione a non far andare il programma in overtraining. A questo punto si
utilizza il sistema della cross-validatio per valutare la capacità di predizione nella rete così
creata.
N.B. non confondere al funzione del training e quella della cross-validation. Il training
serve per rendere più precisi I pesi mentre la cross-validation serve effettivamente a
testare il programma per capire quanto sarà in grado di predire accuratamente I dati in
output
STUDIO DELL'INTERAZIONE PROTEINA-
PROTEINA
Per capire al meglio il funzionamento di una cellula non sono sufficienti informazioni sulle
sequenze geniche e sulla loro trascrizione ma è necessario anche avere informazioni sulle
interazioni tra le proteine, tra le proteine e gli acidi nucleici e su come queste vengano
regolate.
La maggior parte delle interfacce tra le proteine è costituita da un core di residui che si
trovano in profondità nella struttura della proteina stessa con una dimensione di circa 1600
+/- 400 A° quadrati.
Secondo un modello più recente le interfacce sarebbero costituite da poche regioni
indipendenti denominate hot-spots che darebbero un significativo contributo all'energia
libera di legame e questo modello sarebbe supportato dal fatto che alcuni amminoacidi
presentano delle frequenze più alte proprio negli hot-spot.
In molti processi le proteine riconoscono target specifici e la specificità di interazione
dipende dalle caratteristiche strutturali e chimico-fisiche delle due proteine interagenti,
questo spiega perchè proteine omologhe (che presentano strutture simili) in genere
interagiscano in modo simile.
Esistono diversi metodi sperimentali per l'analisi delle interazioni tra le proteine:
• Doppio ibrido in lievito
• Purificazione per affinità
• Phage display
• Pep-spot
• FRET
Esistono inoltre anche metodi strettamente bioinformatici per l'analisi delle interazioni:
• Docking
• Mutazioni correlate
• Profili filogenetici
• Stele di rosetta
• Similarità di alberi filogenetici
PROFILI FILOGENETICI
Tecnica bioinformatica in cui la presenza o assenza di determinati geni/proteine in una
simile distribuzione in specie viene usata per ipotizzare una significativa relazione
biologica come ad esempio il coinvolgimento nello stesso pathway biologico (stessa via
metabolica). Singole proteine possono essere caratterizzate da singole funzioni o far parte
di complessi proteici; se una o più proteine associate ad un processo si perdono anche le
altre diventano inutili e la selezione naturale rende improbabile che si mantengano nel
tempo; se quindi due famiglie proteiche tendono ad essere sempre assenti o sempre
presenti negli organismi simili è probabile che siano coinvolte negli stessi processi
biologici in entrambi gli organismi. I cambiamenti possono invece accumularsi tra specie
distanti a causa di trasferimenti orizzontali o perdita di geni.
Per il metodo dei profili filogenetici è necessario avere a disposizione le sequenze dei
genomi del maggior numero possibile di organismi.
Per fare un esempio ipotizziamo di avere a disposizione 7 proteine di E.coli e che,
utilizzando metodi di ricerca quali blast, identifichiamo eventuali ortologhi in altri organismi
di cui conosciamo il genoma completo. Definiamo quindi come profilo filogenetico della
proteina P4 ad esempio la tabella completa con l'elenco dei vari genomi e il dato
(simbolizzato da uno 0 o da un 1) della presenza o assenza della data proteina.
Otteremo ad esempio una tabella di questo tipo:
E.c. S.c. B.s. H.i.
P1 1 0 1
P2 1 1 0
P3 0 1 1
P4 1 0 0
P5 1 1 1
P6 0 1 1
P7 1 1 0
Notando che le proteine P2 e P7 hanno lo stesso profilo filogenetico (stesso anche tra P3
e P6) allora si può ipotizzare che siano funzionalmente correlate e ciò significa che
possono appartenere ad una stessa classe funzionale o anche avere un'interazione fisica
tra di loro magari copartecipando alla stessa via metabolica.
Una versione più raffinata dei profili filogenetici non usa 0 e 1 per definire al presenza o
assenza delle proteina date nei diversi proteomi ma usa dei valori reali come l'e-value
relativo al migliore confronto, e risulta quindi che la presenza/assenza è rimpiazzata dalla
probabilità che l'allineamento sia significativo (spesso identificato con gradazioni di
colore).
In questo esempio le gradazioni di colore indicano la significatività, più scura è la
gradazione di colore e più significativo è il risultato.
STELE DI ROSETTA
Metodo che si basa sull'osservazione del fatto che alcune proteine che in alcuni organismi
sono codificate da due geni indipendenti in altri sono invece fuse in una singola catena
polipeptidica. La fusione può verificarsi come risultato di una traslocazione, di una
delezione interstiziale o di un'inversione cromosomica.
Cosa comporta la fusione in un'unica sequenza proteica di 2 proteine originariamente
separate:
• Dal punto di vista termodinamico la coespressione è vantaggiosa
• Diventa possibile produrre meno proteina
• Gli enzimi coinvolti in stesse linee metaboliche possono formare complessi
funzionali
• I substrati possono passare da un enzima all'altro senza diffondere nel citosol
Il vantaggio di questo metodo per capire se due proteine possono avere interazioni è dato
dal fatto che è poco costoso ed è rapido ma il grande svantaggio è che fornisce
informazioni solo per quelle coppie di proteine che almeno in un genoma sono note essere
codificate dallo stesso gene.
DOCKING
Il docking è un metodo che predice l'orientamento preferito di una molecola verso una
seconda quando queste si legano fra di loro per formare un dato complesso che risulta
stabile. La conoscenza dell'orientamento preferito può essere utilizzato per predire la forza
di un'associazione o di un legame proteina-ligando tra due molecole utilizzando per
esempio le funzioni di score. Poichè le interazioni tra le molecole hanno un ruolo centrale
nella trasduzione del segnale, il relativo orientamento delle due molecole che
interagiscono può quindi influenzare il tipo di segnale prodotto. Il docking quindi è utile,
oltre che per predire la forza del legame, anche per predire il tipo di segnale prodotto. Il
docking è usato frequentemente per predire l'orientamento del legame di una piccola
molecola farmacologicamente attiva alla sua proteina bersaglio di modo da prevederne
l'affinità e l'attività. I programmi di docking funzionano prendendo in input due strutture
note e testando tutti I possibili orientamenti tra le due strutture e generando poi dei
punteggi (score) di probabilità e di stabilità del complesso. A causa della differenza nel tipo
di problema trattato, I vari programmi di docking esistenti sono di solito specializzati per
uno dei seguenti casi:
• Interazioni proteina-proteina ---> ulteriormente divisi in interazioni enzima-inibitore;
recettore-ligando e antigene-anticorpo
• Interazioni proteina-piccolo ligando ---> divisi in interazioni flessibili e interazioni
rigide.
Per alcune differenze è possibile utilizzare lo stesso algoritmo di docking variando I
parametri come ad esempio nel caso della differenza tra il trattare un ligando come un
corpo rigido oppure un corpo flessibile dove è possibile applicare un programma
sviluppato per analizzare corpi rigidi attraverso delle librerie di conformeri rappresentativa
delle diverse conformazioni assunte dalla molecola.
Nel caso delle interazioni proteina-proteina, per studiare la differenza tra le diverse
tipologie di complessi è sufficiente variare I parametri che hanno maggior o minore peso
alla curvatura della superficie (complementarietà geometrica) o alle caratteristiche chimo-
fisiche dei residui (complementarietà elettrostatica). Per portare degli esempi, el caso dei
complessi enzima-inibitore ci si trava spesso di fronte a interfacce con buche profonde da
una parte ed estrusioni dall'altra; nel caso dei complessi antigene-anticorpo le interfacce