Appunti di strutture e interazioni molecolari

Appunti presi a lezione di strutture e interazioni molecolari basati su appunti personali del publisher presi alle lezioni del prof. De Gioia dell’università degli Studi di Milano …

Esame Strutture e interazioni molecolari

Facoltà Scienze matematiche fisiche e naturali

Dal corso del Prof. De Gioia Luca

Università Università degli Studi di Milano - Bicocca

Publisher azrael852

A.A. 2018-2019

57 pagine

Appunto

Vota

Scarica

Estratto del documento

SEQUENZE

La comparazione di dispositivi che hanno un ancestore comune può far emergere delle informazioni, delle

caratteristiche strutturale. I dispositivi studiati prevalentemente sono delle proteine. Le informazioni

ottenute non possono essere derivate se si studiasse una singola proteina.

Come si fa a comparare questi dispositivi molecolari? Un primo livello di comparazione (quello anche più

utilizzato) è quello delle sequenze primarie ossia delle sequenze amminoacidiche delle proteine omologhe,

quelle che discendono da un ancestore comune, da questa comparazione posso ottenere delle informazioni

strutturali. Questa comparazione è definita allineamento di sequenze. Dato che stiamo comparando delle

sequenze amminoacidiche, le dovremo comparare una sull’altra. Le sequenze proteiche sono definite delle

stringhe di carattere: è una sequenza di lettere, dove ognuna di esse corrisponde a un aa. Le sequenze

proteiche scritte come sequenza di aa sono delle stringhe di carattere. Dal punto di vista di informatico, sono

delle stringhe di carattere. Quando compariamo queste sequenze, le dobbiamo allineare. Sorge un problema:

l’allineamento ottimale tra sequenze di proteine omologhe ossia qual è il modo corretto di allineare tra di

loro sequenze di proteine omologhe. Questo aspetto non è così evidente. Esempio: proteine che sono

omologhe hanno sicuramente lo stesso numero di aa? Non necessariamente, emoglobine di specie diverse

non hanno lo stesso numero di aa, perché durante l’evoluzione naturale gli eventi di mutazione non sono

soltanto di tipo sostitutivo, ma ci sono anche delle inserzioni e delezioni di pezzi di cDNA. Le proteine

omologhe, quindi, potrebbero non avere la stessa lunghezza. Qual è, quindi, l’allineamento ottimale? Sorge

un altro problema: spesso si allineano decine di sequenze proteiche omologhe, non solo due. Se si conosce

la sequenza di più proteine omologhe, si allineeranno tutte; questo comporta che è utile automatizzare tale

processo: farlo svolgere a un calcolatore. L’automatizzazione rende tutto più veloce, utilizzando un algoritmo,

elimina ogni preconcetto del ricercatore. Dobbiamo far sì che il computer sia in grado di trovare

l’allineamento migliore. L’algoritmo, allora, deve generare dei punteggi per ogni possibile alternativa,

l’allineamento corretto è quello con il punteggio maggiore. Questa è la logica che usano tutti gli algoritmi.

L’allineamento con il punteggio maggiore è quello ottimale, su cui si possono fare le considerazioni

desiderate, se l’aa è conservato etc. Sorge un problema biochimico: come viene generato lo score

dall’algoritmo? Si deve usare un algoritmo che assegna punteggio 1 ogni volta che due aa identici sono

allineati, invece, il punteggio zero tutte le volte che due aa non identici sono allineati, si trovano l’uno sopra

l’altro, quindi, l’allineamento migliore è quello massimizza la sovrapposizione di aa identici. Questo è logico

perché si stanno allineando proteine omologhe, che hanno similarità di sequenza. Quando gli aa sono diversi,

non è detto che essi siano diversi sempre nello stesso modo. Con questa comparazione, qui si allineano una

serina con una treonina, ma dal punto di vista fisico-chimico non sono altamente differenti, sono due varianti

di uno stesso aa, invece, l’alanina e la lisina, A e K sono molto diverse, quindi, si deve pensare come funziona

la selezione naturale: le mutazioni sono casuali, ma se, poi, una mutazione compromette la funzione in modo

rilevante, l’organismo non si riproduce più, quindi, la mutazione scompare nella storia della vita. Se ci sono

degli aa uguali, deduciamo che su quell’aa c’è una pressione evolutiva molto forte: tutte le volte che si è

verificata una mutazione di quell’aa, l’organismo non si è riprodotto. Se si trovano degli aa che sono identici

in proteine omologhe, sicuramente si è verificata una mutazione, in tanti anni di storia evolutiva, ma

evidentemente quella mutazione non si è riprodotta, l’organismo è sparito. Un’altra considerazione: se un

aa, per caso (la selezione naturale avviene inizialmente per caso, poi seleziona) sostituisce un altro, una serina

con una treonina, che non sono così diverse, non cambiando in modo drammatico le proprietà della proteina,

anzi, magari migliora la propria funzione. Se si vede che in quella posizione ci sono aa molto diversi tra di

loro, è evidente che può starci qualsiasi aa senza causare problemi, quella posizione sopporta qualsiasi aa,

senza che la funzionalità sia compromessa. L’importante, quindi, è non compromettere la funzionalità della

proteina. Si deve tenere conto che alcune mutazioni sono conservative, invece, altre no, per scovare

l’allineamento ottimale non posso considerarle/penalizzarle allo stesso modo. Se si assegna un punto a

un’identità, è estremo dare zero a tutte le differenze, come faccio dare un punteggio a serina e a treonina?

Sono più simili tra di loro, ma il punteggio giusto è difficile da attribuire, non c’è un metodo biunivoco per

stabilirlo. È un elemento di soggettività. Gruppi di ricerca diversi possono dare punteggi diversi quando si

comparano aa diversi, ma con una certa similarità. Come risolvere questo problema? Come fa il calcolatore

a dare il punteggio? C’è una tabella in cui ci sono tutti i possibili punteggi durante gli allineamenti. L’algoritmo

usa 20 matrici. Faccio una tabella stabilendo tutti i possibili punteggi: matrice di 20 righe e 20 colonne = 20

aa. Attribuisco 1 per le identità e 0 per le diversità. Sulla diagonale della tabella ci sono tutti i valori uguali a

1, perché ci sono le identità, invece, fuori dalla diagonale ci sono tutti gli zeri. Questa è la matrice più semplice

= matrice identità è quella per cui aa = 1 p aa ≠ 0 punti. Ha dei difetti: sottostima le differenze. È troppo

semplificato.

C’è una matrice che tiene conto che non tutte le differenze sono da penalizzare allo stesso modo. 20 righe x

W-G

20 colonne. È simmetrica. Esempi: W =triptofano G = glicina sono molto diversi = -7. Non sono aa

simili, è poco probabile che in proteine omologhe dove c’era una glicina ci finisca un triptofano e viceversa

ed è improbabile che questo sia accettato dalla selezione naturale. È probabile che questa proteina, se

avviene tale mutazione, sparisca, in quanto l’organismo non si riproduce. Isoleucina e valina valgono 4,

perché sono molto simili, sono entrambi aa idrofobici, per questo si attribuisce un punteggio alto. Ci sono

degli elementi particolari: sulla diagonale ci si aspetta di trovare i punteggi più alti, ma i valori non sono tutti

uguali, anche se hanno il valore massimo possibile. Il triptofano ha un valore molto elevato (17), se l’algoritmo

deve decidere se è meglio un allineamento dove sono allineati due triptofani o due alanine, una matrice

premia quelle con il punteggio più elevato. Il triptofano ha tale punteggio perché ha delle peculiarità rispetto

agli altri aa, è più complesso. È più probabile che dalla selezione naturale venga accettato un aa che può

sostituire l’alanina, ma le mutazioni che riguardano il triptofano di solito generano una catastrofe, perché

l’anello indolico del triptofano (il doppio ciclo: ciclo a 5 fuso con il ciclo a 6) è talmente grosso che se nella

generazione successiva c’è una mutazione che cambia il triptofano in qualcos’altro nella proteina si forma un

buco, in quanto non c’è nessun aa che può sostituirlo. Il triptofano, inoltre, ha delle proprietà

stereoelettroniche, può essere coinvolto nel trasporto di elettroni. La cisteina è un altro aa particolare: può

formare ponti di solfuro ed è molto raro che venga accettata una mutazione di una cisteina.

Come vengono generati tali punteggi? Non c’è un metodo rigido chimico o fisico, ma si sfruttano le analisi

statistiche: si vede qual è la frequenza con cui in proteine omologhe si osservano certe particolari sostituzioni.

I valori delle matrici sono derivati da analisi statistiche, si valuta, quando si comparano, la frequenza in

proteine omologhe di osservare una sostituzione piuttosto che un’altra. Per allinearle dovrei avere la matrice,

è il problema dell’uovo e della gallina. Per questo gli allineamenti sono effettuati a occhio/ a mano. Se ho già

la matrice non mi serve calcolare la frequenza e viceversa. Se comparo tra loro proteine con un’elevata

identità rispetto a quelle con un’identità minore otterrò risultati diversi, ma non così tanto. Ci sono tante

matrici. Le matrici PAM sono le più utilizzati 250 = n che indica la distanza evolutiva. Matrici Blosum sono

altre matrici molto utilizzate. Per determinare quale matrice usare: effettuare l’allineamento di sequenze che

vogliamo con due matrici diverse, così dai due allineamenti determinati valuto le differenze locali, se sono

completamente diverse significa che non sono proteine omologhe. Ci sono due proteine che hanno il 60% di

identità: ci saranno delle regioni direttamente collegate alla struttura della proteina, subiscono una pressione

evolutiva selettiva, le mutazioni in quei punti determina un disastro, invece, ci sono delle zone della proteina

che possono avere diversi aa senza causare danno. Ci sono delle regioni delle proteine molto conservate, nei

loop della proteina non mi aspetto un’elevata conservazione; nelle regioni conservate non si sbaglia

l’allineamento, l’allineamento è sempre quello (elevato grado di confidenza), indipendentemente dalle

matrici usate, ma dove cala la conservazione, in quelle dove c’è un cambiamento, vedrò degli allineamenti

diversi in base alla matrice che uso. Se usando due matrice diverse, PAM e Blosum, mi danno lo stesso

risultato, significa che quello è affidabile, invece, se mi presenta delle differenze, non avendo un risultato

univoco ci devo ragionare. Entrano, poi, in gioco le competenze del ricercatore: se si conosce bene la

biochimica, si può capire quale allineamento ha più senso rispetto all’altro, si può conoscere il vincolo della

funzionalità (delle idrogenasi so che ci deve essere una cisteina, se il calcolatore non me l’allinea, c’è qualcosa

che non va).

Aspetto da considerare: se costruisco delle matrici per determinate condizioni, matrici ad hoc, devo ottenere

matrici più specifiche, però, queste le si fanno in casa, le matrici disponibili si basano su elementi universali.

Ci sono, inoltre, modi diversi per stabilire lo stesso punteggio, alcune matrici attribuiscono un punteggi

Anteprima

Vedrai una selezione di 10 pagine su 57