Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
SEQUENZE
La comparazione di dispositivi che hanno un ancestore comune può far emergere delle informazioni, delle
caratteristiche strutturale. I dispositivi studiati prevalentemente sono delle proteine. Le informazioni
ottenute non possono essere derivate se si studiasse una singola proteina.
Come si fa a comparare questi dispositivi molecolari? Un primo livello di comparazione (quello anche più
utilizzato) è quello delle sequenze primarie ossia delle sequenze amminoacidiche delle proteine omologhe,
quelle che discendono da un ancestore comune, da questa comparazione posso ottenere delle informazioni
strutturali. Questa comparazione è definita allineamento di sequenze. Dato che stiamo comparando delle
sequenze amminoacidiche, le dovremo comparare una sull’altra. Le sequenze proteiche sono definite delle
stringhe di carattere: è una sequenza di lettere, dove ognuna di esse corrisponde a un aa. Le sequenze
proteiche scritte come sequenza di aa sono delle stringhe di carattere. Dal punto di vista di informatico, sono
delle stringhe di carattere. Quando compariamo queste sequenze, le dobbiamo allineare. Sorge un problema:
l’allineamento ottimale tra sequenze di proteine omologhe ossia qual è il modo corretto di allineare tra di
loro sequenze di proteine omologhe. Questo aspetto non è così evidente. Esempio: proteine che sono
omologhe hanno sicuramente lo stesso numero di aa? Non necessariamente, emoglobine di specie diverse
non hanno lo stesso numero di aa, perché durante l’evoluzione naturale gli eventi di mutazione non sono
soltanto di tipo sostitutivo, ma ci sono anche delle inserzioni e delezioni di pezzi di cDNA. Le proteine
omologhe, quindi, potrebbero non avere la stessa lunghezza. Qual è, quindi, l’allineamento ottimale? Sorge
un altro problema: spesso si allineano decine di sequenze proteiche omologhe, non solo due. Se si conosce
la sequenza di più proteine omologhe, si allineeranno tutte; questo comporta che è utile automatizzare tale
processo: farlo svolgere a un calcolatore. L’automatizzazione rende tutto più veloce, utilizzando un algoritmo,
9
elimina ogni preconcetto del ricercatore. Dobbiamo far sì che il computer sia in grado di trovare
l’allineamento migliore. L’algoritmo, allora, deve generare dei punteggi per ogni possibile alternativa,
l’allineamento corretto è quello con il punteggio maggiore. Questa è la logica che usano tutti gli algoritmi.
L’allineamento con il punteggio maggiore è quello ottimale, su cui si possono fare le considerazioni
desiderate, se l’aa è conservato etc. Sorge un problema biochimico: come viene generato lo score
dall’algoritmo? Si deve usare un algoritmo che assegna punteggio 1 ogni volta che due aa identici sono
allineati, invece, il punteggio zero tutte le volte che due aa non identici sono allineati, si trovano l’uno sopra
l’altro, quindi, l’allineamento migliore è quello massimizza la sovrapposizione di aa identici. Questo è logico
perché si stanno allineando proteine omologhe, che hanno similarità di sequenza. Quando gli aa sono diversi,
non è detto che essi siano diversi sempre nello stesso modo. Con questa comparazione, qui si allineano una
serina con una treonina, ma dal punto di vista fisico-chimico non sono altamente differenti, sono due varianti
di uno stesso aa, invece, l’alanina e la lisina, A e K sono molto diverse, quindi, si deve pensare come funziona
la selezione naturale: le mutazioni sono casuali, ma se, poi, una mutazione compromette la funzione in modo
rilevante, l’organismo non si riproduce più, quindi, la mutazione scompare nella storia della vita. Se ci sono
degli aa uguali, deduciamo che su quell’aa c’è una pressione evolutiva molto forte: tutte le volte che si è
verificata una mutazione di quell’aa, l’organismo non si è riprodotto. Se si trovano degli aa che sono identici
in proteine omologhe, sicuramente si è verificata una mutazione, in tanti anni di storia evolutiva, ma
evidentemente quella mutazione non si è riprodotta, l’organismo è sparito. Un’altra considerazione: se un
aa, per caso (la selezione naturale avviene inizialmente per caso, poi seleziona) sostituisce un altro, una serina
con una treonina, che non sono così diverse, non cambiando in modo drammatico le proprietà della proteina,
anzi, magari migliora la propria funzione. Se si vede che in quella posizione ci sono aa molto diversi tra di
loro, è evidente che può starci qualsiasi aa senza causare problemi, quella posizione sopporta qualsiasi aa,
senza che la funzionalità sia compromessa. L’importante, quindi, è non compromettere la funzionalità della
proteina. Si deve tenere conto che alcune mutazioni sono conservative, invece, altre no, per scovare
l’allineamento ottimale non posso considerarle/penalizzarle allo stesso modo. Se si assegna un punto a
un’identità, è estremo dare zero a tutte le differenze, come faccio dare un punteggio a serina e a treonina?
Sono più simili tra di loro, ma il punteggio giusto è difficile da attribuire, non c’è un metodo biunivoco per
stabilirlo. È un elemento di soggettività. Gruppi di ricerca diversi possono dare punteggi diversi quando si
comparano aa diversi, ma con una certa similarità. Come risolvere questo problema? Come fa il calcolatore
a dare il punteggio? C’è una tabella in cui ci sono tutti i possibili punteggi durante gli allineamenti. L’algoritmo
usa 20 matrici. Faccio una tabella stabilendo tutti i possibili punteggi: matrice di 20 righe e 20 colonne = 20
aa. Attribuisco 1 per le identità e 0 per le diversità. Sulla diagonale della tabella ci sono tutti i valori uguali a
1, perché ci sono le identità, invece, fuori dalla diagonale ci sono tutti gli zeri. Questa è la matrice più semplice
= matrice identità è quella per cui aa = 1 p aa ≠ 0 punti. Ha dei difetti: sottostima le differenze. È troppo
semplificato.
C’è una matrice che tiene conto che non tutte le differenze sono da penalizzare allo stesso modo. 20 righe x
W-G
20 colonne. È simmetrica. Esempi: W =triptofano G = glicina sono molto diversi = -7. Non sono aa
simili, è poco probabile che in proteine omologhe dove c’era una glicina ci finisca un triptofano e viceversa
ed è improbabile che questo sia accettato dalla selezione naturale. È probabile che questa proteina, se
avviene tale mutazione, sparisca, in quanto l’organismo non si riproduce. Isoleucina e valina valgono 4,
perché sono molto simili, sono entrambi aa idrofobici, per questo si attribuisce un punteggio alto. Ci sono
degli elementi particolari: sulla diagonale ci si aspetta di trovare i punteggi più alti, ma i valori non sono tutti
uguali, anche se hanno il valore massimo possibile. Il triptofano ha un valore molto elevato (17), se l’algoritmo
deve decidere se è meglio un allineamento dove sono allineati due triptofani o due alanine, una matrice
premia quelle con il punteggio più elevato. Il triptofano ha tale punteggio perché ha delle peculiarità rispetto
agli altri aa, è più complesso. È più probabile che dalla selezione naturale venga accettato un aa che può
sostituire l’alanina, ma le mutazioni che riguardano il triptofano di solito generano una catastrofe, perché
l’anello indolico del triptofano (il doppio ciclo: ciclo a 5 fuso con il ciclo a 6) è talmente grosso che se nella
10
generazione successiva c’è una mutazione che cambia il triptofano in qualcos’altro nella proteina si forma un
buco, in quanto non c’è nessun aa che può sostituirlo. Il triptofano, inoltre, ha delle proprietà
stereoelettroniche, può essere coinvolto nel trasporto di elettroni. La cisteina è un altro aa particolare: può
formare ponti di solfuro ed è molto raro che venga accettata una mutazione di una cisteina.
Come vengono generati tali punteggi? Non c’è un metodo rigido chimico o fisico, ma si sfruttano le analisi
statistiche: si vede qual è la frequenza con cui in proteine omologhe si osservano certe particolari sostituzioni.
I valori delle matrici sono derivati da analisi statistiche, si valuta, quando si comparano, la frequenza in
proteine omologhe di osservare una sostituzione piuttosto che un’altra. Per allinearle dovrei avere la matrice,
è il problema dell’uovo e della gallina. Per questo gli allineamenti sono effettuati a occhio/ a mano. Se ho già
la matrice non mi serve calcolare la frequenza e viceversa. Se comparo tra loro proteine con un’elevata
identità rispetto a quelle con un’identità minore otterrò risultati diversi, ma non così tanto. Ci sono tante
matrici. Le matrici PAM sono le più utilizzati 250 = n che indica la distanza evolutiva. Matrici Blosum sono
altre matrici molto utilizzate. Per determinare quale matrice usare: effettuare l’allineamento di sequenze che
vogliamo con due matrici diverse, così dai due allineamenti determinati valuto le differenze locali, se sono
completamente diverse significa che non sono proteine omologhe. Ci sono due proteine che hanno il 60% di
identità: ci saranno delle regioni direttamente collegate alla struttura della proteina, subiscono una pressione
evolutiva selettiva, le mutazioni in quei punti determina un disastro, invece, ci sono delle zone della proteina
che possono avere diversi aa senza causare danno. Ci sono delle regioni delle proteine molto conservate, nei
loop della proteina non mi aspetto un’elevata conservazione; nelle regioni conservate non si sbaglia
l’allineamento, l’allineamento è sempre quello (elevato grado di confidenza), indipendentemente dalle
matrici usate, ma dove cala la conservazione, in quelle dove c’è un cambiamento, vedrò degli allineamenti
diversi in base alla matrice che uso. Se usando due matrice diverse, PAM e Blosum, mi danno lo stesso
risultato, significa che quello è affidabile, invece, se mi presenta delle differenze, non avendo un risultato
univoco ci devo ragionare. Entrano, poi, in gioco le competenze del ricercatore: se si conosce bene la
biochimica, si può capire quale allineamento ha più senso rispetto all’altro, si può conoscere il vincolo della
funzionalità (delle idrogenasi so che ci deve essere una cisteina, se il calcolatore non me l’allinea, c’è qualcosa
che non va).
Aspetto da considerare: se costruisco delle matrici per determinate condizioni, matrici ad hoc, devo ottenere
matrici più specifiche, però, queste le si fanno in casa, le matrici disponibili si basano su elementi universali.
Ci sono, inoltre, modi diversi per stabilire lo stesso punteggio, alcune matrici attribuiscono un punteggi