26/03/2019 (pomeriggio)
STRUTTURA DELLE PROTEINE
Da 20 AA posso ottenere un numero infinito di combinazioni di sequenze. A pH fisiologico le
proteine si trovano in forma zwitterionica. Gli AA sono otticamente attivi perché ruotano il piano
della luce. Sono presenti nelle proteine come unici stereoisomeri (L) anche se non è chiaro il
motivo. Gli AA possono essere carichi, polari o apolari. Per indicare un dipeptide si usano i simboli
dei corrispondenti amminoacidi costitutivi (ad esempio AS, Ala, Ser). Si legge sempre
dall’estremità N-terminale.
Struttura secondaria
I termini α-elica e β-foglietto sono stati inventati da Ramachandran.
angolo diedro: se considero come atomi il carbonio carbonilico, l’azoto, il carbonio in alfa e il
secondo carbonio carbonilico (4 carboni consecutivi in un peptide, C,N,C,C) posso visualizzare due
piani. Un primo piano formato dai primi 3 atomi (C,N,C) e un altro piano formato da 3 atomi
(N,C,C). Ho i due piani nello spazio e posso costruire un vettore perpendicolare al primo e un altro
vettore perpendicolare al secondo piano. Ottengo due rette nello spazio tridimensionale e l’angolo
formato da queste due rette è l’angolo diedro (o torsione).
La proiezione di Newman permette di vedere le torsioni degli angoli in modo efficace. Per
nascondere un atomo (eclissarlo), devo fare una rotazione. La rotazione orario di un atomo è
considerata positiva, la rotazione antioraria è negativa. I valori vanno da -180 a +180.
Ramachandran insieme a collaboratori ha effettuato dei calcoli per vedere come potessero
ruotare i due angoli diedri fi e psi. Hanno analizzato i cambiamenti di energia. Hanno trovato delle
combinazioni di angoli stabili, in particolare due zone, mentre tutte le altre combinazioni
comportano troppa energia. Le due zone stabili sono state chiamate β e α e danno il nome alle
strutture secondarie. Esistono due forme di risonanza del legame peptidico, una
di tipo carbonilico e un’altra con C=N. E’ un legame
peptidico difficile da rompere. In una mole di legame
covalente ci sono 100 kcal di energia. Il legame può avere
conformazione trans (ω = 180°) oppure cis (ω = 0°). La
prima è molto più frequente. La seconda è a più alta
energia e quindi può essere vista come una forma di
immagazzinamento di energia chimica. I quattro angoli
sono quelli rappresentati in figura.
α-elica
Il legame idrogeno nelle alfa-eliche di solito si forma tra un residuo e il quarto successivo. Può
formarsi anche con il quinto (spire di elica più larghe) o con il terzo (spire più strette). In questo
ultimo caso si parla di 3 perché sono 3 gli amminoacidi coinvolti e 10 gli idrogeni. Di solito sono
10
eliche destrorse ma ne esistono anche sinistrorse (anche qui come accumulo di energia). Le eliche
sono dei dipoli perché i legami C=O sono tutti circa paralleli all’asse dell’elica quindi si sommano
tutti i piccoli dipoli elettrici. Le eliche sono anfipatiche (di solito) perché hanno un lato polare
esposto al solvente e un lato apolare. Un’altra caratteristica è che sono leggermente piegate
perché si adattano alla forma “sferica” della proteina e può esserci uno strano ripiegamento
(kinked) dovuto a residui di prolina.
β-strand
Possono essere singole catene o affiancate ad altre tra cui si formano legami idrogeno tra catene
diverse. Li troviamo paralleli o antiparalleli. Hanno la caratteristica di avere le catene laterali da un
lato o dall’altro dello strand, in modo alternato. Si formano due strati di catene laterali in pratica.
Lo strato può essere polare o apolare. I legami idrogeno rendono la molecola cineticamente
stabile (non termodinamicamente) quindi è più difficile denaturare. Per passare da forma
denaturata (D) a foldata (F) bisogna rompere dei legami quindi serve una energia di attivazione
(vedi foto).
Struttura terziaria
Le proteine sono composte da protomeri (monomeri è un termine sbagliato!). Gli oligomeri
derivano da duplicazione genica quindi è più facile trovare dimeri, tetrameri o esameri piuttosto
che trimeri o pentameri (vedi foto sopra). Se la duplicazione è avvenuta in antichità, c’è stato il
tempo per subire delle modifiche nel protomero e quindi si formano gli eterodimeri invece degli
omodimeri.
Oltre ai due stati denaturato e foldato, esiste un terzo stato chiamato aggregato, a più bassa
energia. Se nell’ambiente c’è molto affollamento, le proteine tendono ad aggregarsi e a
precipitare, senza perdere il loro folding. Se questo avviene nelle cellule si hanno dei problemi e
questa situazione è stata osservata in patologie come Parkinson o Alzheimer. In condizioni normali
le proteine vengono digerite prima di degenerare. L’emoglobina ad esempio ha un tempo di vita di
circa 3 o 4 settimane. Per gli aggregati esistono due teorie sulla loro struttura. La prima è quella di
Eisenberg e ipotizza la formazione di β-strand uno sopra l’altro in cui le catene laterali della catena
sopra si incastrano con le catene laterali di quella sotto (come a formare una zip->zipper). Il
secondo modello prevede che la proteina abbia una parte di foglietto-β e tutto il resto denaturato.
Se questa proteina interagisce con un’altra i foglietti-β interagiscono a formare una struttura
simile a quella del primo modello, ma in questo secondo modello ho molta più proteina
denaturata.
La differenza tra stato denaturato e foldato è circa 20kcal/mol in energia quindi è abbastanza
facile denaturare.
ANALISI DELLE SEQUENZE (STRUTTURE PRIMARIE)
Allineamento
Tecnica che si usa per paragonare due sequenze ovvero trovarne la similarità. Deriva dalla teoria
dell’evoluzione. Si segnano le differenze per stabilire la relazione evolutiva tra due proteine. Se ad
esempio considero le due sequenze VALA e AALA dovrò scrivere uno sopra l’altro gli amminoacidi
che svolgono la stessa funzione nelle due sequenze. In questo caso le posizioni di allineamento
corrispondono alla posizione in sequenza. Oppure posso avere allineamenti diversi a causa di
delezioni o inserzioni di amminoacidi (gap) che risultano in perdita o acquisizione di determinate
funzioni. 27/03/19
C’è bisogno di un algoritmo per filtrare le diverse ipotesi di allineamento. I principali sono due:
- Smith – Waterman: l’allineamento privilegia le zone molto simili nel senso che allinea bene le
zone in cui si ha una buona similarità di sequenza mentre le zone molto diverse vengono
trascurate
- Nedleman – Worsch: ha come scopo quello di allineare tutto con tutta la sequenza senza
privilegiare le zone in cui le proteine confrontate sono simili e senza svantaggiare le zone in cui le
proteine sono molto diverse
Sono stati sviluppati negli anni 70 ma prima i calcolatori non erano abbastanza potenti per poterli
utilizzare e quindi si usano algoritmi più leggeri.
Ciascun programma permette di usare entrambi gli algoritmi e quale scegliere dipende da caso a
caso: se voglio evidenziare maggiormente le zone di similitudine, uso SW, mentre se voglio fare
allineamento globale, uso NW. Inoltre, occorre ricordare che se le proteine sono abbastanza simili,
usare un algoritmo o l’altro dà lo stesso risultato, mentre se le proteine da allineare sono piuttosto
diverse, allora i risultati ottenuti con uno o l’altro algoritmo sono molto diversi in quanto la
procedura matematica che usano è simile ma cambia la procedura di ricostruzione all’indietro che
si fa alla fine.
Entrambi gli algoritmi usano degli strumenti che si chiamano metodi di sostituzione. Sono delle
matrici bidimensionali 20x20 (perché gli aa naturali sono 20). L’elemento x (che è un numero)
ij
indica la probabilità con la quale l’amminoacido i può essere mutato in j e viceversa; devo
conoscere questi numeri per avere una stima di quanto l’ipotesi di allineamento sia buona.
Quindi, il concetto di base è che nella stessa colonna di allineamento devo mettere due aa che è
probabile che mutino l’uno nell’altro ma non gli aa che hanno bassa probabilità di mutare l’uno
nell’altro.
Ci sono tante matrici e bisogna scegliere quella giusta (spesso deve farlo dall’operatore). Le più
comuni sono:
- PAM: la PAM99 è usata per fare allineamenti nei quali la % di identità di sequenza tra due
proteine sia del 99%. In questo caso, quindi, la distanza evolutiva tra le sequenze è di un’unità di
tempo, ossia il tempo necessario affinché avvenga una mutazione.
! Ci sono proteine che mutano più velocemente rispetto ad altre. Ma mediamente si assume che ci
sia un tempo t costante dopo il quale ciascuna proteina subisce una mutazione.
La PAM98, invece, si usa per proteine con distanza evolutiva di 2, la PAM97 per distanze evolutive
di 3 e così via. Tuttavia, la correlazione 100 - %identità = identità evolutiva è verificata se si assume
che una mutazione sia indipendente dall’altra, cosa che spesso si verifica, anche se a volte, le
mutazioni di alcuni aa, soprattutto se vicini all’aa mutato, sono più probabili perché tendono ad
adattarsi all’altra mutazione. Comunque, un’assunzione che si fa quando viene effettuato un
allineamento è quella che gli eventi siano indipendenti.
Quindi se x è per PAM99, per PAM98 diventa x * x e così via.
ij ij ij
Devo scegliere la PAM migliore per le proteine che sto analizzando e per farlo, devo fare delle
prove. Di solito si comincia con PAM 50/60 e poi a seconda dell’identità di sequenza che ottengo
uso una PAM più alta o più bassa.
- BLOSUM: simile a PAM ma elaborato in un altro laboratorio e per questo ha un altro nome. La
differenza è che il numero che segue la praola BLOSUM si riferisce ad un’unità di tempo (quindi
può essere anche superiore a 100). Ad esempio, BLOSUM 62 allinea bene proteine con identità di
sequenza 40-50%
! Non usare le altre matrici a meno che non le conosci
Queste matrici sono state determinate a mano. In particolare, per la determinazione di PAM sono
state analizzate sequenze uguali al 99% il cui allineamento era semplice anche se fatto
manualmente. Prendendo tanti esempi e facendo tanti allineamenti, hanno calcolato la probabilità
che un aa si trasformi in un altro (es. Glu -> Asp; Ala -> Leu; …), ottenendo quindi dati sperimentali
di quante volte avvengono queste mutazioni: se avvengono spesso, vuol dire che quelle mutazioni
sono frequentemente tollerate dall’evoluzione (frequenza di osservazioni) e quindi sono più
probabili.
A volte potrebbero esserci dei gap di sequenza dovuti a inserzioni o delezioni. Nell’allineamento
questi gap sono calcolati come gap penalty perché durante l’evoluzione è più probabile che
avvenga una mutazione rispetto ad un’inserzione o una delezione; se tolgo un aa (soprattutto nel
sito attivo) la struttura e/o funzione della proteina ne risente parecchio. Le delezioni/inserzioni,
quindi, sono troppo deleterie.
Ci sono due penalties:
- introduzione: è avvenuta una inserzione o una delezione (primo evento). Penalizzazione elevata.
- estensione: una volta che è avvenuta una delezione (anche se poco probabile), la delezione può
aumentare di dimensione. La penalità è inferiore all’introduzione perché l’aa in più o meno ha
scompigliato l’equilibrio e quindi altri aa possono seguire la strada del primo.
Queste penalizzazioni di gap sono empiriche e sono diverse a seconda della matrice di sostituzione
che uso. I programmi che si usano permettono di cambiare i gap penalty (ma non vanno mai
cambiati perché si rischia di non ottenere l’allineamento giusto). In casi particolare, però, c’è la
necessità di cambiarli ma devo sapere bene cosa sto facendo.
Quindi, con la matrice di sostituzione e la gap penalty posso andare a capire quale allineamento è
migliore perché determino il punteggio di allineamento per ogni possibilità di allineamento (se il
punteggio è maggiore, è migliore l’allineamento). Hanno unità di misura arbitrarie e misurano
quanto è buono un allineamento.
Considerando l’esempio sopra:
- P(V->A) + P(A-> A) + P(L -> L) + P(A->A= = punteggio del primo allineamento. La probabilità della
conversione di un aa in un altro è determinata dalle matrici di sostituzione.
- Gap singolo + gap singolo + P(A->A) + P (L->L) + P(A->A) = punteggio del secondo allineamento
! Quindi, per fare un buon allineamento:
- scelgo l’algoritmo giusto
- scelgo la matrice di allineamento giusta
Di solito il punteggio di allineamento non è comunicato ma si comunica il PID (percentuale di
identità) che dà un’idea del livello di similitudine, dove PID = 100 * (numero di identità) / (numero
posizioni di allineamento gap inclusi). Talvolta i gap non vengono inclusi o contati come la metà.
Significato di alcune percentuali di identità:
• Il 100% dell’allineamento lo ottengo quando allineo una pt con se stessa
• 80-90% se allineo due pt omologhe vicine (esempio proteine con la stessa funzione tra
mammiferi)
• 30% se allineo pt batterica e pt umana che hanno la stessa funziona biochimica
• E’ praticamente impossibile avere una PID di 0 perché essendo le sequenze molto lunghe,
probabilmente almeno 1 aa in comune ci sarà. Generalmente si considera che, se si scende
sotto il 20%-25% le due pt non hanno niente in comune e non ha senso allinearle.
! Non tutti gli aa hanno la stessa probabilità di essere usati e le frequenze cambiano un pochino in
base alla grandezza della proteina. La Leu è la più usata (13%), segue Ala (10%) e quindi qualsiasi
pt ha almeno una Leu e Ala. Sono molto rari invece Trp, Cys e Met e in una proteina possono non
trovarsi affatto
Allineamento multiplo (MSA, Multiple Sequence Alignment)
Allineamento di 3 o più sequenze.
! L’* indica una conservazione dell’amminoacido in tutte le proteine allineate tramite MSA.
Dunque, quell’aa è molto importante per la famiglia di proteine analizzata in quanto è un aa
conservato durante l’evoluzione. Se ne deduce che alcuni aa sono fondamentali altrimenti la pt è
inattiva/inefficace.
Per fare MSA si usano dei programmi basati su algoritmi empirici (no grossa base teorica):
- Clustal, fatto da Toby Gibson. Allinea due sequenze (che ho inserito di fila) con un tipo di
allineamento e poi tenta di allineare le altre sequenze con quello stesso tipo di allineamento. Se
cambio l’ordine delle sequenze, potrebbe variare il tipo di allineamento. Quindi è meglio se
modifico un paio di volte l’ordine con cui allineo le sequenze per essere sicura di aver fatto un
buon lavoro e vedere se ottengo un cambiamento significativo nell’allineamento.
- Tcoffee, fatto da Jeep Heringe. Funziona in maniera simile a Clustal ma è in grado di scegliere da
solo la matrice di sostituzione. E’ però più lento.
Questi algoritmi sono stati sviluppati inizialmente dalla Enkel perché i detersivi in uso all’epoca
non erano in grado di togliere le macchie di sangue (macchie di proteine). Erano necessarie delle
proteasi che fossero anche termostabili. A quell’epoca si tentò di ottenerle inserendo mutazioni
casuali nella proteasi per vedere quale diventasse termostabile. Poiché il processo non funzionava
come sperato, hanno sviluppato l’algoritmo per capire cosa fosse conservato nelle diverse pt e
quindi identificare le zone che non andavano mutate per non inattivare completamente l’enzima.
Attualmente, MSA si usa molto sempre per andare a vedere cosa è conservato, in modo da capire
gli aa importanti per l’attività della proteina.
Praticamente, per fare MSA con meno errori possibili, si prendono le sequenze di 6-7 proteine
piuttosto distanti tra di loro in termini di evoluzione ma con la stessa funzione in modo che le
posizioni conservate siano quelle importanti per l’attività della proteina. Essendo inizialmente
poche proteine posso fare un “controllo umano” (le leggo) per vedere che tutto sia stato fatto
correttamente. Quindi posso aggiungere altre proteine sempre diversificate (fino a 15) e vado a
vedere se le posizioni conservate di prima sono confermate. Quindi, quando sono sicura, posso
mettere molte proteine anche simili. ! non parto a cannone perché all’inizio è necessario il
controllo umano (ad esempio potrei sbagliare ed inserire una pt sbagliata che non centra nulla)
Scansione di banche dati di sequenze
La ricerca nelle banche dati si fa per cercare il modello della proteina che voglio analizzare ma anche per
capirne la funzione; infatti, se trovo un’identità con una proteina a funzione nota, allora probabilmente le
due proteine avranno funzione simile se non identica.
Uniprot è la banca dati per eccellenza (praticamente l’unica) per le sequenze di proteine che ha inglobato
tutte le banche dati che erano state precedentemente create. Oltre alle sequenze contiene anche delle
annotazioni sulle sequenze come ad esempio:
- l’organismo in cui la proteina viene espressa
- su quali aa avvengono le modifiche post-traduzionali
- funzione
! Attenzione: in questa banca dati c’è anche un’etichetta che indica il livello di confidenza di quella
sequenza, cioè quanto si è sicuri che la sequenza inserita sia una proteina che deriva dalla trascrizione e
successiva traduzione di un genoma. In base all’etichetta posso, quindi, selezionare le entry per cui ci sono
abbastanza evidenze sperimentali (cioè qualcuno ha effettivamente visto la proteina). Queste proteine
sono in SwissProt (sotto-sessione completamente sicura).
La scansione della banca dati può essere fatta con allineamento di sequenze tra la sequenza
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.