Estratto del documento

26/03/2019 (pomeriggio)

STRUTTURA DELLE PROTEINE

Da 20 AA posso ottenere un numero infinito di combinazioni di sequenze. A pH fisiologico le

proteine si trovano in forma zwitterionica. Gli AA sono otticamente attivi perché ruotano il piano

della luce. Sono presenti nelle proteine come unici stereoisomeri (L) anche se non è chiaro il

motivo. Gli AA possono essere carichi, polari o apolari. Per indicare un dipeptide si usano i simboli

dei corrispondenti amminoacidi costitutivi (ad esempio AS, Ala, Ser). Si legge sempre

dall’estremità N-terminale.

Struttura secondaria

I termini α-elica e β-foglietto sono stati inventati da Ramachandran.

angolo diedro: se considero come atomi il carbonio carbonilico, l’azoto, il carbonio in alfa e il

secondo carbonio carbonilico (4 carboni consecutivi in un peptide, C,N,C,C) posso visualizzare due

piani. Un primo piano formato dai primi 3 atomi (C,N,C) e un altro piano formato da 3 atomi

(N,C,C). Ho i due piani nello spazio e posso costruire un vettore perpendicolare al primo e un altro

vettore perpendicolare al secondo piano. Ottengo due rette nello spazio tridimensionale e l’angolo

formato da queste due rette è l’angolo diedro (o torsione).

La proiezione di Newman permette di vedere le torsioni degli angoli in modo efficace. Per

nascondere un atomo (eclissarlo), devo fare una rotazione. La rotazione orario di un atomo è

considerata positiva, la rotazione antioraria è negativa. I valori vanno da -180 a +180.

Ramachandran insieme a collaboratori ha effettuato dei calcoli per vedere come potessero

ruotare i due angoli diedri fi e psi. Hanno analizzato i cambiamenti di energia. Hanno trovato delle

combinazioni di angoli stabili, in particolare due zone, mentre tutte le altre combinazioni

comportano troppa energia. Le due zone stabili sono state chiamate β e α e danno il nome alle

strutture secondarie. Esistono due forme di risonanza del legame peptidico, una

di tipo carbonilico e un’altra con C=N. E’ un legame

peptidico difficile da rompere. In una mole di legame

covalente ci sono 100 kcal di energia. Il legame può avere

conformazione trans (ω = 180°) oppure cis (ω = 0°). La

prima è molto più frequente. La seconda è a più alta

energia e quindi può essere vista come una forma di

immagazzinamento di energia chimica. I quattro angoli

sono quelli rappresentati in figura.

α-elica

Il legame idrogeno nelle alfa-eliche di solito si forma tra un residuo e il quarto successivo. Può

formarsi anche con il quinto (spire di elica più larghe) o con il terzo (spire più strette). In questo

ultimo caso si parla di 3 perché sono 3 gli amminoacidi coinvolti e 10 gli idrogeni. Di solito sono

10

eliche destrorse ma ne esistono anche sinistrorse (anche qui come accumulo di energia). Le eliche

sono dei dipoli perché i legami C=O sono tutti circa paralleli all’asse dell’elica quindi si sommano

tutti i piccoli dipoli elettrici. Le eliche sono anfipatiche (di solito) perché hanno un lato polare

esposto al solvente e un lato apolare. Un’altra caratteristica è che sono leggermente piegate

perché si adattano alla forma “sferica” della proteina e può esserci uno strano ripiegamento

(kinked) dovuto a residui di prolina.

β-strand

Possono essere singole catene o affiancate ad altre tra cui si formano legami idrogeno tra catene

diverse. Li troviamo paralleli o antiparalleli. Hanno la caratteristica di avere le catene laterali da un

lato o dall’altro dello strand, in modo alternato. Si formano due strati di catene laterali in pratica.

Lo strato può essere polare o apolare. I legami idrogeno rendono la molecola cineticamente

stabile (non termodinamicamente) quindi è più difficile denaturare. Per passare da forma

denaturata (D) a foldata (F) bisogna rompere dei legami quindi serve una energia di attivazione

(vedi foto).

Struttura terziaria

Le proteine sono composte da protomeri (monomeri è un termine sbagliato!). Gli oligomeri

derivano da duplicazione genica quindi è più facile trovare dimeri, tetrameri o esameri piuttosto

che trimeri o pentameri (vedi foto sopra). Se la duplicazione è avvenuta in antichità, c’è stato il

tempo per subire delle modifiche nel protomero e quindi si formano gli eterodimeri invece degli

omodimeri.

Oltre ai due stati denaturato e foldato, esiste un terzo stato chiamato aggregato, a più bassa

energia. Se nell’ambiente c’è molto affollamento, le proteine tendono ad aggregarsi e a

precipitare, senza perdere il loro folding. Se questo avviene nelle cellule si hanno dei problemi e

questa situazione è stata osservata in patologie come Parkinson o Alzheimer. In condizioni normali

le proteine vengono digerite prima di degenerare. L’emoglobina ad esempio ha un tempo di vita di

circa 3 o 4 settimane. Per gli aggregati esistono due teorie sulla loro struttura. La prima è quella di

Eisenberg e ipotizza la formazione di β-strand uno sopra l’altro in cui le catene laterali della catena

sopra si incastrano con le catene laterali di quella sotto (come a formare una zip->zipper). Il

secondo modello prevede che la proteina abbia una parte di foglietto-β e tutto il resto denaturato.

Se questa proteina interagisce con un’altra i foglietti-β interagiscono a formare una struttura

simile a quella del primo modello, ma in questo secondo modello ho molta più proteina

denaturata.

La differenza tra stato denaturato e foldato è circa 20kcal/mol in energia quindi è abbastanza

facile denaturare.

ANALISI DELLE SEQUENZE (STRUTTURE PRIMARIE)

Allineamento

Tecnica che si usa per paragonare due sequenze ovvero trovarne la similarità. Deriva dalla teoria

dell’evoluzione. Si segnano le differenze per stabilire la relazione evolutiva tra due proteine. Se ad

esempio considero le due sequenze VALA e AALA dovrò scrivere uno sopra l’altro gli amminoacidi

che svolgono la stessa funzione nelle due sequenze. In questo caso le posizioni di allineamento

corrispondono alla posizione in sequenza. Oppure posso avere allineamenti diversi a causa di

delezioni o inserzioni di amminoacidi (gap) che risultano in perdita o acquisizione di determinate

funzioni. 27/03/19

C’è bisogno di un algoritmo per filtrare le diverse ipotesi di allineamento. I principali sono due:

- Smith – Waterman: l’allineamento privilegia le zone molto simili nel senso che allinea bene le

zone in cui si ha una buona similarità di sequenza mentre le zone molto diverse vengono

trascurate

- Nedleman – Worsch: ha come scopo quello di allineare tutto con tutta la sequenza senza

privilegiare le zone in cui le proteine confrontate sono simili e senza svantaggiare le zone in cui le

proteine sono molto diverse

Sono stati sviluppati negli anni 70 ma prima i calcolatori non erano abbastanza potenti per poterli

utilizzare e quindi si usano algoritmi più leggeri.

Ciascun programma permette di usare entrambi gli algoritmi e quale scegliere dipende da caso a

caso: se voglio evidenziare maggiormente le zone di similitudine, uso SW, mentre se voglio fare

allineamento globale, uso NW. Inoltre, occorre ricordare che se le proteine sono abbastanza simili,

usare un algoritmo o l’altro dà lo stesso risultato, mentre se le proteine da allineare sono piuttosto

diverse, allora i risultati ottenuti con uno o l’altro algoritmo sono molto diversi in quanto la

procedura matematica che usano è simile ma cambia la procedura di ricostruzione all’indietro che

si fa alla fine.

Entrambi gli algoritmi usano degli strumenti che si chiamano metodi di sostituzione. Sono delle

matrici bidimensionali 20x20 (perché gli aa naturali sono 20). L’elemento x (che è un numero)

ij

indica la probabilità con la quale l’amminoacido i può essere mutato in j e viceversa; devo

conoscere questi numeri per avere una stima di quanto l’ipotesi di allineamento sia buona.

Quindi, il concetto di base è che nella stessa colonna di allineamento devo mettere due aa che è

probabile che mutino l’uno nell’altro ma non gli aa che hanno bassa probabilità di mutare l’uno

nell’altro.

Ci sono tante matrici e bisogna scegliere quella giusta (spesso deve farlo dall’operatore). Le più

comuni sono:

- PAM: la PAM99 è usata per fare allineamenti nei quali la % di identità di sequenza tra due

proteine sia del 99%. In questo caso, quindi, la distanza evolutiva tra le sequenze è di un’unità di

tempo, ossia il tempo necessario affinché avvenga una mutazione.

! Ci sono proteine che mutano più velocemente rispetto ad altre. Ma mediamente si assume che ci

sia un tempo t costante dopo il quale ciascuna proteina subisce una mutazione.

La PAM98, invece, si usa per proteine con distanza evolutiva di 2, la PAM97 per distanze evolutive

di 3 e così via. Tuttavia, la correlazione 100 - %identità = identità evolutiva è verificata se si assume

che una mutazione sia indipendente dall’altra, cosa che spesso si verifica, anche se a volte, le

mutazioni di alcuni aa, soprattutto se vicini all’aa mutato, sono più probabili perché tendono ad

adattarsi all’altra mutazione. Comunque, un’assunzione che si fa quando viene effettuato un

allineamento è quella che gli eventi siano indipendenti.

Quindi se x è per PAM99, per PAM98 diventa x * x e così via.

ij ij ij

Devo scegliere la PAM migliore per le proteine che sto analizzando e per farlo, devo fare delle

prove. Di solito si comincia con PAM 50/60 e poi a seconda dell’identità di sequenza che ottengo

uso una PAM più alta o più bassa.

- BLOSUM: simile a PAM ma elaborato in un altro laboratorio e per questo ha un altro nome. La

differenza è che il numero che segue la praola BLOSUM si riferisce ad un’unità di tempo (quindi

può essere anche superiore a 100). Ad esempio, BLOSUM 62 allinea bene proteine con identità di

sequenza 40-50%

! Non usare le altre matrici a meno che non le conosci

Queste matrici sono state determinate a mano. In particolare, per la determinazione di PAM sono

state analizzate sequenze uguali al 99% il cui allineamento era semplice anche se fatto

manualmente. Prendendo tanti esempi e facendo tanti allineamenti, hanno calcolato la probabilità

che un aa si trasformi in un altro (es. Glu -> Asp; Ala -> Leu; …), ottenendo quindi dati sperimentali

di quante volte avvengono queste mutazioni: se avvengono spesso, vuol dire che quelle mutazioni

sono frequentemente tollerate dall’evoluzione (frequenza di osservazioni) e quindi sono più

probabili.

A volte potrebbero esserci dei gap di sequenza dovuti a inserzioni o delezioni. Nell’allineamento

questi gap sono calcolati come gap penalty perché durante l’evoluzione è più probabile che

avvenga una mutazione rispetto ad un’inserzione o una delezione; se tolgo un aa (soprattutto nel

sito attivo) la struttura e/o funzione della proteina ne risente parecchio. Le delezioni/inserzioni,

quindi, sono troppo deleterie.

Ci sono due penalties:

- introduzione: è avvenuta una inserzione o una delezione (primo evento). Penalizzazione elevata.

- estensione: una volta che è avvenuta una delezione (anche se poco probabile), la delezione può

aumentare di dimensione. La penalità è inferiore all’introduzione perché l’aa in più o meno ha

scompigliato l’equilibrio e quindi altri aa possono seguire la strada del primo.

Queste penalizzazioni di gap sono empiriche e sono diverse a seconda della matrice di sostituzione

che uso. I programmi che si usano permettono di cambiare i gap penalty (ma non vanno mai

cambiati perché si rischia di non ottenere l’allineamento giusto). In casi particolare, però, c’è la

necessità di cambiarli ma devo sapere bene cosa sto facendo.

Quindi, con la matrice di sostituzione e la gap penalty posso andare a capire quale allineamento è

migliore perché determino il punteggio di allineamento per ogni possibilità di allineamento (se il

punteggio è maggiore, è migliore l’allineamento). Hanno unità di misura arbitrarie e misurano

quanto è buono un allineamento.

Considerando l’esempio sopra:

- P(V->A) + P(A-> A) + P(L -> L) + P(A->A= = punteggio del primo allineamento. La probabilità della

conversione di un aa in un altro è determinata dalle matrici di sostituzione.

- Gap singolo + gap singolo + P(A->A) + P (L->L) + P(A->A) = punteggio del secondo allineamento

! Quindi, per fare un buon allineamento:

- scelgo l’algoritmo giusto

- scelgo la matrice di allineamento giusta

Di solito il punteggio di allineamento non è comunicato ma si comunica il PID (percentuale di

identità) che dà un’idea del livello di similitudine, dove PID = 100 * (numero di identità) / (numero

posizioni di allineamento gap inclusi). Talvolta i gap non vengono inclusi o contati come la metà.

Significato di alcune percentuali di identità:

• Il 100% dell’allineamento lo ottengo quando allineo una pt con se stessa

• 80-90% se allineo due pt omologhe vicine (esempio proteine con la stessa funzione tra

mammiferi)

• 30% se allineo pt batterica e pt umana che hanno la stessa funziona biochimica

• E’ praticamente impossibile avere una PID di 0 perché essendo le sequenze molto lunghe,

probabilmente almeno 1 aa in comune ci sarà. Generalmente si considera che, se si scende

sotto il 20%-25% le due pt non hanno niente in comune e non ha senso allinearle.

! Non tutti gli aa hanno la stessa probabilità di essere usati e le frequenze cambiano un pochino in

base alla grandezza della proteina. La Leu è la più usata (13%), segue Ala (10%) e quindi qualsiasi

pt ha almeno una Leu e Ala. Sono molto rari invece Trp, Cys e Met e in una proteina possono non

trovarsi affatto

Allineamento multiplo (MSA, Multiple Sequence Alignment)

Allineamento di 3 o più sequenze.

! L’* indica una conservazione dell’amminoacido in tutte le proteine allineate tramite MSA.

Dunque, quell’aa è molto importante per la famiglia di proteine analizzata in quanto è un aa

conservato durante l’evoluzione. Se ne deduce che alcuni aa sono fondamentali altrimenti la pt è

inattiva/inefficace.

Per fare MSA si usano dei programmi basati su algoritmi empirici (no grossa base teorica):

- Clustal, fatto da Toby Gibson. Allinea due sequenze (che ho inserito di fila) con un tipo di

allineamento e poi tenta di allineare le altre sequenze con quello stesso tipo di allineamento. Se

cambio l’ordine delle sequenze, potrebbe variare il tipo di allineamento. Quindi è meglio se

modifico un paio di volte l’ordine con cui allineo le sequenze per essere sicura di aver fatto un

buon lavoro e vedere se ottengo un cambiamento significativo nell’allineamento.

- Tcoffee, fatto da Jeep Heringe. Funziona in maniera simile a Clustal ma è in grado di scegliere da

solo la matrice di sostituzione. E’ però più lento.

Questi algoritmi sono stati sviluppati inizialmente dalla Enkel perché i detersivi in uso all’epoca

non erano in grado di togliere le macchie di sangue (macchie di proteine). Erano necessarie delle

proteasi che fossero anche termostabili. A quell’epoca si tentò di ottenerle inserendo mutazioni

casuali nella proteasi per vedere quale diventasse termostabile. Poiché il processo non funzionava

come sperato, hanno sviluppato l’algoritmo per capire cosa fosse conservato nelle diverse pt e

quindi identificare le zone che non andavano mutate per non inattivare completamente l’enzima.

Attualmente, MSA si usa molto sempre per andare a vedere cosa è conservato, in modo da capire

gli aa importanti per l’attività della proteina.

Praticamente, per fare MSA con meno errori possibili, si prendono le sequenze di 6-7 proteine

piuttosto distanti tra di loro in termini di evoluzione ma con la stessa funzione in modo che le

posizioni conservate siano quelle importanti per l’attività della proteina. Essendo inizialmente

poche proteine posso fare un “controllo umano” (le leggo) per vedere che tutto sia stato fatto

correttamente. Quindi posso aggiungere altre proteine sempre diversificate (fino a 15) e vado a

vedere se le posizioni conservate di prima sono confermate. Quindi, quando sono sicura, posso

mettere molte proteine anche simili. ! non parto a cannone perché all’inizio è necessario il

controllo umano (ad esempio potrei sbagliare ed inserire una pt sbagliata che non centra nulla)

Scansione di banche dati di sequenze

La ricerca nelle banche dati si fa per cercare il modello della proteina che voglio analizzare ma anche per

capirne la funzione; infatti, se trovo un’identità con una proteina a funzione nota, allora probabilmente le

due proteine avranno funzione simile se non identica.

Uniprot è la banca dati per eccellenza (praticamente l’unica) per le sequenze di proteine che ha inglobato

tutte le banche dati che erano state precedentemente create. Oltre alle sequenze contiene anche delle

annotazioni sulle sequenze come ad esempio:

- l’organismo in cui la proteina viene espressa

- su quali aa avvengono le modifiche post-traduzionali

- funzione

! Attenzione: in questa banca dati c’è anche un’etichetta che indica il livello di confidenza di quella

sequenza, cioè quanto si è sicuri che la sequenza inserita sia una proteina che deriva dalla trascrizione e

successiva traduzione di un genoma. In base all’etichetta posso, quindi, selezionare le entry per cui ci sono

abbastanza evidenze sperimentali (cioè qualcuno ha effettivamente visto la proteina). Queste proteine

sono in SwissProt (sotto-sessione completamente sicura).

La scansione della banca dati può essere fatta con allineamento di sequenze tra la sequenza

Anteprima
Vedrai una selezione di 17 pagine su 80
Bioinformatica strutturale - corso completo Pag. 1 Bioinformatica strutturale - corso completo Pag. 2
Anteprima di 17 pagg. su 80.
Scarica il documento per vederlo tutto.
Bioinformatica strutturale - corso completo Pag. 6
Anteprima di 17 pagg. su 80.
Scarica il documento per vederlo tutto.
Bioinformatica strutturale - corso completo Pag. 11
Anteprima di 17 pagg. su 80.
Scarica il documento per vederlo tutto.
Bioinformatica strutturale - corso completo Pag. 16
Anteprima di 17 pagg. su 80.
Scarica il documento per vederlo tutto.
Bioinformatica strutturale - corso completo Pag. 21
Anteprima di 17 pagg. su 80.
Scarica il documento per vederlo tutto.
Bioinformatica strutturale - corso completo Pag. 26
Anteprima di 17 pagg. su 80.
Scarica il documento per vederlo tutto.
Bioinformatica strutturale - corso completo Pag. 31
Anteprima di 17 pagg. su 80.
Scarica il documento per vederlo tutto.
Bioinformatica strutturale - corso completo Pag. 36
Anteprima di 17 pagg. su 80.
Scarica il documento per vederlo tutto.
Bioinformatica strutturale - corso completo Pag. 41
Anteprima di 17 pagg. su 80.
Scarica il documento per vederlo tutto.
Bioinformatica strutturale - corso completo Pag. 46
Anteprima di 17 pagg. su 80.
Scarica il documento per vederlo tutto.
Bioinformatica strutturale - corso completo Pag. 51
Anteprima di 17 pagg. su 80.
Scarica il documento per vederlo tutto.
Bioinformatica strutturale - corso completo Pag. 56
Anteprima di 17 pagg. su 80.
Scarica il documento per vederlo tutto.
Bioinformatica strutturale - corso completo Pag. 61
Anteprima di 17 pagg. su 80.
Scarica il documento per vederlo tutto.
Bioinformatica strutturale - corso completo Pag. 66
Anteprima di 17 pagg. su 80.
Scarica il documento per vederlo tutto.
Bioinformatica strutturale - corso completo Pag. 71
Anteprima di 17 pagg. su 80.
Scarica il documento per vederlo tutto.
Bioinformatica strutturale - corso completo Pag. 76
1 su 80
D/illustrazione/soddisfatti o rimborsati
Acquista con carta o PayPal
Scarica i documenti tutte le volte che vuoi
Dettagli
SSD
Scienze biologiche BIO/11 Biologia molecolare

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher Sara2596 di informazioni apprese con la frequenza delle lezioni di Bioinformatica strutturale e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Pavia o del prof Carugo Oliviero.
Appunti correlati Invia appunti e guadagna

Domande e risposte

Hai bisogno di aiuto?
Chiedi alla community