Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
W = W (C (G), B (G)).
2
Dato che W = 77 e W = 100, il peso risultante viene settato a 77. Nella libreria estesa, questo nuovo
1 2
valore viene aggiunto al precedente in modo da dare un peso totale di 165 per la coppia A (G) e B
(G). L’estensione completa della libreria richiederà un controllo di tutte le triplette rimanenti.
L’allineamento di F con C non viene supportato dal metodo delle triplette, in quanto non porta
nessun guadagno superiore a 88 nella fase di estensione della libreria.
I punteggi ottenuti (invece dei punteggi provenienti dalle matrici standard quali BLOSUM) possono
allora essere usati per allineare qualsiasi delle due sequenze provenienti dal nostro set di dati
usando una programmazione dinamica convenzionale. Otteniamo un set di punteggi che sono
specifici per ciascuna possibile coppia di residui nelle nostre due sequenze. Questo permetterà
l’esecuzione di un allineamento che rappresenterà i particolari residui presenti nelle due sequenze,
ma lo guiderà anche verso una coerenza con tutte le altre sequenze presenti nel set di dati.
Alla fine, l’allineamento viene ottenuto con un metodo progressivo. Questo, però, si basa su
un’informazione più ricca, derivata dagli allineamenti a coppie ma anche dal principio di consistenza,
che tiene conto anche di tutte le altre sequenze del dataset.
Un altro programma, simile a ClustalW, per costruire degli allineamenti multipli progressivi è
Muscle. Questo costruisce una matrice di distanze che compara le coppie così come sono state
allineate. Da questa si ottiene un albero guida attraverso il quale si arriva ad un primo MSA. Con dei
metodi computazionali, ottengo una matrice di distanza con metodo Kimura che mi serve per
costruire un secondo e migliore MSA. A questo punto, costruisco un’ulteriore matrice dal quale
ricavo un terzo albero guida. Da questo, attraverso una riottimizzazione dei sottoalberi, ottengo una
terza versione del MSA. Possono seguire ulteriori ottimizzazioni che mi danno un MSA sempre più
preciso.
Per valutare se le sequenze sono state allineate correttamente, posso eseguire una serie di analisi
qualitative:
A. Sum of pairs: eseguo la somma dei punteggio per tutte gli allineamenti a coppie di sequenza;
B. Reference sum-of-pairs: utilizzo degli allineamenti standard come riferimento;
C. Information content: introduco dei punteggi di entropia (che possono andare da zero a uno)
per le varie colonne nell’allineamento e li sommo tra loro;
D. norMD: introduco dei punteggi per colonna ed eseguo una normalizzazione per il set di
sequenze che vengono allineate (numero, lunghezza, similarità). Un esempio di applicazione
di questo metodo viene rappresentato nell’immagine sottostante.
Sono stati sviluppati anche dei metodi di rilevamento e di correzione degli errori (RASCAL), ma
anche di un loro raffinamento.
Un approccio di valutazione basato sulla concordanza, è quello di combinare gli esiti di numerosi
metodi alternativi in un esito finale (meta-metodi). Il motivo si basa sul ragionamento empirico che
gli errori prodotti da metodologie di predizione indipendenti possono produrre degli errori meno
consistenti. Pertanto, la concordanza tra questi metodi può essere un indice di correttezza. Il
programma M-coffee adotta proprio questa procedura sperimentale.
Il database di allineamenti di riferimento BAliBASE 3.0 offre una collezione di 141 allineamenti
proteici di riferimento, basati anche sulla loro struttura tridimensionale. CI sono 5 set di riferimento
che possono essere usati come utili test in diverse situazioni.
Cap. 3 – Predizione della struttura delle biomolecole
Il DNA e l’RNA sono polimeri lineari di nucleotidi specializzati nel deposito, nella trasmissione e
nell’utilizzo dell’informazione genetica. Gli acidi nucleici possono assumere specifiche forme nello
spazio tridimensionale. In particolare, gli RNA – come le proteine, che sono polimeri di amminoacidi
che svolgono le proprie funzioni proprio in virtù della loro forma nello spazio tridimensionale –
svolgono diverse attività (quali la catalisi) grazie alla loro struttura tridimensionale e alla loro
capacità di appaiamento con gli altri acidi nucleici.
Un nucleotide è formato da:
• Uno zucchero pentoso: che può essere il ribosio (nel caso dell’RNA) o il desossiribosio (nel
caso del DNA);
• Una base azotata: che può essere una C, una T, una U, una A o una G;
• Un gruppo fosfato.
La numerazione degli atomi di carbonio dello zucchero è la base dell’identificazione delle estremità
3’ e 5’ dei filamenti di DNA e di RNA. Nell’RNA, le basi sono legate al ribosio e sono le purine adenina
e guanina e le pirimidine citosina e uracile. Nel DNA, invece, le basi sono legate al desossiribosio ed
è presente l’uracile al poso della timina. Inoltre, i legami idrogeno tra le purine e le pirimidine
tengono insieme i due filamenti di DNA.
Le molecole di RNA possono ripiegarsi grazie all’appaiamento delle basi complementari ed assumere
forme specifiche nello spazio tridimensionale:
• Wooble base pairs (G-U, I-U, I-A, I-C);
• Stem-loop, bulges, tetraloops e pseudoknots.
La principale funzione dell’RNA è di tipo informazionale e risiede nel trasferimento di informazione
dal DNA alle proteine. Esistono, però, anche degli RNA con funzione catalitica e con moltissime altre
funzioni molecolari, che sono i non-coding RNAs.
Gli amminoacidi formano le proteine e sono composti con più gruppi funzionali. Il loro carbonio
alfa (C ) è legato a: un gruppo amminico, un gruppo carbossilico, un atomo di idrogeno e una catena
α
laterale. Nelle molecole dei diversi amminoacidi si ritrovano delle catene laterali diverse in termini
di composizione, di proprietà chimiche e di ingombro sterico. Sono noti circa 500 amminoacidi, dei
quali quelli proteinogenici sono circa 22 e sono di tipo alfa. Di questi, 20 sono quelli codificati dal
codice genetico e 2 sono non canonici (pirrolisina e selenocisteina). Dei 20, 9 sono quelli essenziali
per l’uomo che devono essere assunti con la dieta. I 20 amminoacidi proteinogenici codificati dal
codice genetico vengono divisi convenzionalmente in diverse classi e sono i seguenti:
A. Amminoacidi con residui aventi carica positiva: sono l’arginina, l’istidina e la lisina;
B. Amminoacidi con residui aventi carica negativa: sono l’aspartato e il glutammato;
C. Amminoacidi con residui polari aventi carica neutra: sono la serina, la treonina, l’asparagina
e la glutammina;
D. Amminoacidi con residui idrofobici: sono l’alanina, l’isoleucina, la leucina, la valina la
metionina (questi quelli non aromatici), la fenilalanina, il triptofano e la tirosina (questi ultimi
tre quelli aromatici);
E. Amminoacidi particolari: sono la cisteina, la glicina e la prolina.
Le proteine presentano diversi livelli strutturali:
1. Struttura primaria;
2. Struttura secondaria: motivi ricorrenti sono il foglietto-β, l’α-elica e il β-turn;
3. Struttura terziaria;
4. Struttura quaternaria.
I vari amminoacidi interagiscono tra loro, formando queste strutture, attraverso vari tipi di legami:
• Legame idrogeno: determinano strutture secondarie, ma anche terziarie;
• Legame ionico: interazioni tra cariche opposte, ovvero tra catene laterali cariche;
• Ponti disolfuro: legami covalenti tra catene laterali di cisteina che sono importanti per la
formazione della struttura terziaria;
• Forza di Van der Waals: sono dovute a interazioni tra molecole con distribuzione di carica
asimmetrica (dipoli) e sono forze deboli a breve raggio;
• Interazioni idrofobiche: dovuti all’idrofobia di alcuni amminoacidi, che induce le catene a
ripiegarsi in modo da escludere l’acqua in regioni occupate solo da catene apolari.
Alcuni esempi di fanno capire perché è importante conoscere la struttura di una macromolecola:
A. I residui della triade catalitica nella chimotripsina sono contigui nella sequenza proteica,
determinandone la funzione;
B. Le proprietà catalitiche del ribozima dipendono dalla sua struttura terziaria. Le mutazioni
che ne alterano le interazioni chiave determinano una perdita del ripiegamento e della
funzione.
In molti casi, solo l’analisi della struttura tridimensionale di una macromolecola può aiutarci a
comprendere in quale modo e per quale motivo una determinata sequenza possa svolgere una
funzione precisa. I metodi sperimenali classici per la risoluzione della struttura tridimensionale di
una macromolecola sono di due diverse tipologie:
• Cristallografia a raggi X: dopo aver purificato e cristallizzato una proteina, si esegue una
diffrazione a raggi-x dalla quale si ricava una mappa di densità elettronica;
• Spettroscopia a risonanza magnetica e nucleare (NMR);
Mentre Uniprot/Swissprot contiene 546238 sequenza proteiche, PDB contiene solo 103354
strutture. Questo significa che proteine diverse usano strutture uguali o simili.
L’esperimento di Anfisen del 1973 ha offerto una prova sperimentale che la sequenza primaria di
una proteina ne determina la struttura. Anfisen ha contemporaneamente ridotto (con il β-
mercaptoetanolo) e denaturato (con l’urea) una RNasi. Successivamente, ha rimosso l’urea e ha
riossidato i gruppi sulfidrilici liberi, ottenendo una riattivazione della proteina natura in più del 90%
dei casi. Questo significava che l’informazione contenuta nella sequenza è sufficiente a determinare
il ripiegamento e la funzione della proteina. Inoltre, l’ipotesi termodinamica assume che la struttura
nativa di una proteina corrisponda alla struttura globale termodinamicamente più stabile.
Il paradosso di Levinthal prende in considerazione una proteina costituita da 100 residui. Se
ciascuno di questi può occupare solo tre
3100
posizioni, ci sono conformazioni possibili.
Se il tempo di conversione da una struttura
-13
all’altra è di 10 s, la ricerca esaustiva della
27
conformazione migliore durerebbe 1,6 x 10
anni. Nella realtà, si osserva che le proteine si
ripiegano in tempi di millisecondi (se non di
microsecondi). Questo significa che il folding
deve procedere attraverso una progressiva
stabilizzazione degli intermedi, ognuno dei
quali comporta una riduzione del’energia
libera. Il processo di ripiegamento diventa
irreversibile quando si arriva al cosiddetto
stadio dei globul fusi (molten globules), che
sono stadi intermedi di avvolgimento delle proteine con energia superiore a quella dello stato nativo
ma inferiore a quella dello stato denaturato. Questo significa che l’informazione codificata nella
1
sequenza amminoacidica di una proteina determina completamente la sua struttura nativa . Lo
stato nativo è il minimo assoluto dell’energia libera