vuoi
o PayPal
tutte le volte che vuoi
5. PACKAGE E INTERFACCE PER LA GESTIONE DI SEQUENZE
MANIPOLAZIONE DI SEQUENZE
La sequenza è una stringa di caratteri che in biologia semplifica la descrizione di polimeri lineari. RNA e
DNA possiedono una polarità 5’-3’; le proteine possiedono polarità di tipo N ter –C ter. In alcuni casi anche
gli oligosaccaridi possono avere contenuto informazionale.
I programmi utilizzati in bioinformatica sono molti, e variano per funzione e tipo di esecuzione. Nel solo
ambito dei programmi di manipolazione di sequenze, esempi di semplici operazioni di uso comune sono:
Editing di sequenze (apportare modifiche, aggiungere o togliere elementi)
Calcolo della sequenza complementare (per gli acidi nucleici)
Frequenza di parole (word) di più nucleotidi, frequenza dei codoni
Traduzione di acidi nucleici in proteine
Visualizzazione grafica di Open Reading Frames (ORFs)
Ricerca di pattern e di siti di restrizione
I programmi di bioinformatica riconoscono sia lettere minuscole che maiuscole. Si possono usare le maiuscole
per gli elementi noti e le minuscole per quelli incerti. Gli amminoacidi sono in genere rappresentati facendo
corrispondere un amminoacido ad un carattere; ciò non avviene però nel caso in cui si voglia evidenziare
la diretta correlazione con le triplette nucleotidiche codificanti e in tal caso si usa il codice a tre lettere per
ciascun amminoacido.
Complemento
Il calcolo della sequenza del filamento complementare viene effettuato applicando la nota regola di appaia-
mento delle basi, per cui A è convertita in T, C in G, G in C, T in A. Inoltre, per rispettare la polarità dei
in direzione 5′-3′.
filamenti, la sequenza è invertita in modo da risultare scritta
Frequenza delle parole
Nello studio di una sequenza si può calcolare la frequenza di ciascun nucleotide. In un DNA duplex la fre-
quenza di A (fA) e la frequenza di T (fT) saranno uguali poiché ad ogni adenina corrisponde la timina com-
plementare e viceversa; ma se si considera un singolo filamento, le frequenze attese dei 4 nucleotidi saranno
tutte del 25%. Naturalmente nelle sequenze reali i valori non sono così precisi.
Si può anche calcolare la frequenza di gruppi di nucleotidi considerandoli 2,3,4 per volta, introducendo il
concetto di parola.
Gruppi di più nucleotidi vengono definiti words (parole). La determinazione della frequenza relativa di words
e funzione di una
di 2, 3 o più nucleotidi permette a volte di dare una grossolana valutazione sull’origine
sequenza; ad esempio, nell’ambito di sequenze genomiche umane, quelle ricche in AT, TA, AA etc, sono
spesso non codificanti, mentre quelle in cui prevalgono le parole contenenti C e/o G sono spesso codificanti.
Sequenze ricche in CG potrebbero indicare la presenza di isole CpG.
Le parole vanno lette con sovrapposizione: se la sequenza è lunga 100 basi, ci saranno 99 coppie possibili
secondo la regola
(w=2), 98 triplette possibili (w=3) ecc.… n-w+1 dove n= numero di nucleotidi (o ammi-
noacidi) e w= ampiezza della parola.
Il calcolo viene semplicemente effettuato determinando la frequenza di ciascuna parola. E’ utile confrontare i
valori ottenuti con quelli attesi. Valori maggiori indicano una sovra-rappresentazione. Ma se la frequenza di
un nucleotide, per esempio A, si discosta da 0,25, la frequenza della parola AA non va confrontata con 0,25²,
bensì con la reale frequenza di A al quadrato.