Package e interfacce per la gestione di sequenze
Manipolazione di sequenze
La sequenza è una stringa di caratteri che in biologia semplifica la descrizione di polimeri lineari. RNA e DNA possiedono una polarità 5’-3’; le proteine possiedono polarità di tipo N ter – C ter. In alcuni casi anche gli oligosaccaridi possono avere contenuto informazionale.
I programmi utilizzati in bioinformatica sono molti, e variano per funzione e tipo di esecuzione. Nel solo ambito dei programmi di manipolazione di sequenze, esempi di semplici operazioni di uso comune sono:
- Editing di sequenze (apportare modifiche, aggiungere o togliere elementi)
- Calcolo della sequenza complementare (per gli acidi nucleici)
- Frequenza di parole (word) di più nucleotidi, frequenza dei codoni
- Traduzione di acidi nucleici in proteine
- Visualizzazione grafica di Open Reading Frames (ORFs)
- Ricerca di pattern e di siti di restrizione
I programmi di bioinformatica riconoscono sia lettere minuscole che maiuscole. Si possono usare le maiuscole per gli elementi noti e le minuscole per quelli incerti. Gli amminoacidi sono in genere rappresentati facendo corrispondere un amminoacido ad un carattere; ciò non avviene però nel caso in cui si voglia evidenziare la diretta correlazione con le triplette nucleotidiche codificanti e in tal caso si usa il codice a tre lettere per ciascun amminoacido.
Complemento
Il calcolo della sequenza del filamento complementare viene effettuato applicando la nota regola di appaiamento delle basi, per cui A è convertita in T, C in G, G in C, T in A. Inoltre, per rispettare la polarità dei filamenti, la sequenza è invertita in modo da risultare scritta in direzione 5’-3’.
Frequenza delle parole
Nello studio di una sequenza si può calcolare la frequenza di ciascun nucleotide. In un DNA duplex la frequenza di A (fA) e la frequenza di T (fT) saranno uguali poiché ad ogni adenina corrisponde la timina complementare e viceversa; ma se si considera un singolo filamento, le frequenze attese dei 4 nucleotidi saranno tutte del 25%. Naturalmente nelle sequenze reali i valori non sono così precisi.
Si può anche calcolare la frequenza di gruppi di nucleotidi considerandoli 2, 3, 4 per volta, introducendo il concetto di parola. Gruppi di più nucleotidi vengono definiti words (parole). La determinazione della frequenza relativa di words di 2, 3 o più nucleotidi permette a volte di dare una grossolana valutazione sull’origine di una sequenza; ad esempio, nell’ambito di sequenze genomiche umane, quelle ricche in AT, TA, AA etc, sono spesso non codificanti, mentre quelle in cui prevalgono le par...
-
Package e visibilità in Java
-
Interfacce
-
Assemblaggio ed annotazione di genomi, Biotecnologie Cellulari
-
Interfacce operatore per processi di automazione locali e distribuiti