Package ed interfacce per la gestione di sequenze, Biotecnologie

Appunti di Biotecnologie Cellulari, Molecolari e Computazionali per l’esame del professor Paolella. Gli argomenti trattati sono i seguenti: Cos'è una sequenza, cosa fanno i …

Esame Biotecnologie Cellulari, Molecolari e Computazionali

Facoltà Scienze biotecnologiche

Dal corso del Prof. Paolella Giovanni

Università Università degli studi di Napoli Federico II

Publisher KittyMidnight

A.A. 2014-2015

3 pagine

3 download

Appunto

Vota 5,0 / 5 (2)

Scarica

Estratto del documento

5. PACKAGE E INTERFACCE PER LA GESTIONE DI SEQUENZE

MANIPOLAZIONE DI SEQUENZE

La sequenza è una stringa di caratteri che in biologia semplifica la descrizione di polimeri lineari. RNA e

DNA possiedono una polarità 5’-3’; le proteine possiedono polarità di tipo N ter –C ter. In alcuni casi anche

gli oligosaccaridi possono avere contenuto informazionale.

I programmi utilizzati in bioinformatica sono molti, e variano per funzione e tipo di esecuzione. Nel solo

ambito dei programmi di manipolazione di sequenze, esempi di semplici operazioni di uso comune sono:

 Editing di sequenze (apportare modifiche, aggiungere o togliere elementi)

 Calcolo della sequenza complementare (per gli acidi nucleici)

 Frequenza di parole (word) di più nucleotidi, frequenza dei codoni

 Traduzione di acidi nucleici in proteine

 Visualizzazione grafica di Open Reading Frames (ORFs)

 Ricerca di pattern e di siti di restrizione

I programmi di bioinformatica riconoscono sia lettere minuscole che maiuscole. Si possono usare le maiuscole

per gli elementi noti e le minuscole per quelli incerti. Gli amminoacidi sono in genere rappresentati facendo

corrispondere un amminoacido ad un carattere; ciò non avviene però nel caso in cui si voglia evidenziare

la diretta correlazione con le triplette nucleotidiche codificanti e in tal caso si usa il codice a tre lettere per

ciascun amminoacido.

Complemento

Il calcolo della sequenza del filamento complementare viene effettuato applicando la nota regola di appaia-

mento delle basi, per cui A è convertita in T, C in G, G in C, T in A. Inoltre, per rispettare la polarità dei

in direzione 5′-3′.

filamenti, la sequenza è invertita in modo da risultare scritta

Frequenza delle parole

Nello studio di una sequenza si può calcolare la frequenza di ciascun nucleotide. In un DNA duplex la fre-

quenza di A (fA) e la frequenza di T (fT) saranno uguali poiché ad ogni adenina corrisponde la timina com-

plementare e viceversa; ma se si considera un singolo filamento, le frequenze attese dei 4 nucleotidi saranno

tutte del 25%. Naturalmente nelle sequenze reali i valori non sono così precisi.

Si può anche calcolare la frequenza di gruppi di nucleotidi considerandoli 2,3,4 per volta, introducendo il

concetto di parola.

Gruppi di più nucleotidi vengono definiti words (parole). La determinazione della frequenza relativa di words

e funzione di una

di 2, 3 o più nucleotidi permette a volte di dare una grossolana valutazione sull’origine

sequenza; ad esempio, nell’ambito di sequenze genomiche umane, quelle ricche in AT, TA, AA etc, sono

spesso non codificanti, mentre quelle in cui prevalgono le parole contenenti C e/o G sono spesso codificanti.

Sequenze ricche in CG potrebbero indicare la presenza di isole CpG.

Le parole vanno lette con sovrapposizione: se la sequenza è lunga 100 basi, ci saranno 99 coppie possibili

secondo la regola

(w=2), 98 triplette possibili (w=3) ecc.… n-w+1 dove n= numero di nucleotidi (o ammi-

noacidi) e w= ampiezza della parola.

Il calcolo viene semplicemente effettuato determinando la frequenza di ciascuna parola. E’ utile confrontare i

valori ottenuti con quelli attesi. Valori maggiori indicano una sovra-rappresentazione. Ma se la frequenza di

un nucleotide, per esempio A, si discosta da 0,25, la frequenza della parola AA non va confrontata con 0,25²,

bensì con la reale frequenza di A al quadrato.

Anteprima

Vedrai una selezione di 1 pagina su 3

Package ed interfacce per la gestione di sequenze, Biotecnologie Pag. 1

Acquista con carta o PayPal

Scarica i documenti tutte le volte che vuoi

Dettagli

SSD

Scienze matematiche e informatiche INF/01 Informatica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher KittyMidnight di informazioni apprese con la frequenza delle lezioni di Biotecnologie Cellulari, Molecolari e Computazionali e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli studi di Napoli Federico II o del prof Paolella Giovanni.

Appunti correlati