Estratto del documento

quelli passati, cioè che l evoluzione non abbia memoria delle

precedenti mutazioni.

Questo processo di mutazione su + posizioni e nel corso del tempo è

modellizzabile attraverso una catena di Markov, ovvero durante il

processo evoluzionistico si passa da un istante all altro in modo

discreto e contemporaneamente da uno stato all altro, in cui

posso assistere a conservazioni o mutazioni degli aa sulle varie posizioni.

Ogni passaggio da uno stato all altro è caratterizzato da una certa

probabilità di avvenire, che dipende dal tipo di conservazioni/mutazioni

che sono avvenute. Queste probabilità sono le probabilità di

transizione e sono contenute in una matrice apposita M.

Una matrice M definita per un intervallo di tempo delta e per aa a e b

serve per transizioni tra istanti separati da 1 delta. Per transizioni tra

istanti separati da intervalli di tempo + lunghi, n*delta, devo usare una

matrice definita su ndelta data dal prodotto della matrice definita su

delta per sé stessa.

Lo spazio di stato è dato dall insieme dei possibili caratteri. Nel

caso del dna, le 4 basi A C G T. ogni cella della matrice valuta la

probabilitò di transizione da una base all altra.

Un modello di evoluzione del dna è quello di Jukes-Cantor. Qui tutte

le sostituzioni sono equiprobabili per ogni carattere e la

probabilità è alpha, mentre la probabilità di avere conservazione

del carattere è per differenza 1-3*alpha. Quindi 3*alpha è la

probabilità di avere una sostituzione e 1-3*alpha di

conservazione.

Nel modello di Kimura, il passaggio da pirimidina a pirimidina

(AG) o da purina a purina (TC) è detto transizione e ha una

probabilità alpha maggiore rispetto al passaggio da pirimidina a

purina e vicevera, che è detto transversione e ha probabilità beta

minore, in quanto la sostituzione porta a una diversità tra le basi

maggiore. Il modello di J-C è un caso particolare di K in cui alpha e beta

sono uguali. Matrici ottenute dal confronto tra dna umano e

di scimmia:

Notiamo che i modelli aventi +parametri es Kimura con 2 param sono

+vicini alle frequenze di sostituzione osservate.

Un Modello Markoviano Nascosto è rappresentato da un tripletta m

= (Σ, Q, Θ). Sigma è l insieme dei caratteri/simboli dell alfabeto. Q è

l insieme degli stati, che sono in grado di emettere i caratteri di

sigma. Tetha è l insieme delle probabilità di transizione tra gli

stati (a , con kl da Q) e le probabilità di emissione (e (b) , per ogni b

kl k

di sigma e per ogni k di Q). Un percorso nel modello markoviano è una

sequenza di stati e segue la catena di Markov. Nel MMN non c è una

corrispondenza uno a uno tra stati e caratteri.

Il modello prevede un layer di quadrati che sono gli stati principali

ovvero quelli lungo cui si procede attraverso posizioni successive, un

layer di rombi che sono gli stati di inserzione in cui vengono agginti

caratteri in nuove posizioni, e un layer di cerchi che sono gli stati di

delezione per cui avvengono dei gap nelle posizioni successive.

Esempio:

Faccio un multiallineamento su un sito di seq che ha stessa funzione,

es sito di attacco di un fattore di trascrizione. L espressione regolare

risporta tra parentesi quadre i caratteri possibili osservati in

ciascuna posizione, quello con l asterisco riguarda una regione con gap

o inserzioni. Le due seq sopra riportate sono entrambe possibili,

perché rispettano l espressione regolare, ma non sono

equiprobabili, perché le frequenze osservate per ogni carattere

possibile nelle varie posizioni sono diverse. Quindi bisogna

calcolare la probabilità complessiva su tutte le posizioni per capire quale

seq è +prob dell altra.

Ci sono 6 stati principali che sono le prime 3 e le ultime 3 posizioni,

presenti in tutte le seq allineate. Le 3 posizioni centrali sono invece stati

di inserzione, perché sono presenti solo in alcune seq. Le probabilità all

interno di ogni stato/posizione sono le prob di emissione, le freccie di

passaggio tra stati sono le prob di transizione, quella circolare è quella di

mantenimento nello stesso stato. Le prob di emissione dell inserzione

sono calcolate contando le frequenze relative su tutta la regione di

inserzione/gap. Tra gli stati principali ho 100%=1.0 prob di transiz. Tra

terzo stato princ e primo stato di inserz ho 3/5=0.6=60% di prob. Dallo

stato di inserzione al quarto stato princ c è 3/9 = circa 0.6 prob, qunidi di

restare nello stato di inserzione la prob è 1-0.6=0.4.

La probabilità di una seq viene spesso riportata sottoforma di log-

odds ratio che è ln (p(S)/p(null)). Dove p(S) è la probabilità della

seq data, p(null) è la probabilità calcolata per un modlelo nullo

ovvero in cui tutti i caratteri siano equiprobabili con p di emissione

= ¼ (per 4 basi del dna) e un totale di n posizioni, quindi p(null) =

(1/4) e il suo log-odds ratio = 1. Si usa il ln per avere numeri +allti

n

dato che quelli che si ottengono sono probabilità molto basse. La seq

consensus è quella +probabile tra tutte, la seq exceptional è quella meno

prob.

Anteprima
Vedrai una selezione di 3 pagine su 9
Modelli di evoluzione Pag. 1 Modelli di evoluzione Pag. 2
Anteprima di 3 pagg. su 9.
Scarica il documento per vederlo tutto.
Modelli di evoluzione Pag. 6
1 su 9
D/illustrazione/soddisfatti o rimborsati
Acquista con carta o PayPal
Scarica i documenti tutte le volte che vuoi
Dettagli
SSD
Ingegneria industriale e dell'informazione ING-INF/06 Bioingegneria elettronica e informatica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher valillo2002 di informazioni apprese con la frequenza delle lezioni di Bioinformatica e genomica funzionale e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Politecnico di Milano o del prof Pattini Linda.
Appunti correlati Invia appunti e guadagna

Domande e risposte

Hai bisogno di aiuto?
Chiedi alla community