quelli passati, cioè che l evoluzione non abbia memoria delle
precedenti mutazioni.
Questo processo di mutazione su + posizioni e nel corso del tempo è
modellizzabile attraverso una catena di Markov, ovvero durante il
processo evoluzionistico si passa da un istante all altro in modo
discreto e contemporaneamente da uno stato all altro, in cui
posso assistere a conservazioni o mutazioni degli aa sulle varie posizioni.
Ogni passaggio da uno stato all altro è caratterizzato da una certa
probabilità di avvenire, che dipende dal tipo di conservazioni/mutazioni
che sono avvenute. Queste probabilità sono le probabilità di
transizione e sono contenute in una matrice apposita M.
Una matrice M definita per un intervallo di tempo delta e per aa a e b
serve per transizioni tra istanti separati da 1 delta. Per transizioni tra
istanti separati da intervalli di tempo + lunghi, n*delta, devo usare una
matrice definita su ndelta data dal prodotto della matrice definita su
delta per sé stessa.
Lo spazio di stato è dato dall insieme dei possibili caratteri. Nel
caso del dna, le 4 basi A C G T. ogni cella della matrice valuta la
probabilitò di transizione da una base all altra.
Un modello di evoluzione del dna è quello di Jukes-Cantor. Qui tutte
le sostituzioni sono equiprobabili per ogni carattere e la
probabilità è alpha, mentre la probabilità di avere conservazione
del carattere è per differenza 1-3*alpha. Quindi 3*alpha è la
probabilità di avere una sostituzione e 1-3*alpha di
conservazione.
Nel modello di Kimura, il passaggio da pirimidina a pirimidina
(AG) o da purina a purina (TC) è detto transizione e ha una
probabilità alpha maggiore rispetto al passaggio da pirimidina a
purina e vicevera, che è detto transversione e ha probabilità beta
minore, in quanto la sostituzione porta a una diversità tra le basi
maggiore. Il modello di J-C è un caso particolare di K in cui alpha e beta
sono uguali. Matrici ottenute dal confronto tra dna umano e
di scimmia:
Notiamo che i modelli aventi +parametri es Kimura con 2 param sono
+vicini alle frequenze di sostituzione osservate.
Un Modello Markoviano Nascosto è rappresentato da un tripletta m
= (Σ, Q, Θ). Sigma è l insieme dei caratteri/simboli dell alfabeto. Q è
l insieme degli stati, che sono in grado di emettere i caratteri di
sigma. Tetha è l insieme delle probabilità di transizione tra gli
stati (a , con kl da Q) e le probabilità di emissione (e (b) , per ogni b
kl k
di sigma e per ogni k di Q). Un percorso nel modello markoviano è una
sequenza di stati e segue la catena di Markov. Nel MMN non c è una
corrispondenza uno a uno tra stati e caratteri.
Il modello prevede un layer di quadrati che sono gli stati principali
ovvero quelli lungo cui si procede attraverso posizioni successive, un
layer di rombi che sono gli stati di inserzione in cui vengono agginti
caratteri in nuove posizioni, e un layer di cerchi che sono gli stati di
delezione per cui avvengono dei gap nelle posizioni successive.
Esempio:
Faccio un multiallineamento su un sito di seq che ha stessa funzione,
es sito di attacco di un fattore di trascrizione. L espressione regolare
risporta tra parentesi quadre i caratteri possibili osservati in
ciascuna posizione, quello con l asterisco riguarda una regione con gap
o inserzioni. Le due seq sopra riportate sono entrambe possibili,
perché rispettano l espressione regolare, ma non sono
equiprobabili, perché le frequenze osservate per ogni carattere
possibile nelle varie posizioni sono diverse. Quindi bisogna
calcolare la probabilità complessiva su tutte le posizioni per capire quale
seq è +prob dell altra.
Ci sono 6 stati principali che sono le prime 3 e le ultime 3 posizioni,
presenti in tutte le seq allineate. Le 3 posizioni centrali sono invece stati
di inserzione, perché sono presenti solo in alcune seq. Le probabilità all
interno di ogni stato/posizione sono le prob di emissione, le freccie di
passaggio tra stati sono le prob di transizione, quella circolare è quella di
mantenimento nello stesso stato. Le prob di emissione dell inserzione
sono calcolate contando le frequenze relative su tutta la regione di
inserzione/gap. Tra gli stati principali ho 100%=1.0 prob di transiz. Tra
terzo stato princ e primo stato di inserz ho 3/5=0.6=60% di prob. Dallo
stato di inserzione al quarto stato princ c è 3/9 = circa 0.6 prob, qunidi di
restare nello stato di inserzione la prob è 1-0.6=0.4.
La probabilità di una seq viene spesso riportata sottoforma di log-
odds ratio che è ln (p(S)/p(null)). Dove p(S) è la probabilità della
seq data, p(null) è la probabilità calcolata per un modlelo nullo
ovvero in cui tutti i caratteri siano equiprobabili con p di emissione
= ¼ (per 4 basi del dna) e un totale di n posizioni, quindi p(null) =
(1/4) e il suo log-odds ratio = 1. Si usa il ln per avere numeri +allti
n
dato che quelli che si ottengono sono probabilità molto basse. La seq
consensus è quella +probabile tra tutte, la seq exceptional è quella meno
prob.