Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
Calcolo del numero di alberi senza radice
U è il numero di alberi senza radice (la lettera u è l'iniziale di unrooted); "n" è il numero di specie o sequenze considerate. Nell'esempio precedente il numero di sequenze è 4, quindi n=4. Quindi: 4-3N = (2*4-5)!/2 (4-3)!
Cioè: N = 3!/2(1)!
Quindi: N = 3*2*1/2*1
N = 6/2=3
Con questa valutazione gestire più di 4 sequenze inizia ad essere complicato a causa del numero di alberi alternativi che escono fuori. Ad esempio, nel caso di un multiallineamento tra 5 sequenze il numero di alberi alternativi per ogni sito informativo è pari a 15 (utilizza la formula di sopra).
Quindi, ritornando all'esempio sopra riportato, per ogni sito informativo si possono costruire tre alberi diversi e senza radice. Ad esempio, consideriamo la posizione "e":
Posizione e
Seq.1 G
Seq.2 G
Seq.3 A
Seq.4 A
Gli alberi possibili per questa posizione sono tre:
Ai nodi vengono inseriti i nucleotidi in modo da avere il minor numero di
sostituzioni(massima parsimonia). Ad esempio, consideriamo l'albero 1: Al nodo A va inserito sicuramente una G in modo da avere 0 mutazioni dal nodo A ai due nodi esterni; al nodo B va inserito sicuramente una A per avere 0 mutazioni dal nodo B ai due nodi esterni. Tuttavia tra il nodo A e il nodo B è avvenuta una mutazione che viene indicata o con una freccia o con un trattino perpendicolare alla linea che unisce il nodo A e il nodo B. Tra il nodo A e il nodo B c'è sicuramente un ancestore che non conosciamo. Questo ancestore poteva essere un nucleotide A o un nucleotide G, oppure poteva esserci un nucleotide T e quindi sono avvenute più di una mutazione, ma sempre per il concetto di parsimonia si preferisce pensare che l'ancestore era o un nucleotide G o un nucleotide A.
Consideriamo ora l'albero 2: In questo caso, al nodo A possiamo mettere o il nucleotide A o il nucleotide G ed anche al nodo B. Se mettiamo ad entrambi i nodi il nucleotide A,
l'albero totalizza duemutazioni; se mettiamo ad entrambi i nodi il nucleotide G, l'albero totalizza ancoradue mutazioni; se mettiamo ad un nodo una G e all'altro una A, l'albero totalizza tremutazioni. Quindi sicuramente il nodo A e il nodo B li assumiamo come due nucleotidiuguali, ad esempio A, in modo da totalizzare il minor numero di mutazioni possibili.
Consideriamo l'albero 3, la situazione è identica all'albero di sopra. Quindi, per laposizione "e" si ottengono tre alberi: uno totalizza una mutazione e due totalizzanodue mutazioni. Per il metodo della massima parsimonia si sceglie quello con menomutazioni.
Ora vediamo perché le posizioni "a", "b", "c" e "d" sono non informative.
Consideriamo la posizione "c" e con lo stesso ragionamento di prima otteniamo iseguenti tre alberi:
Come si può notare tutti e tre gli alberi presentano lo stesso numero di mutazioni.
Per questo i siti come la posizione "c" si dicono non informativi. Di seguito viene riportato un altro esempio in cui i siti informativi sono evidenziati in rosso:
Una volta calcolati tutti i possibili alberi per ogni sito informativo si passa all'ultimo step. In questo caso ci sono tre siti informativi e per ognuno di essi sono stati costruiti tre alberi: un albero 1, un albero 2, e un albero tre. Si sommano le sostituzioni osservate in tutti gli alberi 1; si sommano tutte le sostituzioni osservate negli alberi due e così via. In questo caso, gli alberi 1 hanno totalizzato 4 sostituzioni; gli alberi 2 hanno totalizzato 5 sostituzioni e gli alberi tre hanno totalizzato 6 sostituzioni. Quindi l'albero 1 è il più parsimonioso e viene accettato. Quindi l'albero che spiega il multiallineamento dell'esempio precedente è:
Seq D Seq D
Il principio e le regole alla base della parsimonia rimangono gli stessi sia per i casi
piùsemplici di allineamento a quattro sequenze che per i casi più complessi diallineamenti con un maggior numero di sequenze. Per analizzare 10 sequenze, adesempio, bisogna considerare oltre 2 milioni di alberi e anche i computer più velocinon possono eseguire una ricerca esaustiva quando sono allineate anche solo 12sequenze. Per facilitare la determinazione attendibile degli alberi più parsimoniosisenza bisogno di considerare tutte le possibili alternative, è stata sviluppata una granvarietà di algoritmi. Un abile ed efficiente algoritmo di ottimizzazione per la ricerca diMETODO BRANCHun albero a massima parsimonia è ilAND BOUND:
Questo metodo consta di due step. Nel primo passaggio viene costruito un albero conun metodo veloce, come il meotodo UPGMA e viene calcolata la lunghezza di questoalbero. Quest’ultima è fissata come valore limite L. Ad esempio, l’albero ricavato con ilmetodo UPGMA è il seguente:
Secondo step, si parte da un albero che considera solo tre sequenze qualsiasi dell'albero precedente. Ad esempio:
Si aggiunge, poi, una quarta sequenza a quest'albero. Ad esempio, pensiamo di aggiungere la sequenza D. La nuova sequenza può essere aggiunta in tre punti diversi dell'albero precedente. Quindi si ottengono i seguenti tre alberi:
Prima di andare avanti, però, si calcola la lunghezza di ciascun albero. Solo gli alberi che hanno una lunghezza minore o uguale al limite massimo fissato all'inizio (L) potranno essere considerati successivamente. Supponiamo che solo l'albero uno risulta idoneo. Aggiungiamo, quindi, a quest'albero la quinta sequenza (E). Questa sequenza può essere aggiunta in cinque posizioni diverse nell'albero 1:
Si ottengono, quindi, 5 alberi. Di questi sono accettati solo gli alberi (potrebbe essere anche solo uno) che hanno una lunghezza minore o uguale al valore massimo "L" imposto nel primo.
- Pur avendo stabilito il principio generale che tutte le mutazioni sono eventi rari, dedurre da ciò che tutte le mutazioni siano equivalenti potrebbe essere un'eccessiva semplificazione.
- Sappiamo che le inserzioni e le delezioni sono un po' meno probabili rispetto a uno scambio di un nucleotide con un altro; oppure sappiamo che le inserzioni e le delezioni lunghe sono meno comuni rispetto a quelle corte; oppure sappiamo che certe sostituzioni puntiformi sono più probabili rispetto ad altre (ad esempio, le transizioni sono più probabili rispetto alle transversioni); oppure le mutazioni con conseguenze funzionali si verificano meno spesso di quelle che non causano conseguenze.
- Se alla probabilità relativa di ognuno di questi tipi di mutazioni si potesse associare un valore, questi valori sarebbero traducibili in pesi e utilizzabili dagli algoritmi di parsimonia.
- Assumiamo, per esempio, che per un particolare allineamento multiplo i confronti tra ogni
singola sequenza e una sequenza consensoindichino che le transizioni sono 3 volte più comuni delle transversioni. Quindi sipotrebbe associare un valore uguale a 1 ad ogni sostituzione che porta a unatransizione. Dopo che tutti i siti sono stati considerati, l’albero con il punteggio piùbasso è quindi presentato, alla fine dell’analisi, come il più probabile. Si parla in questocaso di parsimonia pesata.
RICERCA EURISTICA DELL’ALBERO PIU’ PARSIMONIOSO: nel caso in cui unmultiallineamento contenga molte sequenze (ad esempio 20), devono essere utilizzatidegli algoritmi che potrebbero non trovare sempre l’albero più parsimonioso. Laricerca euristica parte dalla costruzione di un albero iniziale che è una buonaapprossimazione dell’albero più parsimonioso e, quindi, costruito con il metodoUPGMA. Successivamente vengono generati centinaia di alberi nuovi a partire daquello iniziale. Di ognuno di essi viene
Calcolata la lunghezza (somma di tutti i rami) evengono considerati solo quelli che hanno una lunghezza minore rispetto a quello iniziale. Ogni albero così selezionato viene processato, cioè per ogni ramo si effettua uno scambio di rami:
Lo scambio viene effettuato fin quando non viene trovato un albero con lunghezza uguale o minore a quello dal quale proviene.
SOLITAMENTE IL METODO DELLA MASSIMA PARSIMONIA DA' PIU' DI UN LABERO PARSIMONIOSO. PER QUESTO SI CERCA DI COSTRUIRE UN ALBERO CHE SINTETIZZI TUTTI QUESTI. L' "ALBERO SINTESI" E' DETTO ALBERO CONSENSO E PUO' ESSERE TROVATO CON IL METODO DEL BOOTSTRAPPING (VEDI ANALISI DEI BOOTSTRAP).
METODO DEL MAXIMUM LIKELIHOOD (MASSIMA VEROSOMIGLIANZA)
Si tratta di un metodo probabilistico, che valuta tutte le possibili topologie per un dataset di sequenze. L'albero migliore è quello che ottiene la migliore Likelihood. In definitiva, questo metodo propone più alberi relativi a un determinato multiallineamento.
Di questi alberi calcola la verosomiglianza; quello con la verosomiglianza maggiore è l'albero ottimale che meglio si addice a quel determinato multiallineamento. Questo metodo, sebbene sia molto solido da un punto di vista statistico, è molto dispendioso da un punto di vista computazionale ed è applicabile solo per piccoli set di sequenze.
Per meglio comprendere questo metodo, partiamo da un esempio molto banale: supponiamo di lanciare una moneta e ottenere testa e supponiamo che la moneta ha due facce (testa e croce) e che il tiro è bilanciato; di conseguenza, la probabilità di osservare testa è del 50% (espressa anche come 50/100=0,5). Pensiamo di supporre che il nostro dato sia sempre "lancio la moneta e ottengo croce", ma supponiamo anche che la moneta sia truccata e cioè che tutte e due le facce della moneta hanno "testa". Quindi la probabilità di osservare "croce" dopo il lancio è zero.
Il che dovrebbefarci venire il dubbio che il modello (la moneta ha due teste) non è adatto a spiegare idati osservati. Quindi il modello è poco verosomigliante ai dati osservati. Seutilizzassimo un modello di moneta truccata in cui tutte e due le facce della monetahanno "croce", la probabilità di osservare "croce" è uno. Quindi il modello in questocaso è verosomigliante. Tra i due modelli, pertanto, si sceglie il secondo. Nel Casodell'evoluzione molecolare i dati sono rappresentati dagli allineamenti e dall'alberofilogenetico che correla le sequenze; mentre il modello è rappresentato dalla parte chedescrive il meccanismo evolutivo. Il modello è composto da composizione π e dalprocesso (P). Il processo descrive la frequenza con cui le parti della sequenzacambiano nel tempo. Quindi il processo è una matrice NxN.