Estratto del documento

R U

n>=3):

In generale all aumentare delle otu i numeri esplodono, + per gli

alberi R che U, quindi analisi pesante dal pov computazionale, quindi

serviranno soluz euristiche.

Per derivare il corretto albero filogenetico, dato un set di otu (es

seq genetiche/aa), esistono due tipi di approcci.

L approccio fenetico costruisce l albero sulla base della similarità

tra gli otu e non ha necessariamente significato evolutivo. Uno dei

metodi fenetici è l UPGMA Clustering, un procedimento di clustering

gerarchico, in cui si misurano le distanze oggettive e in termini di

similarità tra le sequenze otu e si uniscono all interno di cluster le coppie

+affini, in modo progressivo, partendo da distanze piccole fino a distanze

grandi, in modo da ricostruire l albero dalle foglie fino alla radice.

L approccio cladistico costruisce l albero sulla base di legami

evolutivi tra gli otu, quindi si basa sulla genealogia. Infatti “clade”

significa insieme di specie provenienti dallo stesso antenato comune.

Utilizza il metodo di massima parsimonia o il metodo di massima

verosimiglianza.

Il metodo UPGMA è un metodo di clustering gerarchico.

Per ogni coppia di otu dati, calcola la similarità tra i due elementi e

quindi anche la loro distanza, attraverso un allineamento. Seleziona

la coppia avente similarità maggiore/distanza minore e la

racchiude all interno di un unico cluster, ovvero unisce i due otu con

un primo nodo interno che ne rappresenta l antenato comune + recente.

La procedura viene ripetuta, aggiornando le distanze rispetto al

valore attribuito al cluster appena realizzato, utilizzando una media tra

le distanze precedentemente calcolate, così da ottenere nuovi cluster e

nuovi nodi interni, fino alla radice. Quindi si ripete la procedura di

clustering in modo gerarchico per (n-1) iterazioni, dove n è il numero

di otu date, (n-1) infatti è il numero dei nodi interni+radice.

Questo metodo è un clustering di tipo bottom-up, perché ricostruisce

l albero dalle foglie fino alle radici. E l albero che si ottiene è detto

dendrogramma.

Ho n seq omologhe.

Devo compilare la matrice delle distanze per tutte le coppie in

gioco. Matrice simmetrica quindi posso compilarne solo metà, senza

considerare la diagonale su cui ho solo 0.

Il punteggio assegnato è una misura della distanza per ogni

coppia. Lo schema di punteggio è dato dal conto dei mismatch che si

sommano (+1 per ogni mismatch). Individuo la coppia con punteggio

minore e la riunisco in un cluster. E’ possibile creare + cluster in una

sola volta se noto che ci sono coppie diverse con distanza minima, e in

quel caso la procedura itera per un numero di volte < n-1.

La matrice delle distanze si aggiorna a ogni iterazione a causa

dei nuovi cluster creati, sia nelle dimensioni che diminuiscono, sia

nei valori di distanza. Le nuove distanze tra gli otu rimasti rispetto

ai nuovi cluster vengono aggiornate facendo la media tra la d dell otu

rispetto a un elemento del cluster e quella rispetto all altro elemento.

Esempio:

Nel metodo a max parsimonia, vado a considerare tutte le

topologie di albero possibili per gli otu dati. Ad ogni topologia

assegno un costo ovvero il numero di sostituzioni che devono

essere fatte sulle seq per passare da un otu all altro nell albero. Scelgo l

albero avente costo minore perché lo ritengo + probabile dal pov

evolutivo, qunidi assumo che sia andata nel modo più semplice

possibile.

Il costo computazionale è elevato, quindi devo usare delle

euristiche.

Esempio:

Il metodo di max verosimiglianza considera anch esso tutte le

topologie di albero possibili per gli otu. Attribuisce a ogni topologia

una probabilità, legata alla probabilità che avvengano certe

sostituzioni di caratteri, sfruttando le info contenute in una matrice

di sostituzione simile a quella usata negli allineamenti ma con dei

valori compresi tra 0 e 1 che indicano delle probabilità, a partire

da ciò che si osserva in natura. L albero scelto è quello con probabilità

max.

E’ una procedura giustificabile dal pov statistico ma ha elevato costo

computazionale.

Costruisco tutte le topologie possibili di albero. Data una certa

topologia di seq degli otu, mi focalizzo su una colonne/posizione

sulle seq e risporto i caratteri su quella posizione nelle foglie dell albero.

Trovo tutte le combinazioni possibili di caratteri per i nodi interni

e la radice su quella topologia. Calcolo la probabilità di ciascuna

combinazione, facendo il prodotto tra le probabilità di ogni

sostituzioneo conservazione che osservo, dove alla radice uso la

probabilità di osservare in generale quel carattere (L0). Sommo

le probabilità di tutte le combinazioni possibili per quella topologia

in quella colonna. Moltiplico tra loro le probabilità associate a ogni

colonna. In questo modo ho ottenuto la probabilità di quella

topologia. Lo faccio per tutte le topologie e scelgo quella con P

maggiore.

P(1 combinaz) = Π P(rami)

P(1 posiz) = Σ P(combinaz)

P(1 topologia) = Π P(posizioni)

Esempio:

Anteprima
Vedrai una selezione di 4 pagine su 11
Filogenetica Pag. 1 Filogenetica Pag. 2
Anteprima di 4 pagg. su 11.
Scarica il documento per vederlo tutto.
Filogenetica Pag. 6
Anteprima di 4 pagg. su 11.
Scarica il documento per vederlo tutto.
Filogenetica Pag. 11
1 su 11
D/illustrazione/soddisfatti o rimborsati
Acquista con carta o PayPal
Scarica i documenti tutte le volte che vuoi
Dettagli
SSD
Ingegneria industriale e dell'informazione ING-INF/06 Bioingegneria elettronica e informatica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher valillo2002 di informazioni apprese con la frequenza delle lezioni di Bioinformatica e genomica funzionale e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Politecnico di Milano o del prof Pattini Linda.
Appunti correlati Invia appunti e guadagna

Domande e risposte

Hai bisogno di aiuto?
Chiedi alla community