R U
n>=3):
In generale all aumentare delle otu i numeri esplodono, + per gli
alberi R che U, quindi analisi pesante dal pov computazionale, quindi
serviranno soluz euristiche.
Per derivare il corretto albero filogenetico, dato un set di otu (es
seq genetiche/aa), esistono due tipi di approcci.
L approccio fenetico costruisce l albero sulla base della similarità
tra gli otu e non ha necessariamente significato evolutivo. Uno dei
metodi fenetici è l UPGMA Clustering, un procedimento di clustering
gerarchico, in cui si misurano le distanze oggettive e in termini di
similarità tra le sequenze otu e si uniscono all interno di cluster le coppie
+affini, in modo progressivo, partendo da distanze piccole fino a distanze
grandi, in modo da ricostruire l albero dalle foglie fino alla radice.
L approccio cladistico costruisce l albero sulla base di legami
evolutivi tra gli otu, quindi si basa sulla genealogia. Infatti “clade”
significa insieme di specie provenienti dallo stesso antenato comune.
Utilizza il metodo di massima parsimonia o il metodo di massima
verosimiglianza.
Il metodo UPGMA è un metodo di clustering gerarchico.
Per ogni coppia di otu dati, calcola la similarità tra i due elementi e
quindi anche la loro distanza, attraverso un allineamento. Seleziona
la coppia avente similarità maggiore/distanza minore e la
racchiude all interno di un unico cluster, ovvero unisce i due otu con
un primo nodo interno che ne rappresenta l antenato comune + recente.
La procedura viene ripetuta, aggiornando le distanze rispetto al
valore attribuito al cluster appena realizzato, utilizzando una media tra
le distanze precedentemente calcolate, così da ottenere nuovi cluster e
nuovi nodi interni, fino alla radice. Quindi si ripete la procedura di
clustering in modo gerarchico per (n-1) iterazioni, dove n è il numero
di otu date, (n-1) infatti è il numero dei nodi interni+radice.
Questo metodo è un clustering di tipo bottom-up, perché ricostruisce
l albero dalle foglie fino alle radici. E l albero che si ottiene è detto
dendrogramma.
Ho n seq omologhe.
Devo compilare la matrice delle distanze per tutte le coppie in
gioco. Matrice simmetrica quindi posso compilarne solo metà, senza
considerare la diagonale su cui ho solo 0.
Il punteggio assegnato è una misura della distanza per ogni
coppia. Lo schema di punteggio è dato dal conto dei mismatch che si
sommano (+1 per ogni mismatch). Individuo la coppia con punteggio
minore e la riunisco in un cluster. E’ possibile creare + cluster in una
sola volta se noto che ci sono coppie diverse con distanza minima, e in
quel caso la procedura itera per un numero di volte < n-1.
La matrice delle distanze si aggiorna a ogni iterazione a causa
dei nuovi cluster creati, sia nelle dimensioni che diminuiscono, sia
nei valori di distanza. Le nuove distanze tra gli otu rimasti rispetto
ai nuovi cluster vengono aggiornate facendo la media tra la d dell otu
rispetto a un elemento del cluster e quella rispetto all altro elemento.
Esempio:
Nel metodo a max parsimonia, vado a considerare tutte le
topologie di albero possibili per gli otu dati. Ad ogni topologia
assegno un costo ovvero il numero di sostituzioni che devono
essere fatte sulle seq per passare da un otu all altro nell albero. Scelgo l
albero avente costo minore perché lo ritengo + probabile dal pov
evolutivo, qunidi assumo che sia andata nel modo più semplice
possibile.
Il costo computazionale è elevato, quindi devo usare delle
euristiche.
Esempio:
Il metodo di max verosimiglianza considera anch esso tutte le
topologie di albero possibili per gli otu. Attribuisce a ogni topologia
una probabilità, legata alla probabilità che avvengano certe
sostituzioni di caratteri, sfruttando le info contenute in una matrice
di sostituzione simile a quella usata negli allineamenti ma con dei
valori compresi tra 0 e 1 che indicano delle probabilità, a partire
da ciò che si osserva in natura. L albero scelto è quello con probabilità
max.
E’ una procedura giustificabile dal pov statistico ma ha elevato costo
computazionale.
Costruisco tutte le topologie possibili di albero. Data una certa
topologia di seq degli otu, mi focalizzo su una colonne/posizione
sulle seq e risporto i caratteri su quella posizione nelle foglie dell albero.
Trovo tutte le combinazioni possibili di caratteri per i nodi interni
e la radice su quella topologia. Calcolo la probabilità di ciascuna
combinazione, facendo il prodotto tra le probabilità di ogni
sostituzioneo conservazione che osservo, dove alla radice uso la
probabilità di osservare in generale quel carattere (L0). Sommo
le probabilità di tutte le combinazioni possibili per quella topologia
in quella colonna. Moltiplico tra loro le probabilità associate a ogni
colonna. In questo modo ho ottenuto la probabilità di quella
topologia. Lo faccio per tutte le topologie e scelgo quella con P
maggiore.
P(1 combinaz) = Π P(rami)
P(1 posiz) = Σ P(combinaz)
P(1 topologia) = Π P(posizioni)
Esempio: