Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
La parsimonia come principio di spiegazione
→A,A a T (A→T) e non un passaggio più complesso come A→G, poi G e ancora A→C e infine C→T. Nellarealtà potrebbe esserci stato il processo più complesso, ma noi facciamo finta che non ci sia stato per ilprincipio della parsimonia: noi preferiamo la spiegazione più semplice.Quando abbiamo tanti organismi/sequenze da confrontare, allora possiamo pensare a quanti tipi diversi dialberi possiamo immaginarci. Possono mettere in relazione un organismo rispetto a quell’altro. Cosa fal’algoritmo della parsimonia? Dopo aver generato tutti i possibili alberi con tutti i passaggi di stato (anchequelli con tanti step), va poi a scegliere, tra tutti gli alberi, quello che ha il minor numero di passaggi. Questoviene considerato l’albero più parsimonioso e, quindi, il più verosimile.Su questo principio, la parsimonia, si basa Neighbor-Joining e gli altri algoritmi che abbiamo visto. Sono tuttibasati sul principio
Della parsimonia. Dopo di che abbiamo questo albero, e questo albero è basato su delle relazioni. Ora ve lo disegno (è uguale a quello che vedete nella figura). Questo albero è chiamato starlight tree, cioè albero a forma di stella, oppure radiation tree, cioè albero di radiazione, perché è un albero che si sviluppa in senso circolare. Questo albero non ci dice chi è più antico. Non è ovvio localizzare quale dei geni (indicati dalle differenti lettere) è il progenitore di altri. Troviamo solo delle relazioni di similarità, ma manca una genealogia, che non troviamo. Perché? Perché in quell'albero (quello disegnato alla lavagna) io non vi ho indicato chi è il gruppo esterno (l'out-group), cioè qual è il punto in cui mettiamo la radice dell'albero. Torna alla lavagna e cambia un po' il disegno ora ha rappresentato più o meno lo stesso albero.
ma E è il gruppo esterno, cioè l'organismo che sta fuori da quel gruppo. Immaginiamo che quelle lettere del gruppo rappresentino dei Mammiferi. A, B, C, D, F e G sono dei Mammiferi.Poi la lettera D rappresenta dei rettili moderni (es. lucertola) e la lettera E è il gruppo esterno, per esempio un organismo da cui sono derivati gli altri e che sa essere al di fuori del nostro gruppo, come un Agnato (cordato non vertebrato). Quindi abbiamo il nostro gruppo (A, B, C, D, F, G) di vertebrati che formano l'albero e l'albero lo radichiamo rispetto ad un organismo che sta al di fuori del gruppo che stiamo studiando (in questo caso, ci serve un organismo che stia al di fuori dei vertebrati). (Chiaramente la filogenesi dei vertebrati non è in questa maniera) Questo albero ci dice che dall'organismo E si suddivisero due rami, abbastanza all'inizio della loro filogenesi come gruppo: uno che rappresenta gli organismi in D e l'altro che rappresenta altri tipi di organismo. Tutto parte quindi dal nodo in cui E arriva a differenziare gli altri organismi (è chiaro che l'albero disegnato alla lavagna non rappresenta davvero.
La filogenesi dei Mammiferi, il prof lo ha disegnato un po' a caso, a tal punto che F in realtà non è nemmeno imparentato con gli altri perché si è diviso prima). Però il messaggio è che: l'out-group è una sequenza (stiamo parlando di filogenesi molecolare) che si trova esterno al gruppo di indagine. A cosa mi serve? A capire la direzione del tempo dentro l'albero. A capire chi viene prima e chi viene dopo. Lo potrei vedere anche sull'albero radiation tree basta guardare dalla prospettiva che parte da E, cioè l'out group. Quindi, è l'organismo che mi consente di inserire dentro l'albero la freccia con cui guardarlo, ovvero la freccia del tempo. Per cui se stessi studiando davvero la filogenesi dei mammiferi, dovrei scegliermi come out-group un non-mammifero, come un rettile! Se io stessi studiando degli insetti (ovvero la filogenesi di tutti gli insetti), dovrei scegliere come gruppo
Esterno un artropode non-insetto. Sia che si tratti di studio filogenetico sugli organismi, sia che si stia parlando di filogenesi dei geni, il discorso è lo stesso. Le lettere che ci sono nell'albero alla lavagna possono rappresentare dei paraloghi, per esempio come dei paraloghi più antichi o dei paraloghi più moderni. Mettiamo che quelle là siano le globine: il nostro out-group sarà la globina più antica, che si suppone essere quella presente nell'organismo che sta al di fuori del gruppo di organismi che stiamo studiando. Oppure potrebbe essere la leg-emoglobina, che si trova nelle leguminose/piante. Dopo di che, in questo albero delle globine voi ci inserite anche i paraloghi (per esempio A e B potrebbero essere la globina alfa e beta). Quindi, che siano sequenze o che siano organismi, da un punto di vista tecnico si usano gli stessi approcci. QUINDI, L'OUT-GROUP È
USATO PER POLARIZZARE I CARATTERI, OVVERO DEFINIRE LA FRECCIA.
Poi ci sono le terminologie della cladistica: se vi interessano vi invito a memorizzarle. Non ve le chiedo all'esame, però possono essere utili. Per esempio, un carattere è detto plesiomorfico quando è posseduto anche dall'out-group. →Qui vedete un albero (immagine seguente) ci trovate un out-group; non viene indicato l'out-group, ma probabilmente, essendo tutti mammiferi quelli presenti nell'albero, il gruppo esterno sarà un non-mammifero. Nell'albero ci sono una mucca, un cervo, una balena, un ippopotamo, un maiale, ecc..
Cosa viene confrontato? Vengono confrontate le sequenze. Confrontando le sequenze avete delle zone conservate che vi permettono di effettuare l'allineamento delle sequenze, di confrontarle (sono quelle strisce celesti che mi indicano i nucleotidi/posizioni nucleotidiche che in questo set non variano, quindi zone conservate). Ce ne sono tante.
di zone conservate in questo esempio. Altre zone invece sono condivise solo tra alcuni. Le posizioni che sono condivise da tutti servono per l'allineamento, ma non mi definiscono la distanza, in quanto la distanza è definita da ciò che non è uguale, e quindi sono caratteri non informativi (caratteri plesiomorfici) quindi si dice che sono "caratteri non informativi". Dopo di che ci sono caratteri che sono comunque non informativi perché c'è solo un individuo che ha quella differenza (ad esempio quella G cerchiata). È un carattere presente soltanto in uno, negli altri non c'è! (è detto autapomorfico). Ad esempio ci dice che il cammello è diverso da un maiale, ma non ci dice come è relazionato il cammello con il maiale. A che mi serve? Mi dice che il cammello è diverso dal maiale, ma non mi dice come i due sono correlati. Poi ci sono i siti sinapomorfici, che sono informativi:
non sono siti unici, cioè che ho solo io, ma sono delle differenze nel dataset che sono non-esclusive di nessuno (ovvero non sono caratteri privati).
Attenzione: se tutti fossimo diversi, non potrei mai trovare delle similarità; serve sempre qualcosa che accomuna per fare una classificazione. Per esempio, qui nella stanza tutti hanno il carattere "capelli": qualcuno ce li ha biondi e qualcuno ce li ha scuri. Questo permette di effettuare una suddivisione in cui alla radice "capello" partono i biondi, poi partono gli scuri. Gli scuri si suddividono a loro volta in castani e neri. Se tutti noi avessimo capelli tutti diversi, per esempio di tutti i colori dell'arcobaleno, allora non ci sarebbe modo di fare questa genealogia (potrei trovare una metrica legata alla lunghezza d'onda della radiazione emessa/incidente, quindi trovo un modo artificiale per classificare i diversi colori); ma se avessimo tutti colori diversi non sarebbe possibile.
Non sarebbe un carattere informativo per la filogenesi. Tutto questo esempio è per farvi capire la differenza tra un carattere informativo e non informativo. I caratteri servono per stimare le distanze e per costruire, rispetto ad un algoritmo di parsimonia, le nostre relazioni filogenetiche, così da minimizzare i passaggi di stato.
51Dorian Fink® Dorian Fink ® Dorian Fink®
Chi ci dice che quelle distanze, quindi quella tipologia di albero che ho ricostruito, NON siano legate al caso? Perché magari la T in questa posizione non è lì perché mucche, cervi e balene derivano da un progenitore comune, ma può esser lì per caso! Chi ci dice che davvero quella T è realmente informativa? Non possiamo fare un altro esperimento. Lo potrei fare se fossi in laboratorio e vedessi appunto una cosa di questo genere. Se sono in laboratorio, posso rifare l'esperimento lo rifaccio più volte: se mi tornano gli stessi dati.
tutte le volte, posso tirare fuori una statistica e dico che dando quel trattamento, per esempio, ottengo un certo effetto. Ma con l'evoluzione, di questa roba qua poi, non è che si possono fare degli esperimenti di evoluzione in vitro con dei batteri (hanno una replicazione rapida potrei fare dei replicati biologici dell'evoluzione. Qualcunolo ha fatto in passato: si sta portando avanti delle beute di E. coli da circa 30 anni per vedere come evolve, in quelle condizioni, quel batterio avendo tanti replicati, può ripetere l'evoluzione ma è ovvio che questa cosa non si possa fare per ripetere l'evoluzione di mucche o cervi)! Occorrono perciò dei metodi che siano accettabili dal punto di vista statistico e che quindi ci permettano, dal punto di vista biologico (e non più statistico), di fidarci del dato. Il metodo che viene usato più spesso è quello del Bootstrap (o Bootstrapping) se quella T cheabbiamo visto prima fosse lìper caso, allora mi posso aspettare che rigenerando a caso il dataset/le sequenze co