Dziś rozmawiamy o prostych metodach kostrukcji drzew na podstawie macierzy odległości. Slajdy na dziś składają się z mojej prezentacji nt. metod heurystycznych: wyk4 i slajdów P. Góreckiego nt. metod ML: gorecki-ml-tree
Na laboratorium będziemy konstruować drzewa w praktyce.
Warto zapoznać się z dokumentacją modułu Bio.Phylo w tutorialu jak i na stronie wiki.
1. Na początek ustalmy listy sekwencji. Rozważmy sekwencje paralogiczne i ortologiczne ludzkiej hydroksylazy fenyloalaniny. Załóżmy, że mamy już sekwencje aminokwasowe uliniowione globalnie. Ze względu na czasochłonność procesu uliniowienia, użyjemy plików zuliniowieniami Human_PAH_orthologues i Human_PAH_paralogues oraz Human_H2BFS_paralogues i (jeśli ktoś liczy lokalnie – uwaga duży) plik Human_PAH_orthologues-91. Wczytaj te pliki przy pomocy metod z modułu Bio.AlignIO
2.Wylicz macierze odległości dla tych grup sekwencji przy pomocy klasy Bio.Phylo.TreeConstruction.DistanceCalculator (dla macierzy BLOSUM62, osobno dla paralogów i osobno dla ortologów genów PAH – to zajmie chwilę).
3. Stwórz drzewa filogenetyczne na podstawie macierzy przy pomocy klasy Bio.Phylo.TreeConstruction.DistanceTreeConstructor zarówno metodą UPGMA – hierarchiczną jak i nj (neighbor joining)
4. Wyświetl uzyskane drzewa przy pomocy metody draw_ascii() i draw()
5. Zapisz uzyskane drzewa do formatów newick i phyloxml. obejrzyj wyniki.