Today we will hold the lecture remotely via google meet. I will send you the link via the chat server. If you cannot access the chat, please let me know by e-mail.
Today we will discuss the simple methods for phylogenetic tree reconstruction based on a distance matrix. The slides are in two parts: My part regarding simple progressive heuristic methods: wyk4 and another part on ML methods by P. Górecki : gorecki-ml-tree
During the lab, we will try to build trees from sequences in practice. First, we should get ourselves acquainted with the Bio.Phylo module tutorial and wiki.
1. Let us first consider two lists of sequences containing paralogues and orthologues of phenylalanine hydroxylase gene as well as histone H2B paralogues and orthologues. Let us assume, that we have them already aligned (we will cover the multiple alignment process next week). See the files Human_PAH_orthologues, Human_PAH_paralogues and Human_H2BFS_paralogues , Human_PAH_orthologues-91. Let us use the read() function from the Bio.AlignIO module to read these files.
2.Calculate distance matrices for these groups of sequences using the Bio.Phylo.TreeConstruction.DistanceCalculator (using BLOSUM62 substitution matrix, separately for each file).
3. Create the trees using Bio.Phylo.TreeConstruction.DistanceTreeConstructor both for UPGMA and nj (neighbor-joining)
4. look at the resulting trees using draw_ascii() and draw() methods
5. Write out the resulting trees into newick and phyloxml formats.Compare resulting files.
Wersja polska:
Dziś rozmawiamy o prostych metodach kostrukcji drzew na podstawie macierzy odległości. Slajdy na dziś składają się z mojej prezentacji nt. metod heurystycznych: wyk4 i slajdów P. Góreckiego nt. metod ML: gorecki-ml-tree
Na laboratorium będziemy konstruować drzewa w praktyce.
Warto zapoznać się z dokumentacją modułu Bio.Phylo w tutorialu jak i na stronie wiki.
1. Na początek ustalmy listy sekwencji. Rozważmy sekwencje paralogiczne i ortologiczne ludzkiej hydroksylazy fenyloalaniny. Załóżmy, że mamy już sekwencje aminokwasowe uliniowione globalnie. Ze względu na czasochłonność procesu uliniowienia, użyjemy plików zuliniowieniami Human_PAH_orthologues i Human_PAH_paralogues oraz Human_H2BFS_paralogues i (jeśli ktoś liczy lokalnie – uwaga duży) plik Human_PAH_orthologues-91. Wczytaj te pliki przy pomocy metod z modułu Bio.AlignIO
2.Wylicz macierze odległości dla tych grup sekwencji przy pomocy klasy Bio.Phylo.TreeConstruction.DistanceCalculator (dla macierzy BLOSUM62, osobno dla paralogów i osobno dla ortologów genów PAH – to zajmie chwilę).
3. Stwórz drzewa filogenetyczne na podstawie macierzy przy pomocy klasy Bio.Phylo.TreeConstruction.DistanceTreeConstructor zarówno metodą UPGMA – hierarchiczną jak i nj (neighbor joining)
4. Wyświetl uzyskane drzewa przy pomocy metody draw_ascii() i draw()
5. Zapisz uzyskane drzewa do formatów newick i phyloxml. obejrzyj wyniki.