Naszym zadaniem będzie analiza ewolucji białek z rodziny Homeodomain (HOX). W szczególności interesować nas będą białka pobrane z bazy homeoDB dla 4 gatunków: Człowieka, myszy, muszki owocowej i chrząszcza: homeo2.fa. Co istotne, w pliku Fa opis genu obejmuje: Gatunek|Nazwę genu|rodzinę genu|klasę genu
Podzielimy to zadanie na kilka podzadań:
- Korzystając z lokalnej instalacji narzędzia BLAST stwórz bazę danych sekwencji z pliku Fasta i następnie wylicz przybliżoną macierz podobieństwa poprzez wykorzystanie funkcji oceny BLAST. Dla genów niepodobnych wg blast, przyjmij ustaloną niską wartość podobieństwa. (3 pkt)
- Korzystając z metody Neighbor joining skonstruuj drzewo genów dla tej rodziny. (2 pkt)
- Zakładając, że człowiek z myszą i muszka z chrząszczem są najbliżej spokrewnionymi gatunkami spośród 4 danych dokonaj uzgodnienia otrzymanego drzewa genów z drzewem gatunków, tj. znajdź optymalny (w sensie duplikacji i strat) scenariusz ewolucyjny dla drzewa gatunków i Twojego drzewa genów. Czy możesz wybrać taki scenariusz optymalny, który jest zgodny z opisem genów w oryginalnym pliku (zakładamy, że geny z różnych rodzin w tym samym gatunku to na pewno paralogi, a geny o tej samej nazwie u różnych gatunków to ortologi). (7 pkt)
- Wykorzystując narzędzie Hmmer dokonaj opisu domen białkowych dla klas genów hox (białka o tej samej ostatniej kolumnie w pliku fasta). Sprawdź, jak często białka należące do każdej z klas zawierają domeny należące do innej klasy. (4 pkt)
- Opisz swoje rozwiązanie (1 strona) i wyniki (max 2 strony) w krótkim raporcie w .pdf (4 pkty)
Wynik w postaci programu w pythonie i raportu w pdf wyślij na adres e-mail wykładowcy z dopiskiem [WBO-2-2018] do 22. czerwca 2018.
W niektórych opisach genów, np. “Human|DUX4L9|HD2|Dux|PRD” mamy dodatkową kolumnę 3. :w tym przypadku “HD2|”. Jest ona nieistotna dla nas i można ją pominąć.