Dziś zajmujemy się uliniawianiem par sekwencji –wyk3
Zadania na laboratorium: Continue reading “WBO – 3 – uliniowienie par sekwencji”
@ MIM UW
Dziś zajmujemy się uliniawianiem par sekwencji –wyk3
Zadania na laboratorium: Continue reading “WBO – 3 – uliniowienie par sekwencji”
Dziś będziemy mówić o modelach ewolucji sekwencji.
Slajdy do wykładu są tu: wyk2.
Podczas labów mogą Państwo korzystać z serwera Jupyter, który ma zainstalowany pakiet biopython. (kilka porad jak używać jupyter’a tu ). Zadania do wykonania na dziś:
Dzisiaj będziemy rozmawiać o sekwencjach DNA i grafach. Slajdy do wykładu są tu: wyk1
Zasadniczo pracujemy w języku python. Jeśli ktoś ma kłopoty z interpreterem w labie, to może korzystać z serwera jupyter, używając Continue reading “WBO 1 – O sekwencjach DNA i grafach”
Przypominam, że za tydzień na laboratorium mamy kolokwium. Pytania będą otwarte, będzie można korzystać z papierowych notatek.
Lista zagadnień na kolokwium (i na egzamin ustny) jest tu: wyk13-powtorka
Dziś mamy zajęcia o mapowaniu odczytów. Wykład tutaj: wyk12-ngs
Zadania na dziś dotyczą głównie indeksów sekwencji:
1. Napisz funkcję compute BWT(txt), która oblicza BWT (w postaci napisu) dla zadanej sekwencji DNA oraz tablice C(x) i OCC(i,x)
2. Wylicz te wartośći dla sekwencji:
CGAGCCGCTTTCCATATCTATTAACGCATAAAAAACTCTGCTGGCATTCACAAATGCGCAGGGGTAAAACGTTTCCTGTAGCACCGTGAGTTATACTTTGT
3. Korzystając z metody podanej na wykładzie wyszukaj wystąpień napisu AAAC w podanej sekwencji
4. Korzystając z podanej metody omijania błędów znajdź sekwencję (z co najwyżej jednym błędem) AAAACTCCGCTGGCATTCACAAAT
Zadanie domowe: Użyj stworzonego dziś kodu aby wyszukać wszystkich promotorów z pliku ecoli_proms.fa w sekwencji genomu E. coli Escherichia_coli_str_k_12_substr_mg1655.ASM584v2.dna.chromosome.Chromosome.fa
Naszym zadaniem będzie analiza ewolucji białek z rodziny Homeodomain (HOX). W szczególności interesować nas będą białka pobrane z bazy homeoDB dla 4 gatunków: Człowieka, myszy, muszki owocowej i chrząszcza: homeo2.fa. Co istotne, w pliku Fa opis genu obejmuje: Gatunek|Nazwę genu|rodzinę genu|klasę genu
Podzielimy to zadanie na kilka podzadań:
Wynik w postaci programu w pythonie i raportu w pdf wyślij na adres e-mail wykładowcy z dopiskiem [WBO-2-2018] do 22. czerwca 2018.
Dziś rozmawialiśmy o reprezentacji i wyszukiwaniu motywów sekwencyjnych: wyk11-motifs
Zadania na dziś:
1. Pobierz listę promotorów e_coli w pliku fasta: ecoli_proms.fa
2. Zapoznaj się z modelem macierzy motywów z modułu Bio.motifs i jego dokumentacją
3. Zaimplementuj prostą, zachłanną metodę consensus dla wyszukiwania motywów, zastosuj ją do promotorów e.coli i obejrzyj wyniki dla motywów długości 3,4,5,6. Schemat algorytmu jest następujący:
Powtórz tę procedurę dla kilku różnych permutacji pliku wejściowego.
4. Porównaj wyniki ze znanymi motywami promotorowymi w E. coli
5. Wykonaj analizę tych samych promotorów przy pomocy MEME i porównaj wyniki z otrzymanymi z consensusa
Dzisiaj na wykładzie zajmowaliśmy się uzgadnianiem drzew.
Slajdy do wykładu:
Zadania na lab:
Dzisiaj zajmiemy się uzgadnianiem drzew. Rozważmy sytuację, gdy mamy 1 drzewo gatunków S i drzewo genów G zgodne z tym drzewem gatunków (dla każdego genu g\in G , s(g)\in S). Na początek możesz
1. Napisz algorytm LCA(G,S), który znajduje mapowanie LCA i zwraca je w postaci słownika
2. Napisz funkcje liczące koszty DC(G,S), D(G,S) a następnie wykorzystaj wzór ze slajdu 10, który wylicza koszt L(G,S)
3. Napisz funkcję fat_tree(G,S), która tworzy scenariusz uzgadniający G i S (nie zawsze optymalny), gdzie w korzeniu występują wszystkie duplikacje, zaś wszystkie straty występują w krawędziach prowadzących do liści. Scenariusz w naszym przypadku, to etykietowanie drzewa gatunków zdarzeniami ewolucyjnymi, D i L. Zauważmy, że zarówno straty jak i duplikacje występują na krawędziach drzewa gatunków.
4. Napisz funkcję optimal_tree(G,S), która znajduje jeden z optymalnych scenariuszy uzgadniających G i S. W tym celu musimy przenieść w drzewie “grubym” duplikacje w dół, a straty w górę, jeśli to możliwe.
5. sprawdź na przykładzie drzewa z wykładu (abcde), czy Twój algorytm działa poprawnie
Slajdy z dzisiejszego wykładu są tu: WBO9
Zadania na dziś:
1. Zapoznaj się z testem Fishera (np w pakiecie scipy fisher_exact) i metodą GSEA zaimplementowaną w Istytucie Broad’a
2. Zapoznaj się z formatami plików OBO i GAF z projektu gene ontology: opis formatów, przykładowy plik GAF, przykładowy plik OBO
3. Napisz prosty program, który testuje testem Fishera, wraz z poprawką Bonferroniego wzbogacenie funkcji GO w zadanym zbiorze genów.
4. Przetestuj to na połączonym zbiorze histonów i homologów PAH
5 (*). Zaimplementuj uproszczoną metodę GSEA na podstawie danych z suplementu do pracy o GSEA 06580SuppText
Praca domowa:
Napisz funkcję Go_enrichment z zadania 3 poszerzoną o przypisanie genów do terminów nadrzędnych (na podstawie relacji is_a, part_of z pliku OBO)
Dziś na zajęciach umówiliśmy się, że kolokwium będzie na ostatnich ćwiczeniach – 12. czerwca o godzinie 10:15.
Na przedostatnich zajęciach (5. czerwca) zrobimy sobie na ćwiczeniach powtórkę z zagadnień do kolokwium.
Duży projekt zaliczeniowy ogłoszę nie później niż w połowie maja, żeby mieli Państwo miesiąc na wykonanie go.