TSG2 – zajęcia 2

Dziś chcemy bliżej zapoznać się z indeksami sekwencji.

Spróbujmy zaimplementować trzy rodzaje indeksów:

1. Drzewo sufiksowe. Implementujemy funkcje build_ST(genome) i find (ST,word). Nie interesuje nas tak bardzo koszt implementacji drzewa (może być słownik) ani koszt budowy drzewa (może być n^2). Chodzi o to, aby find działał liniowo względem długości słowa i zwracał wszystkie wystąpienia słowa w genomie.

2. Tablica sufiksowa. Implementujemy funkcję build_SA(genome) i find(SA, word). Podobnie jak w p. 1.

3*. FM-Index: możemy podzielić na podproblemy:

– Dla zadanego genomu policz BWT(genome)

– Dla zadanej BWT, policz Last-First mapping

– Przy użyciu BWT i Last-First mapping skonstruuj wyszukiwanie słowa (czy istnieje wystąpienie i gdzie jest w genomie

– dodaj funkcjonalność związaną z wyszukwianiem wszystkich słów

4. Dla zadanego słowa, napisz funkcję, która wyszukuje wariantów tego słowa w ustalonej odległości (<k błędów) w zadanym indeksie (np. wyszukaj słowa podobne do ATGCG z nie więcej niż 2 błędami w zadanej sekwencji).

TSG 2 – Wykład 2.

Dzisiaj o mapowaniu odczytów. Slajdy z wykładu są tu. Warto też obejrzeć ostatnią część slajdów z kursu w CSHL dostępnych tu

Jako zadanie na zajęcia mamy dokończyć analizę 3. zbioru danych po groomerz’e. Plik można znaleźć w historii nazwanej “dane 3 groomer” na serwerze centromere:8080

Na dziś myślę, że warto jest popróbować samemu zaimplementować wyszukiwanie wzorca przy pomocy drzew sufiksowych, tablic sufiksowych i transformaty B-W.

TSG2 – Zajęcia 1.

Slajdy do wykładu dostępne są tu

Naszym celem jest analiza jakości odczytów w plikach dostępnych tu

Logujemy się do serwera galaxy pod adresem http://centromere:8080 i tam zakładamy dla siebie nową historię przetwarzania danych. Następnie wykonujemy analizę FASTQC i na podstawie jej wyników dokonujemy “czyszczenia” danych przy pomocy narzędzi do “przycinania” odczytów na podstawie ich jakości (TRIM), wycinania sekwencji adapterowych (CLIP), filtrowania odczytów o złej jakości (FILTER). Operacje powtarzamy do uzyskania akceptowalnych wyników, uważając przy tym, aby nie usunąć zbyt wiele.

 

Zaliczenie w terminie poprawkowym

Część z Państwa ma już wpisane oceny. Jeśli ktoś powinien mieć ocenę w protokole, ale jej nie ma, to proszę o kontakt mailowy (były przypadki, że Państwa e-mail nie miał oznaczenia (SAD-1 lub SAD-2) i zgubił się gdzieś w mojej skrzynce.

Jeśli ktoś potrzebuje jeszcze coś skonsultować, to zapraszam w czwartek między 12ta a 14ta.

Co do zaliczenia w terminie poprawkowym – będzie egzamin pisemny, podobny do tego z I terminu, za 20 punktów. Do tego doliczymy punkty z programów zaliczeniowych podzielone przez 2. Projekty zaliczeniowe można nadsyłać do końca sierpnia.