Slajdy do wykładu są tu
Prezentacje projektów (po 10 min) będą 5. lutego o 10tej, zamiast ostatnich zajęć (27. I).
Termin wysyłania zaliczenia przesuwamy na 27. I, ale zachęcam do konsultowania wstępnych rozwiązań przed 20. I.
@ MIM UW
Slajdy do wykładu są tu
Prezentacje projektów (po 10 min) będą 5. lutego o 10tej, zamiast ostatnich zajęć (27. I).
Termin wysyłania zaliczenia przesuwamy na 27. I, ale zachęcam do konsultowania wstępnych rozwiązań przed 20. I.
Zadanie polega na analizie danych z eksperymentów ChIP-seq pewnej modyfikacji histonów oraz pewnego białka u muszki owocowej Drosophila melanogaster, w kontekście różnicowej eksprecji genów w różnych tkankach.
Pod adresem znajdują się dane do analizy:
dm3_genes.gtf
input.txt.gz
)DEseq.txt
)A.txt.gz
), oraz dla pewnego innego białka (plik B.txt.gz
). Obie próbki dotyczą tej samej tkanki.Uwaga: jeśli czyjegoś numeru indeksu brak, lub ma problem z danymi (plik jest uszkodzony itp.) lub ma pytania dotyczące treści, prosimy zgłaszać je możliwie szybko na adres:
j.herman-izycka@mimuw.edu.pl
0. Wykonaj preprocessing danych z sekwencjonowania (analiza jakości, filtrowanie, mapowanie)
1. Zbadaj czy modyfikacja histonów A i białko B mają preferencje co do miejsca występowania w regionach genów (np. na 5′ lub 3′ końcu genów)?
2. Czy w obszarach genowych występowanie białka B i modyfikacji A są skorelowane?
3. Czy geny, na których znajduje się białko B wykazują różnicową ekspresję między tkankami Elav i Repo?
Jako rozwiązanie należy wysłać raport pod adres bartek@mimuw.edu.pl
, a następnie omówić go osobiście. Raport powinien zawierać odpowiedzi na pytania wraz z uzasadnieniem, krótki opis wykonanych kroków (użyte programy, istotne parametry, metody, podsumowanie wyników). Można, a nawet należy zamieścić wykresy.
Slajdy są dostępne tu (N. Dojer), oraz tu (J. Korbel) i tu (J. Aerts)
dziś na zajęciach obejrzymy sobie pliki z wykrytymi wariantami przez projekt 1000 genomów. Pliki są w formacie VCF
Możemy wybrać sobie chromosom i spróbować zwizualizowac plik w IGV (raczej nie zadziała w labie).
Lepiej będzie spróbować znaleźć translokacje, insercje i delecje (BND,INS,DEL) i zwizualizować je w CIRCOS (circos działa na komputerze adela, konto tsg2)
1. Dla zadanego chromosomu stwórz ścieżki z wystąpieniami insercji (słupki) delecji (heatmap) na podstawie danych z pliku vcf
2. dla zadanej pary chromosomów pokaż translokacje między nimi opisane w pliku cancer_breakpoints.txt na koncie użytkownika tsg2 na komputerze adela.
Mogą się przydać lekcje circos
Dane (sparowane odczyty z genomu ludzkiego) są dostępne tu. Dobrze byłoby zacząć od QC, żeby zobaczyć z czym mamy do czynienia. Potem mapujemy wg. standardowych parametrów do genomu ludzkiego (hg19). Warto porównać to co wyjdzie nam przy pomocy programu bowtie (z opcją -2) i to co wychodzi przy pomocy programu BWA (zmapowane odczyty w pliku sam)
Będziemy robić zadania z tutorialu, który jest tutaj
Interesuje nas sekcja 3, czyli o znajdowaniu snipow przy pomocy mpileup z samtools i bcftools.
Poza tym chcemy nauczyć się korzystać z pakietu GATK do lokalnego re-alignmentu (sekcja 4) i snp-callingu (sekcja 5)
A także do porównywania znalezionych snpów do dbSNP (sekcja 7) przy użyciu podanego pliku vcf.
Porównaj warianty znalezione przy pomocy mappera BWA z tymi, które otrzymujemy przy pomocy bowtie. pliki VCF znajdziesz tu
Dziś zajmiemy się mapowaniem odczytów. Slajdy z wykłądu są tu
Spróbujemy powrócić do jednego z plików, które już przetwarzaliśmy: test1.fastq
Będziemy używać oprogramowania bowtie do mapowania odczytów do zadanego genomu.
1. Pobierz probram bowtie i sekwencje genomu i stworz dla niej pliki indeksu
2. Spróbuj zmapować przy użyciu bowtie i opcji -m 1 -v 0 (tylko unikalne mapowania bez niezgodności z sekwencją referencyjną).
3. Spróbuj różnych parametrów preprocessingu (flitrowanie trimowanie itp) aby zwiekszyc liczbe zmapowanych odczytow.
4. Zinstaluj przeglądarkę IGV i zwizualizuj zmapowane odczyty przy jej pomocy
5. Porównaj mapowania dokładne (z p. 3) do mapowań z domyślnymi parametrami.
Dziś chcemy bliżej zapoznać się z indeksami sekwencji.
Spróbujmy zaimplementować trzy rodzaje indeksów:
1. Drzewo sufiksowe. Implementujemy funkcje build_ST(genome) i find (ST,word). Nie interesuje nas tak bardzo koszt implementacji drzewa (może być słownik) ani koszt budowy drzewa (może być n^2). Chodzi o to, aby find działał liniowo względem długości słowa i zwracał wszystkie wystąpienia słowa w genomie.
2. Tablica sufiksowa. Implementujemy funkcję build_SA(genome) i find(SA, word). Podobnie jak w p. 1.
3*. FM-Index: możemy podzielić na podproblemy:
– Dla zadanego genomu policz BWT(genome)
– Dla zadanej BWT, policz Last-First mapping
– Przy użyciu BWT i Last-First mapping skonstruuj wyszukiwanie słowa (czy istnieje wystąpienie i gdzie jest w genomie
– dodaj funkcjonalność związaną z wyszukwianiem wszystkich słów
4. Dla zadanego słowa, napisz funkcję, która wyszukuje wariantów tego słowa w ustalonej odległości (<k błędów) w zadanym indeksie (np. wyszukaj słowa podobne do ATGCG z nie więcej niż 2 błędami w zadanej sekwencji).
Dzisiaj o mapowaniu odczytów. Slajdy z wykładu są tu. Warto też obejrzeć ostatnią część slajdów z kursu w CSHL dostępnych tu
Jako zadanie na zajęcia mamy dokończyć analizę 3. zbioru danych po groomerz’e. Plik można znaleźć w historii nazwanej “dane 3 groomer” na serwerze centromere:8080
Na dziś myślę, że warto jest popróbować samemu zaimplementować wyszukiwanie wzorca przy pomocy drzew sufiksowych, tablic sufiksowych i transformaty B-W.
Slajdy do wykładu dostępne są tu
Naszym celem jest analiza jakości odczytów w plikach dostępnych tu
Logujemy się do serwera galaxy pod adresem http://centromere:8080 i tam zakładamy dla siebie nową historię przetwarzania danych. Następnie wykonujemy analizę FASTQC i na podstawie jej wyników dokonujemy “czyszczenia” danych przy pomocy narzędzi do “przycinania” odczytów na podstawie ich jakości (TRIM), wycinania sekwencji adapterowych (CLIP), filtrowania odczytów o złej jakości (FILTER). Operacje powtarzamy do uzyskania akceptowalnych wyników, uważając przy tym, aby nie usunąć zbyt wiele.