WDI – zajęcia 6

Słowniki:
Rozgrzewka (najlepiej w ipythonie):

  • Stwórz pusty słownik. Zapoznaj się z funkcjami, jakie są dla niego dostępne. Dodaj do niego następujące elementy: pod kluczem 1 wartość 3, pod kluczem 5 -> 2, a pod “a” -> 4. Usuń jeden z elementów używając metody del, a drugi używając metody pop. Przypisz na pozostały element wartość 10.
  • Sprawdź, jak działają metody keys, values, items. Której z nich odpowiada zwykła iteracja pętlą for?

Continue reading “WDI – zajęcia 6”

WDI – zadanie zaliczeniowe 1

Sekwencjonowanie DNA w technologiach nowej generacji prowadzi do odczytania milionów krótkich sekwencji DNA zwanych odczytami. Często potrzeba odnaleźć pozycje takich odczytów w genomie, czyli zmapować je do genomu. Proces mapowania odczytów (sekwencji DNA) do genomu referencyjnego polega (w dużym uproszczeniu) na przypisaniu każdemu odczytowi współrzędnych genomowych n, m wskazujących odpowiednio chromosom oraz numer pary zasad w sekwencji tego chromosomu z genomu referencyjnego. Te współrzędne oznaczają miejsce z którego dany odczyt najprawdopodobniej został wygenerowany (chromosom oraz początkową pozycję na tym chromosomie). 
Continue reading “WDI – zadanie zaliczeniowe 1”

WDI – zajęcia 5

1. W pliku DNA.txt znajduje się fragment nici DNA człowieka. Znajdź liczbę wszystkich wystąpień sekwencji ACGT. Wypisz wszystkie pozycje, na których znajduje się ta sekwencja.

2. Napisz funkcję statystyki(nazwa_pliku), która dla danego pliku nazwa_pliku stworzy plik statystyka_nazwa_pliku, w którym zamieści linijkę z liczbą linii, liczbą słów, oraz informacją, którym znakiem w pliku jest znak ‘!’. Napisz funkcję sprawdz(nazwa_pliku), która sprawdzi, czy statystyka w pliku statystyka_nazwa_pliku jest aktualna.

3. (★) K-merami nazywamy sekwencje DNA (czyli sekwencje składające się z liter A,C,G,T) długości k. Dla pliku DNA.txt wypisz najczęściej występujący 4-mer.
Wskazówka:

  • Zacznij od wygenerowania listy wszystkich 4-merów.

4. W pliku HP1b.gff3 znajdują się dane o miejscach wiązania białka HP1b do nici DNA muszki owocowej. Znajdź średnią wartość sygnału dla chromosomu 2L na pozycjach zawartych między 1,000,000 a 5,000,000.