1. W pliku DNA.txt znajduje się fragment nici DNA człowieka. Znajdź liczbę wszystkich wystąpień sekwencji ACGT. Wypisz wszystkie pozycje, na których znajduje się ta sekwencja.
2. Napisz funkcję statystyki(nazwa_pliku)
, która dla danego pliku nazwa_pliku
stworzy plik statystyka_nazwa_pliku
, w którym zamieści linijkę z liczbą linii, liczbą słów, oraz informacją, którym znakiem w pliku jest znak ‘!’. Napisz funkcję sprawdz(nazwa_pliku)
, która sprawdzi, czy statystyka w pliku statystyka_nazwa_pliku jest aktualna.
3. (★) K-merami nazywamy sekwencje DNA (czyli sekwencje składające się z liter A,C,G,T) długości k. Dla pliku DNA.txt wypisz najczęściej występujący 4-mer.
Wskazówka:
- Zacznij od wygenerowania listy wszystkich 4-merów.
4. W pliku HP1b.gff3 znajdują się dane o miejscach wiązania białka HP1b do nici DNA muszki owocowej. Znajdź średnią wartość sygnału dla chromosomu 2L na pozycjach zawartych między 1,000,000 a 5,000,000.