Dziś rozmawialiśmy o reprezentacji i wyszukiwaniu motywów sekwencyjnych: wyk11-motifs
Zadania na dziś:
1. Pobierz listę promotorów e_coli w pliku fasta: ecoli_proms.fa
2. Zapoznaj się z modelem macierzy motywów z modułu Bio.motifs i jego dokumentacją
3. Zaimplementuj prostą, zachłanną metodę consensus dla wyszukiwania motywów, zastosuj ją do promotorów e.coli i obejrzyj wyniki dla motywów długości 3,4,5,6. Schemat algorytmu jest następujący:
- zaczynając od dowolnego miejsca w pierwszej sekwencji skonstruuj na jego podstawie model PWM
- dla każdej kolejnej sekwencji wybieraj sekwencję najlepiej pasującą do obecnego modelu PWM
- Po wybraniu sekwencji skonstuuj nowy model PWM, wzbogacony o tę sekwencję
- Po wykonaniu tej procedury dla wszystkich punktów startowych z sekwencji 1. zwróć kilka (np. 5) najlepszych macierzy
Powtórz tę procedurę dla kilku różnych permutacji pliku wejściowego.
4. Porównaj wyniki ze znanymi motywami promotorowymi w E. coli
5. Wykonaj analizę tych samych promotorów przy pomocy MEME i porównaj wyniki z otrzymanymi z consensusa