Naszym zadaniem jest napisanie prostej metody iteracyjnej, która znajdzie lokalnie optymalne przypisanie poziomów ekspresji dla różnych transkryptów genów.
Przypomnijmy – geny u eukariontów podlegają splicingowi – procesowi wycinania intronów zanim dojdzie do translacji. Jeśli transkrypt posiada wiele intronów, możemy otrzymać wiele różnych transkryptów – niekiedy, jak w przypadku genu dSCAM, możeich być naprawdę bardzo wiele.
Mamy więc 3 poziomy organizacji transkrypcji: Geny, transkrypty i eksony. Każdy ekson może należeć do wielu transkryptów, ale każdy transkrypt należy do jednego genu.
Kiedy sekwerncjonujemy mRNA, możemy policzyć ile odczytów przypadło na każdy z eksonów. Przykładowy wynik takiej operacji znajdą Państwo w pliku Reads_on_exons. Opisuje on dla każdego z kilkuset tysięcy exonów liczbę odczytów przypadających na niego w jednym z eksperymentów badania ekspresji genów w ludzkim mózgu prowadzonym w mojej grupie.
Opis przynależnośći eksonów do genów w ludzkim genomie znajdą Państwo w pliku hg38_full.gtf Dla każdego eksonu będzie tam linia przypisująca go do określonego genu i transkryptu.
Naszym zadaniem jest obliczenie najbardziej prawdopodobnych poziomów ekspresji transkryptów zakładając, że ekspresja eksonów jest w przybliżeniu równa sumie ekspresji transkryptów zawierających dany ekson. Oczywiście musimy wziąć pod uwagę pewien błąd, który jest nieuchronnie związany z losowością próbki odczytów oraz z niedoskonałością opisu transkryptów.
Punktacja wygląda następująco:
– zaprojektowanie sensownych struktur danych do przechowywania informacji o genach, transkryptach i exonach – 7 punktów
– wczytanie danych z plików do tychże struktur – 7 punktów
– iterując po genach rozwiązujemy zadanie minimalizacji błędu najmniejszych kwadratów, gdzie dana jest ekspresja na egzonach i przypisanie egzonów do transkryptów i genów, a szukanymi jest ekspresja transkryptów. – 7 punktów
– wypisujemy wyniki do plików tekstowych (4 pkt)
a) eskpresję transkryptów w formacie: nazwa genu, nazwa transkryptu, wartość ekspresji, lista egzonów, zliczenia dla egzonów
b) błąd średniokwadratowy dla egzonów do pliku tekstowego w formacie: egzon, wartosc ekspresji, suma ekspresji transkryptow, blad, lista transkryptow
Ze względu na opóźnienie pojawienia się zadania – proponuję termin oddania projektu na 15 VI.