Wyniki egzaminu – regulatory genomics

W USOSie są już wyniki egzaminu. Nie poszło najlepiej, ale są osoby, które napisały bardzo dobrze (około 15tu punktów). Ponieważ to pierwszy taki egzamin poniżej załączam przykładowe dobre odpowiedzi na wszystkie pytania:

1. Hipoteza zerowa zakłada, że lek nie działa, a więc średni poziom zmierzony u obu grup pacjentów jest ten sam. Jeśli wyniki są w przybliżeniu normalne (sprawdzamy testem Shapiro-Wilka) możemy zastosować test t-Studenta na równość średnich i uznać, że lek jest skuteczny jeśli mamy przesłanki do odrzucenia hipotezy zerowej dla typowego poziomu istotności (0.05). Jeśli mielibyśmy do czynienia z różnymi dawkami leku, to moglibyśmy zbadać istotność współczynnika korelacji Pearsona, aby odrzucić hipotezę zerową o braku zależności dawki od pomiaru. W przypadku więcej niż jednego leku, możemy zbadać każdy lek z osobna lub użyć analizy wariancji.

2. Dla każdej mutacji z osobna mamy hipotezę zerową, mówiącą, że prawdopodobieństwo napotkania tej mutacji w obu grupach jest identyczne. Możemy zastosować test Fishera, aby sprawdzić, czy mamy powody do odrzucenia tej hipotezy dla jakiejś mutacji przy ustalonym poziomie istotności. Ponieważ mutacji jest dużo, to musimy albo ustalić poziom istotności zgodny z poprawką Bonferroniego (np. 0.05/1000) albo wykorzystać metodę Benjaminiego-Hochberga do oszacowania FDR.

3. Mam np. dane o wzroście dzieci w 6 klasie w różnych województwach. Aby zbadać hipotezę, że dzieci w różnych województwach mają różny wzrost, mogę założyc hipotezę zerową o równości średnich tych rozkładów i wykonać analizę ANOVA. Ta analiza, w ogólności odpowiada na pytanie, czy rozkład danej zmiennej ilościowej (w tym przypadku wzrost) w populacji wykazuje różnice w podpopulacjach wyróżnionych względem pewnej zmiennej jakościowej (w tym przypadku województwo).

4. Wzpółczynniki alpha mówią o nachyleniu krzywej a nie o współczynniku korelacji. W związku z tym jedyne co mogę powiedzieć to to, że są one niezerowe, a więc prawdopodobnie jakaś korelacja (niezerowa) zachodzi pomiędzy X1, X2 i Y. Dla korelacji ważniejszy jest współczynnik r Pearsona i ew. wartości reszt (residuals). Gdybyśmy znali reszty i alfy, moglibyśmy coś o korelacji powiedzieć.

5. Metoda kNN (nie mylić z k-średnich) ma zastosowanie w sytuacjach, gdy związek pomiędzy obserwacjami ma charakter lokalny, nieliniowy. Jeśli obserwacje wykazują globalne zależności, lepsze będą metody dyskryminacyjne. Jeśli zależności globalne są liniowe, to możemy zastosować LDA, jeśli kwadratowe, to QDA. Aby sprawdzić szybko czy ma sens stosowanie jednej lub drugiej metody można na pewno dokonać próby klasyfikacji obiema metodami na mniejszej podpróbie.

6. Istnienie (nawet pośród wielu innych obserwacji) dwóch obserwacji niespójnych powoduje, że nie może istnieć klasyfikator osiągający 100% skuteczność na całym zbiorze danych (możemy osiągnąć 100% czułości albo 100%specyficznośći, ale nigdy jednocześnie i w związku z tym nigdy 100% pola pod krzywą ROC). W przypadku walidacji krzyżowej, możliwy jest taki podział zbioru uczącego, aby uzyskać 100% skuteczność, ale jest on mało prawdopodobny.

7. W związku z obecnością w danych zmiennych jakościowych (kolor) nie mogę bezpośrednio stosować metody k-średnich. Metoda k-medoidów będzie dobra, jeśli z góry wiadomo na ile grup podział chcę uzyskać, w przeciwnym przypadku lepiej zastosować metody hierarchiczne. Wybór funkcji podobieńśtwa będzie miał kluczowe znaczenie dla ostatecznego wyniku.

8. Jeśli mamy do czynienie z obserwacjami w przestrzeni R^n, gdzie n jest duże, to warto zastosować metodę składowych głównych, która gwarantuje nam zachowanie jak największej części zmienności danych dla dowolnie zadanej liczby docelowych wymiarów (p. zbiór danych o ekspresji genów).W przypadku, gdy mamy do czynienia z danymi w przestrzeni, której nie umiemy odwzorować w R^n (np. sekwencje DNA), gdzie możemy wprowadzić jakąś funkcję podobieństwa (np. koszt uliniowienia) to możemy zastosować skalowanie wielowymiarowe, ale nie PCA.

Leave a Reply Cancel reply