Za zadania zaliczeniowe można było dostać po 10 pktów, za egzamin 20. Progi ocen wzgl. sumy punktów wyglądają następująco:
- 33 – bdb
- 30 – db+
- 27 – db
- 24 – dst +
- 21 (było 23) – dst
@ MIM UW
Za zadania zaliczeniowe można było dostać po 10 pktów, za egzamin 20. Progi ocen wzgl. sumy punktów wyglądają następująco:
W USOSie są już wyniki egzaminu. Nie poszło najlepiej, ale są osoby, które napisały bardzo dobrze (około 15tu punktów). Ponieważ to pierwszy taki egzamin poniżej załączam przykładowe dobre odpowiedzi na wszystkie pytania:
1. Hipoteza zerowa zakłada, że lek nie działa, a więc średni poziom zmierzony u obu grup pacjentów jest ten sam. Jeśli wyniki są w przybliżeniu normalne (sprawdzamy testem Shapiro-Wilka) możemy zastosować test t-Studenta na równość średnich i uznać, że lek jest skuteczny jeśli mamy przesłanki do odrzucenia hipotezy zerowej dla typowego poziomu istotności (0.05). Jeśli mielibyśmy do czynienia z różnymi dawkami leku, to moglibyśmy zbadać istotność współczynnika korelacji Pearsona, aby odrzucić hipotezę zerową o braku zależności dawki od pomiaru. W przypadku więcej niż jednego leku, możemy zbadać każdy lek z osobna lub użyć analizy wariancji.
2. Dla każdej mutacji z osobna mamy hipotezę zerową, mówiącą, że prawdopodobieństwo napotkania tej mutacji w obu grupach jest identyczne. Możemy zastosować test Fishera, aby sprawdzić, czy mamy powody do odrzucenia tej hipotezy dla jakiejś mutacji przy ustalonym poziomie istotności. Ponieważ mutacji jest dużo, to musimy albo ustalić poziom istotności zgodny z poprawką Bonferroniego (np. 0.05/1000) albo wykorzystać metodę Benjaminiego-Hochberga do oszacowania FDR.
3. Mam np. dane o wzroście dzieci w 6 klasie w różnych województwach. Aby zbadać hipotezę, że dzieci w różnych województwach mają różny wzrost, mogę założyc hipotezę zerową o równości średnich tych rozkładów i wykonać analizę ANOVA. Ta analiza, w ogólności odpowiada na pytanie, czy rozkład danej zmiennej ilościowej (w tym przypadku wzrost) w populacji wykazuje różnice w podpopulacjach wyróżnionych względem pewnej zmiennej jakościowej (w tym przypadku województwo).
4. Wzpółczynniki alpha mówią o nachyleniu krzywej a nie o współczynniku korelacji. W związku z tym jedyne co mogę powiedzieć to to, że są one niezerowe, a więc prawdopodobnie jakaś korelacja (niezerowa) zachodzi pomiędzy X1, X2 i Y. Dla korelacji ważniejszy jest współczynnik r Pearsona i ew. wartości reszt (residuals). Gdybyśmy znali reszty i alfy, moglibyśmy coś o korelacji powiedzieć.
5. Metoda kNN (nie mylić z k-średnich) ma zastosowanie w sytuacjach, gdy związek pomiędzy obserwacjami ma charakter lokalny, nieliniowy. Jeśli obserwacje wykazują globalne zależności, lepsze będą metody dyskryminacyjne. Jeśli zależności globalne są liniowe, to możemy zastosować LDA, jeśli kwadratowe, to QDA. Aby sprawdzić szybko czy ma sens stosowanie jednej lub drugiej metody można na pewno dokonać próby klasyfikacji obiema metodami na mniejszej podpróbie.
6. Istnienie (nawet pośród wielu innych obserwacji) dwóch obserwacji niespójnych powoduje, że nie może istnieć klasyfikator osiągający 100% skuteczność na całym zbiorze danych (możemy osiągnąć 100% czułości albo 100%specyficznośći, ale nigdy jednocześnie i w związku z tym nigdy 100% pola pod krzywą ROC). W przypadku walidacji krzyżowej, możliwy jest taki podział zbioru uczącego, aby uzyskać 100% skuteczność, ale jest on mało prawdopodobny.
7. W związku z obecnością w danych zmiennych jakościowych (kolor) nie mogę bezpośrednio stosować metody k-średnich. Metoda k-medoidów będzie dobra, jeśli z góry wiadomo na ile grup podział chcę uzyskać, w przeciwnym przypadku lepiej zastosować metody hierarchiczne. Wybór funkcji podobieńśtwa będzie miał kluczowe znaczenie dla ostatecznego wyniku.
8. Jeśli mamy do czynienie z obserwacjami w przestrzeni R^n, gdzie n jest duże, to warto zastosować metodę składowych głównych, która gwarantuje nam zachowanie jak największej części zmienności danych dla dowolnie zadanej liczby docelowych wymiarów (p. zbiór danych o ekspresji genów).W przypadku, gdy mamy do czynienia z danymi w przestrzeni, której nie umiemy odwzorować w R^n (np. sekwencje DNA), gdzie możemy wprowadzić jakąś funkcję podobieństwa (np. koszt uliniowienia) to możemy zastosować skalowanie wielowymiarowe, ale nie PCA.
Dziś odbył się I termin egzaminu pisemnego.
Treść zadań dostępna jest tutaj.
Wyniki pojawią się w USOSie do końca tygodnia wraz z wynikami zadań domowych i propozycjami oceny. W najbliższy poniedziałek, 30. czerwca będę dostępny dla Państwa od 9tej do 12tej, aby odpowiedzieć na Państwa pytania dot. punktacji, ew. sprawdzić brakujące 2. zadania zaliczeniowe.
Mamy w końcu drugie zadanie zaliczeniowe. W związku z tym, że jest już późno, zadanie jest prostsze niż planowałem początkowo. Mam nadzieję, że Państwo podzielą tu moje zdanie.
Mamy dane o pacjentach (każdy wybiera sobie ten sam numer co w poprzednim zadaniu). Pacjenci pochodzą z 5 różnych grup: zdrowi i 4 różne grupy chorych. Naszym zadaniem jest:
Dane obejmują numer pacjenta, jego grupę (healthy, group-(0,1,2,3), lub group-? do predykcji) i 100 różnych pomiarów (np. zazwartości różnych białek w osoczu krwi.
Wyniki w postaci raportu opisującego co Państwu udało się zdziałać proszę przysyłać do mnie (bartek@mimuw.edu.pl) z dopiskiem (SAD-2) w tytule do końca sesji.
powodzenia!
Na dziś program następujący:
pakiet randomForest i metoda randomForest do tworzenia lasów losowych. Proponuję użyć tych samych zbiorów danych co ostatnio (iris, cars…) i porównać jakość klasyfikatorów (np. przy pomocy pakietu ROCR) opartych na drzewach decyzyjnych (np. pakiet rpart) i lasach losowych.
warto też porównać co się dzieje, gdy podzielimy nasze dane na 2 podzbiory (z zachowaniem reprezentacji klas) i nauczymy drzewa lub lasy na tych połówkach.
W związku z tym, że mamy dziś ostatni wykład, jest dobra okazja, żeby podsumować jakie zagadnienia mogą pojawić się na egzaminie. Przypominam, że egzamin będzie pisemny i będzie obejmował tematy “teoretyczne” nie ocenione przy okazji zadań zaliczeniowych.
Jeśli chodzi o testy statystyczne, to powinni Państwo umieć odpowiedzieć na następujące pytania nt. wszystkich testów jakie pojawiły się na ćwiczeniach:
Warunkiem wystarczającym do niezaliczenia egzaminu będzie także wykazanie się brakiem elementarnej wiedzy z rachunku prawdopodobieństwa i statystyki, w szczególności: