Monthly Archives: June 2014

Progi zaliczenia

Za zadania zaliczeniowe można było dostać po 10 pktów, za egzamin 20. Progi ocen wzgl. sumy punktów wyglądają następująco:

  • 33 – bdb
  • 30 – db+
  • 27 – db
  • 24 – dst +
  • 21 (było 23) – dst

Wyniki egzaminu

W USOSie są już wyniki egzaminu. Nie poszło najlepiej, ale są osoby, które napisały bardzo dobrze (około 15tu punktów). Ponieważ to pierwszy taki egzamin poniżej załączam przykładowe dobre odpowiedzi na wszystkie pytania:

1. Hipoteza zerowa zakłada, że lek nie działa, a więc średni poziom zmierzony u obu grup pacjentów jest ten sam. Jeśli wyniki są w przybliżeniu normalne (sprawdzamy testem Shapiro-Wilka) możemy zastosować test t-Studenta na równość średnich i uznać, że lek jest skuteczny jeśli mamy przesłanki do odrzucenia hipotezy zerowej dla typowego poziomu istotności (0.05). Jeśli mielibyśmy do czynienia z różnymi dawkami leku, to moglibyśmy  zbadać istotność współczynnika korelacji Pearsona, aby odrzucić hipotezę zerową o braku zależności dawki od pomiaru. W przypadku więcej niż jednego leku, możemy zbadać każdy lek z osobna lub użyć analizy wariancji.

2. Dla każdej mutacji z osobna mamy hipotezę zerową, mówiącą, że prawdopodobieństwo napotkania tej mutacji w obu grupach jest identyczne. Możemy zastosować test Fishera, aby sprawdzić, czy mamy powody do odrzucenia tej hipotezy dla jakiejś mutacji przy ustalonym poziomie istotności. Ponieważ mutacji jest dużo, to musimy albo ustalić poziom istotności zgodny z poprawką Bonferroniego (np. 0.05/1000) albo wykorzystać metodę Benjaminiego-Hochberga do oszacowania FDR.

3. Mam np. dane o wzroście dzieci w 6 klasie w różnych województwach. Aby zbadać hipotezę, że dzieci w różnych województwach mają różny wzrost, mogę założyc hipotezę zerową o równości średnich tych rozkładów i wykonać analizę ANOVA. Ta analiza, w ogólności odpowiada na pytanie, czy rozkład danej zmiennej ilościowej (w tym przypadku wzrost) w populacji wykazuje różnice w podpopulacjach wyróżnionych względem pewnej zmiennej jakościowej (w tym przypadku województwo).

4. Wzpółczynniki alpha mówią o nachyleniu krzywej a nie o współczynniku korelacji. W związku z tym jedyne co mogę powiedzieć to to, że są one niezerowe, a więc prawdopodobnie jakaś korelacja (niezerowa) zachodzi pomiędzy X1, X2 i Y. Dla korelacji ważniejszy jest współczynnik r Pearsona i ew. wartości reszt (residuals). Gdybyśmy znali reszty i alfy, moglibyśmy coś o korelacji powiedzieć.

5. Metoda kNN (nie mylić z k-średnich) ma zastosowanie w sytuacjach, gdy związek pomiędzy obserwacjami ma charakter lokalny, nieliniowy. Jeśli obserwacje wykazują globalne zależności, lepsze będą metody dyskryminacyjne. Jeśli zależności globalne są liniowe, to możemy zastosować LDA, jeśli kwadratowe, to QDA. Aby sprawdzić szybko czy ma sens stosowanie jednej lub drugiej metody można na pewno dokonać próby klasyfikacji obiema metodami na mniejszej podpróbie.

6. Istnienie (nawet pośród wielu innych obserwacji) dwóch obserwacji niespójnych powoduje, że nie może istnieć klasyfikator osiągający 100% skuteczność na całym zbiorze danych (możemy osiągnąć 100% czułości albo 100%specyficznośći, ale nigdy jednocześnie i w związku z tym nigdy 100% pola pod krzywą ROC). W przypadku walidacji krzyżowej, możliwy jest taki podział zbioru uczącego, aby uzyskać 100% skuteczność, ale jest on mało prawdopodobny.

7. W związku z obecnością w danych zmiennych jakościowych (kolor) nie mogę bezpośrednio stosować metody k-średnich. Metoda k-medoidów będzie dobra, jeśli z góry wiadomo na ile grup podział chcę uzyskać, w przeciwnym przypadku lepiej zastosować metody hierarchiczne. Wybór funkcji podobieńśtwa będzie miał kluczowe znaczenie dla ostatecznego wyniku.

8. Jeśli mamy do czynienie  z obserwacjami w przestrzeni R^n, gdzie n jest duże, to warto zastosować metodę składowych głównych, która gwarantuje nam zachowanie jak największej części zmienności danych dla dowolnie zadanej liczby docelowych wymiarów (p. zbiór danych o ekspresji genów).W przypadku, gdy mamy do czynienia z danymi w przestrzeni, której nie umiemy odwzorować w R^n (np. sekwencje DNA), gdzie możemy wprowadzić jakąś funkcję podobieństwa (np. koszt uliniowienia) to możemy zastosować skalowanie wielowymiarowe, ale nie PCA.

I termin egzaminu

Dziś odbył się I termin egzaminu pisemnego.

Treść zadań dostępna jest tutaj.

Wyniki pojawią się w USOSie do końca tygodnia wraz z wynikami zadań domowych i propozycjami oceny. W najbliższy poniedziałek, 30. czerwca będę dostępny dla Państwa od 9tej do 12tej, aby odpowiedzieć na Państwa pytania dot. punktacji, ew. sprawdzić brakujące 2. zadania zaliczeniowe.

 

Zadanie zaliczeniowe 2

Mamy w końcu drugie zadanie zaliczeniowe. W związku z tym, że jest już późno, zadanie jest prostsze niż planowałem początkowo. Mam nadzieję, że Państwo podzielą tu moje zdanie.

Mamy dane o pacjentach (każdy wybiera sobie ten sam numer co w poprzednim zadaniu). Pacjenci pochodzą z 5 różnych grup: zdrowi i 4 różne grupy chorych. Naszym zadaniem jest:

  • zbudować klasyfikator przewidujący z której grupy pochodzi dany pacjent
  • oszacować jego skuteczność przy pomocy krzywej ROC w eksperymencie walidacji krzyżowej
  • dokonać predykcji nowych 20 pacjentów.

Dane obejmują numer pacjenta, jego grupę (healthy, group-(0,1,2,3), lub group-? do predykcji) i 100 różnych pomiarów (np. zazwartości różnych białek w osoczu krwi.

Wyniki w postaci raportu opisującego co Państwu udało się zdziałać proszę przysyłać do mnie (bartek@mimuw.edu.pl) z dopiskiem (SAD-2) w tytule do końca sesji.

powodzenia!

Ostatnie ćwiczenia – lasy losowe

Na dziś program następujący:

pakiet randomForest i metoda randomForest do tworzenia lasów losowych. Proponuję użyć tych samych zbiorów danych co ostatnio (iris, cars…) i porównać jakość klasyfikatorów (np. przy pomocy pakietu ROCR) opartych na drzewach decyzyjnych (np. pakiet rpart) i lasach losowych.
warto też porównać co się dzieje, gdy podzielimy nasze dane na 2 podzbiory (z zachowaniem reprezentacji klas) i nauczymy drzewa lub lasy na tych połówkach.

Zagadnienia do egzaminu

W związku z tym, że mamy dziś ostatni wykład, jest dobra okazja, żeby podsumować jakie zagadnienia mogą pojawić się na egzaminie. Przypominam, że egzamin będzie pisemny i będzie obejmował tematy “teoretyczne” nie ocenione przy okazji zadań zaliczeniowych.

  1. Testowanie hipotez. Należy znać i rozumieć takie pojęcia: hipoteza statystyczna, poziom istotności, p-wartość, test statystyczny, rozkład prawdopodobieństwa, próba losowa.
  2. Poprawki na testowanie wielu hipotez: przede wszystkim trzeba rozumieć dlaczego testowanie wielu hipotez jednocześnie stanowi problem. Należy też wiedzieć jak działa poprawka Bonferroniego i procedura Benjaminiego/Hochberga do liczenia q-wartości (FDR).
  3. t-test, test Fisher’a, analiza wariancji (anova)
  4. Zagadnienie korelacji i regresji: kowariancja, korelacje Pearsona i Spearman’a, regresja liniowa. Należy rozumieć zarówno interpretację geometryczną  (prosta “najbliższa” do punktów z próby) jak i statystyczną (model o minimalnej wariancji). Związek pomiędzy współczynnikiem r Pearsona a liniową regresją. Reszty w regresji liniowej. Regresja do wielu zmiennych.
  5. Analiza dyskryminacyjna: postawienie problemu i metoda LDA.
  6. Klasyfikacja: postawienie problemu i metody: kNN, drzewa decyzyjne i lasy losowe. Metody oceny jakości klasyfikatorów (specyficzność, czułość, krzywe ROC, miara AUC). Walidacja krzyżowa i repróbkowanie.
  7. Klasteryzacja: postawienie problemu i podstawowe metody rozwiązywania – hierarchiczne, k-średnich i k-medoidów. związek z mieszankami rozkładów Gaussowskich.
  8. Zagadnienie redukcji wymiaru danych. Dlaczego duży wymiar danych stanowi problem. Składowe główne: intuicja geometryczna i metody obliczania. Skalowanie wielowymiarowe.

Jeśli chodzi o testy statystyczne, to powinni Państwo umieć odpowiedzieć na następujące pytania nt. wszystkich testów jakie pojawiły się na ćwiczeniach:

  1. Jakie jest typowe zastosowanie testu
  2. jaka jest hipoteza zerowa
  3. jakie są założenia względem rozkładów, z których pochodzą dane

Warunkiem wystarczającym do niezaliczenia egzaminu będzie także wykazanie się brakiem elementarnej wiedzy z rachunku prawdopodobieństwa i statystyki, w szczególności:

  1. Nieznajomość pojęć rozkładu prawdopodobieństwa, zmiennej losowej, wartości oczekiwanej i wariancji (wzory!),
  2. próby losowej, statystyki, hipotezy, testu, poziomu istotności