TSG2 – Zajęcia 1.

Slajdy do wykładu dostępne są tu

Naszym celem jest analiza jakości odczytów w plikach dostępnych tu

Logujemy się do serwera galaxy pod adresem http://centromere:8080 i tam zakładamy dla siebie nową historię przetwarzania danych. Następnie wykonujemy analizę FASTQC i na podstawie jej wyników dokonujemy “czyszczenia” danych przy pomocy narzędzi do “przycinania” odczytów na podstawie ich jakości (TRIM), wycinania sekwencji adapterowych (CLIP), filtrowania odczytów o złej jakości (FILTER). Operacje powtarzamy do uzyskania akceptowalnych wyników, uważając przy tym, aby nie usunąć zbyt wiele.

 

Zaliczenie w terminie poprawkowym

Część z Państwa ma już wpisane oceny. Jeśli ktoś powinien mieć ocenę w protokole, ale jej nie ma, to proszę o kontakt mailowy (były przypadki, że Państwa e-mail nie miał oznaczenia (SAD-1 lub SAD-2) i zgubił się gdzieś w mojej skrzynce.

Jeśli ktoś potrzebuje jeszcze coś skonsultować, to zapraszam w czwartek między 12ta a 14ta.

Co do zaliczenia w terminie poprawkowym – będzie egzamin pisemny, podobny do tego z I terminu, za 20 punktów. Do tego doliczymy punkty z programów zaliczeniowych podzielone przez 2. Projekty zaliczeniowe można nadsyłać do końca sierpnia.

 

Wyniki egzaminu

W USOSie są już wyniki egzaminu. Nie poszło najlepiej, ale są osoby, które napisały bardzo dobrze (około 15tu punktów). Ponieważ to pierwszy taki egzamin poniżej załączam przykładowe dobre odpowiedzi na wszystkie pytania:

1. Hipoteza zerowa zakłada, że lek nie działa, a więc średni poziom zmierzony u obu grup pacjentów jest ten sam. Jeśli wyniki są w przybliżeniu normalne (sprawdzamy testem Shapiro-Wilka) możemy zastosować test t-Studenta na równość średnich i uznać, że lek jest skuteczny jeśli mamy przesłanki do odrzucenia hipotezy zerowej dla typowego poziomu istotności (0.05). Jeśli mielibyśmy do czynienia z różnymi dawkami leku, to moglibyśmy  zbadać istotność współczynnika korelacji Pearsona, aby odrzucić hipotezę zerową o braku zależności dawki od pomiaru. W przypadku więcej niż jednego leku, możemy zbadać każdy lek z osobna lub użyć analizy wariancji.

2. Dla każdej mutacji z osobna mamy hipotezę zerową, mówiącą, że prawdopodobieństwo napotkania tej mutacji w obu grupach jest identyczne. Możemy zastosować test Fishera, aby sprawdzić, czy mamy powody do odrzucenia tej hipotezy dla jakiejś mutacji przy ustalonym poziomie istotności. Ponieważ mutacji jest dużo, to musimy albo ustalić poziom istotności zgodny z poprawką Bonferroniego (np. 0.05/1000) albo wykorzystać metodę Benjaminiego-Hochberga do oszacowania FDR.

3. Mam np. dane o wzroście dzieci w 6 klasie w różnych województwach. Aby zbadać hipotezę, że dzieci w różnych województwach mają różny wzrost, mogę założyc hipotezę zerową o równości średnich tych rozkładów i wykonać analizę ANOVA. Ta analiza, w ogólności odpowiada na pytanie, czy rozkład danej zmiennej ilościowej (w tym przypadku wzrost) w populacji wykazuje różnice w podpopulacjach wyróżnionych względem pewnej zmiennej jakościowej (w tym przypadku województwo).

4. Wzpółczynniki alpha mówią o nachyleniu krzywej a nie o współczynniku korelacji. W związku z tym jedyne co mogę powiedzieć to to, że są one niezerowe, a więc prawdopodobnie jakaś korelacja (niezerowa) zachodzi pomiędzy X1, X2 i Y. Dla korelacji ważniejszy jest współczynnik r Pearsona i ew. wartości reszt (residuals). Gdybyśmy znali reszty i alfy, moglibyśmy coś o korelacji powiedzieć.

5. Metoda kNN (nie mylić z k-średnich) ma zastosowanie w sytuacjach, gdy związek pomiędzy obserwacjami ma charakter lokalny, nieliniowy. Jeśli obserwacje wykazują globalne zależności, lepsze będą metody dyskryminacyjne. Jeśli zależności globalne są liniowe, to możemy zastosować LDA, jeśli kwadratowe, to QDA. Aby sprawdzić szybko czy ma sens stosowanie jednej lub drugiej metody można na pewno dokonać próby klasyfikacji obiema metodami na mniejszej podpróbie.

6. Istnienie (nawet pośród wielu innych obserwacji) dwóch obserwacji niespójnych powoduje, że nie może istnieć klasyfikator osiągający 100% skuteczność na całym zbiorze danych (możemy osiągnąć 100% czułości albo 100%specyficznośći, ale nigdy jednocześnie i w związku z tym nigdy 100% pola pod krzywą ROC). W przypadku walidacji krzyżowej, możliwy jest taki podział zbioru uczącego, aby uzyskać 100% skuteczność, ale jest on mało prawdopodobny.

7. W związku z obecnością w danych zmiennych jakościowych (kolor) nie mogę bezpośrednio stosować metody k-średnich. Metoda k-medoidów będzie dobra, jeśli z góry wiadomo na ile grup podział chcę uzyskać, w przeciwnym przypadku lepiej zastosować metody hierarchiczne. Wybór funkcji podobieńśtwa będzie miał kluczowe znaczenie dla ostatecznego wyniku.

8. Jeśli mamy do czynienie  z obserwacjami w przestrzeni R^n, gdzie n jest duże, to warto zastosować metodę składowych głównych, która gwarantuje nam zachowanie jak największej części zmienności danych dla dowolnie zadanej liczby docelowych wymiarów (p. zbiór danych o ekspresji genów).W przypadku, gdy mamy do czynienia z danymi w przestrzeni, której nie umiemy odwzorować w R^n (np. sekwencje DNA), gdzie możemy wprowadzić jakąś funkcję podobieństwa (np. koszt uliniowienia) to możemy zastosować skalowanie wielowymiarowe, ale nie PCA.

I termin egzaminu

Dziś odbył się I termin egzaminu pisemnego.

Treść zadań dostępna jest tutaj.

Wyniki pojawią się w USOSie do końca tygodnia wraz z wynikami zadań domowych i propozycjami oceny. W najbliższy poniedziałek, 30. czerwca będę dostępny dla Państwa od 9tej do 12tej, aby odpowiedzieć na Państwa pytania dot. punktacji, ew. sprawdzić brakujące 2. zadania zaliczeniowe.

 

Zadanie zaliczeniowe 2

Mamy w końcu drugie zadanie zaliczeniowe. W związku z tym, że jest już późno, zadanie jest prostsze niż planowałem początkowo. Mam nadzieję, że Państwo podzielą tu moje zdanie.

Mamy dane o pacjentach (każdy wybiera sobie ten sam numer co w poprzednim zadaniu). Pacjenci pochodzą z 5 różnych grup: zdrowi i 4 różne grupy chorych. Naszym zadaniem jest:

  • zbudować klasyfikator przewidujący z której grupy pochodzi dany pacjent
  • oszacować jego skuteczność przy pomocy krzywej ROC w eksperymencie walidacji krzyżowej
  • dokonać predykcji nowych 20 pacjentów.

Dane obejmują numer pacjenta, jego grupę (healthy, group-(0,1,2,3), lub group-? do predykcji) i 100 różnych pomiarów (np. zazwartości różnych białek w osoczu krwi.

Wyniki w postaci raportu opisującego co Państwu udało się zdziałać proszę przysyłać do mnie (bartek@mimuw.edu.pl) z dopiskiem (SAD-2) w tytule do końca sesji.

powodzenia!

Ostatnie ćwiczenia – lasy losowe

Na dziś program następujący:

pakiet randomForest i metoda randomForest do tworzenia lasów losowych. Proponuję użyć tych samych zbiorów danych co ostatnio (iris, cars…) i porównać jakość klasyfikatorów (np. przy pomocy pakietu ROCR) opartych na drzewach decyzyjnych (np. pakiet rpart) i lasach losowych.
warto też porównać co się dzieje, gdy podzielimy nasze dane na 2 podzbiory (z zachowaniem reprezentacji klas) i nauczymy drzewa lub lasy na tych połówkach.

Zagadnienia do egzaminu

W związku z tym, że mamy dziś ostatni wykład, jest dobra okazja, żeby podsumować jakie zagadnienia mogą pojawić się na egzaminie. Przypominam, że egzamin będzie pisemny i będzie obejmował tematy “teoretyczne” nie ocenione przy okazji zadań zaliczeniowych.

  1. Testowanie hipotez. Należy znać i rozumieć takie pojęcia: hipoteza statystyczna, poziom istotności, p-wartość, test statystyczny, rozkład prawdopodobieństwa, próba losowa.
  2. Poprawki na testowanie wielu hipotez: przede wszystkim trzeba rozumieć dlaczego testowanie wielu hipotez jednocześnie stanowi problem. Należy też wiedzieć jak działa poprawka Bonferroniego i procedura Benjaminiego/Hochberga do liczenia q-wartości (FDR).
  3. t-test, test Fisher’a, analiza wariancji (anova)
  4. Zagadnienie korelacji i regresji: kowariancja, korelacje Pearsona i Spearman’a, regresja liniowa. Należy rozumieć zarówno interpretację geometryczną  (prosta “najbliższa” do punktów z próby) jak i statystyczną (model o minimalnej wariancji). Związek pomiędzy współczynnikiem r Pearsona a liniową regresją. Reszty w regresji liniowej. Regresja do wielu zmiennych.
  5. Analiza dyskryminacyjna: postawienie problemu i metoda LDA.
  6. Klasyfikacja: postawienie problemu i metody: kNN, drzewa decyzyjne i lasy losowe. Metody oceny jakości klasyfikatorów (specyficzność, czułość, krzywe ROC, miara AUC). Walidacja krzyżowa i repróbkowanie.
  7. Klasteryzacja: postawienie problemu i podstawowe metody rozwiązywania – hierarchiczne, k-średnich i k-medoidów. związek z mieszankami rozkładów Gaussowskich.
  8. Zagadnienie redukcji wymiaru danych. Dlaczego duży wymiar danych stanowi problem. Składowe główne: intuicja geometryczna i metody obliczania. Skalowanie wielowymiarowe.

Jeśli chodzi o testy statystyczne, to powinni Państwo umieć odpowiedzieć na następujące pytania nt. wszystkich testów jakie pojawiły się na ćwiczeniach:

  1. Jakie jest typowe zastosowanie testu
  2. jaka jest hipoteza zerowa
  3. jakie są założenia względem rozkładów, z których pochodzą dane

Warunkiem wystarczającym do niezaliczenia egzaminu będzie także wykazanie się brakiem elementarnej wiedzy z rachunku prawdopodobieństwa i statystyki, w szczególności:

  1. Nieznajomość pojęć rozkładu prawdopodobieństwa, zmiennej losowej, wartości oczekiwanej i wariancji (wzory!),
  2. próby losowej, statystyki, hipotezy, testu, poziomu istotności

Drzewa decyzyjne

Dziś będziemy mówić o drzewach decyzyjnych.

Interesuje nas metoda zachłąnnej konstrukcji drzew decyzyjnych względem optymalizacji “Gini impurity” (tj. w metodzie CART) lub zawartości informacyjnej, tj. w metodach ID3 i C4.5.

Będziemy używać pakietów rpart i C50, które implementuje metody inspirowane odpowiednio metodami CART i C45.

0. Zainstaluj pakiety rpart i C50. wczytaj pakiet MASS.

1. Zastosuj oba pakiety do klasyfikacji obserwacji ze zbioru iris w pakiecie MASS, porównaj uzyskane drzewa.

2. Zastosuj oba pakiety do klasyfikacji obserwacji ze zbioru car.test.frame. porównaj uzyskane drzewa.

3. Zainstaluj pakiet mboost i zastosuj drzewa decyzyjne także do danych ze zbioru bodyfat (data(“bodyfat”, package = “mboost”))