Za zadania zaliczeniowe można było dostać po 10 pktów, za egzamin 20. Progi ocen wzgl. sumy punktów wyglądają następująco:
- 33 – bdb
- 30 – db+
- 27 – db
- 24 – dst +
- 21 (było 23) – dst
@ MIM UW
Statystyczna Analiza Danych
Za zadania zaliczeniowe można było dostać po 10 pktów, za egzamin 20. Progi ocen wzgl. sumy punktów wyglądają następująco:
W USOSie są już wyniki egzaminu. Nie poszło najlepiej, ale są osoby, które napisały bardzo dobrze (około 15tu punktów). Ponieważ to pierwszy taki egzamin poniżej załączam przykładowe dobre odpowiedzi na wszystkie pytania:
1. Hipoteza zerowa zakłada, że lek nie działa, a więc średni poziom zmierzony u obu grup pacjentów jest ten sam. Jeśli wyniki są w przybliżeniu normalne (sprawdzamy testem Shapiro-Wilka) możemy zastosować test t-Studenta na równość średnich i uznać, że lek jest skuteczny jeśli mamy przesłanki do odrzucenia hipotezy zerowej dla typowego poziomu istotności (0.05). Jeśli mielibyśmy do czynienia z różnymi dawkami leku, to moglibyśmy zbadać istotność współczynnika korelacji Pearsona, aby odrzucić hipotezę zerową o braku zależności dawki od pomiaru. W przypadku więcej niż jednego leku, możemy zbadać każdy lek z osobna lub użyć analizy wariancji.
2. Dla każdej mutacji z osobna mamy hipotezę zerową, mówiącą, że prawdopodobieństwo napotkania tej mutacji w obu grupach jest identyczne. Możemy zastosować test Fishera, aby sprawdzić, czy mamy powody do odrzucenia tej hipotezy dla jakiejś mutacji przy ustalonym poziomie istotności. Ponieważ mutacji jest dużo, to musimy albo ustalić poziom istotności zgodny z poprawką Bonferroniego (np. 0.05/1000) albo wykorzystać metodę Benjaminiego-Hochberga do oszacowania FDR.
3. Mam np. dane o wzroście dzieci w 6 klasie w różnych województwach. Aby zbadać hipotezę, że dzieci w różnych województwach mają różny wzrost, mogę założyc hipotezę zerową o równości średnich tych rozkładów i wykonać analizę ANOVA. Ta analiza, w ogólności odpowiada na pytanie, czy rozkład danej zmiennej ilościowej (w tym przypadku wzrost) w populacji wykazuje różnice w podpopulacjach wyróżnionych względem pewnej zmiennej jakościowej (w tym przypadku województwo).
4. Wzpółczynniki alpha mówią o nachyleniu krzywej a nie o współczynniku korelacji. W związku z tym jedyne co mogę powiedzieć to to, że są one niezerowe, a więc prawdopodobnie jakaś korelacja (niezerowa) zachodzi pomiędzy X1, X2 i Y. Dla korelacji ważniejszy jest współczynnik r Pearsona i ew. wartości reszt (residuals). Gdybyśmy znali reszty i alfy, moglibyśmy coś o korelacji powiedzieć.
5. Metoda kNN (nie mylić z k-średnich) ma zastosowanie w sytuacjach, gdy związek pomiędzy obserwacjami ma charakter lokalny, nieliniowy. Jeśli obserwacje wykazują globalne zależności, lepsze będą metody dyskryminacyjne. Jeśli zależności globalne są liniowe, to możemy zastosować LDA, jeśli kwadratowe, to QDA. Aby sprawdzić szybko czy ma sens stosowanie jednej lub drugiej metody można na pewno dokonać próby klasyfikacji obiema metodami na mniejszej podpróbie.
6. Istnienie (nawet pośród wielu innych obserwacji) dwóch obserwacji niespójnych powoduje, że nie może istnieć klasyfikator osiągający 100% skuteczność na całym zbiorze danych (możemy osiągnąć 100% czułości albo 100%specyficznośći, ale nigdy jednocześnie i w związku z tym nigdy 100% pola pod krzywą ROC). W przypadku walidacji krzyżowej, możliwy jest taki podział zbioru uczącego, aby uzyskać 100% skuteczność, ale jest on mało prawdopodobny.
7. W związku z obecnością w danych zmiennych jakościowych (kolor) nie mogę bezpośrednio stosować metody k-średnich. Metoda k-medoidów będzie dobra, jeśli z góry wiadomo na ile grup podział chcę uzyskać, w przeciwnym przypadku lepiej zastosować metody hierarchiczne. Wybór funkcji podobieńśtwa będzie miał kluczowe znaczenie dla ostatecznego wyniku.
8. Jeśli mamy do czynienie z obserwacjami w przestrzeni R^n, gdzie n jest duże, to warto zastosować metodę składowych głównych, która gwarantuje nam zachowanie jak największej części zmienności danych dla dowolnie zadanej liczby docelowych wymiarów (p. zbiór danych o ekspresji genów).W przypadku, gdy mamy do czynienia z danymi w przestrzeni, której nie umiemy odwzorować w R^n (np. sekwencje DNA), gdzie możemy wprowadzić jakąś funkcję podobieństwa (np. koszt uliniowienia) to możemy zastosować skalowanie wielowymiarowe, ale nie PCA.
Dziś odbył się I termin egzaminu pisemnego.
Treść zadań dostępna jest tutaj.
Wyniki pojawią się w USOSie do końca tygodnia wraz z wynikami zadań domowych i propozycjami oceny. W najbliższy poniedziałek, 30. czerwca będę dostępny dla Państwa od 9tej do 12tej, aby odpowiedzieć na Państwa pytania dot. punktacji, ew. sprawdzić brakujące 2. zadania zaliczeniowe.
Mamy w końcu drugie zadanie zaliczeniowe. W związku z tym, że jest już późno, zadanie jest prostsze niż planowałem początkowo. Mam nadzieję, że Państwo podzielą tu moje zdanie.
Mamy dane o pacjentach (każdy wybiera sobie ten sam numer co w poprzednim zadaniu). Pacjenci pochodzą z 5 różnych grup: zdrowi i 4 różne grupy chorych. Naszym zadaniem jest:
Dane obejmują numer pacjenta, jego grupę (healthy, group-(0,1,2,3), lub group-? do predykcji) i 100 różnych pomiarów (np. zazwartości różnych białek w osoczu krwi.
Wyniki w postaci raportu opisującego co Państwu udało się zdziałać proszę przysyłać do mnie (bartek@mimuw.edu.pl) z dopiskiem (SAD-2) w tytule do końca sesji.
powodzenia!
Na dziś program następujący:
pakiet randomForest i metoda randomForest do tworzenia lasów losowych. Proponuję użyć tych samych zbiorów danych co ostatnio (iris, cars…) i porównać jakość klasyfikatorów (np. przy pomocy pakietu ROCR) opartych na drzewach decyzyjnych (np. pakiet rpart) i lasach losowych.
warto też porównać co się dzieje, gdy podzielimy nasze dane na 2 podzbiory (z zachowaniem reprezentacji klas) i nauczymy drzewa lub lasy na tych połówkach.
W związku z tym, że mamy dziś ostatni wykład, jest dobra okazja, żeby podsumować jakie zagadnienia mogą pojawić się na egzaminie. Przypominam, że egzamin będzie pisemny i będzie obejmował tematy “teoretyczne” nie ocenione przy okazji zadań zaliczeniowych.
Jeśli chodzi o testy statystyczne, to powinni Państwo umieć odpowiedzieć na następujące pytania nt. wszystkich testów jakie pojawiły się na ćwiczeniach:
Warunkiem wystarczającym do niezaliczenia egzaminu będzie także wykazanie się brakiem elementarnej wiedzy z rachunku prawdopodobieństwa i statystyki, w szczególności:
Dziś będziemy mówić o drzewach decyzyjnych.
Interesuje nas metoda zachłąnnej konstrukcji drzew decyzyjnych względem optymalizacji “Gini impurity” (tj. w metodzie CART) lub zawartości informacyjnej, tj. w metodach ID3 i C4.5.
Będziemy używać pakietów rpart i C50, które implementuje metody inspirowane odpowiednio metodami CART i C45.
0. Zainstaluj pakiety rpart i C50. wczytaj pakiet MASS.
1. Zastosuj oba pakiety do klasyfikacji obserwacji ze zbioru iris w pakiecie MASS, porównaj uzyskane drzewa.
2. Zastosuj oba pakiety do klasyfikacji obserwacji ze zbioru car.test.frame. porównaj uzyskane drzewa.
3. Zainstaluj pakiet mboost i zastosuj drzewa decyzyjne także do danych ze zbioru bodyfat (data(“bodyfat”, package = “mboost”))
Dziś będziemy przyglądać się metodom redukcji wymiaru.
Dla przykładu weźmy zbiór danych o ekspresji genów u Drożdży.
Zawiera on dane z pomiaru poziomu mRNA w populacji komórek drożdży pod wpływem różnego rodzaju stresu.
0. Wczytaj dane do macierzy w R
1. Dokonaj analizy PCA funkcjami princomp i svd (obserwacje=geny, warunki=zmienne). Zanalizuj ważność składowych i wyrysuj kilka pierwszych na wykresach 2-wymiarowych.
2. przekształć dane do macierzy odległości (dist()) i zastosuj skalowanie wielowymiarowe do 2-wymiarów (cmdscale()). Wybierz jakąś inną metrykę w funkcji dist i porównaj wyniki. Przyjrzyj się też funkcji isoMDS z pakietu MASS, która dotyczy przypadku macierzy odległości nie spełniających nierówności trójkąta.
3. Zastosuj grupowanie metodą k-means, aby uzyskać kilka (3-4) grupy genów zbliżonych do siebie profliem ekspresji..Użyj pakietu ggplot2 (f. qplot()) do narysowania wykresu 2D i pokoloruj punkty wg. przynależności do grup z k-means.
Dziś spróbujemy swoich sił w modelach związanych z mieszankami rozkładów
Na początek zainstalujmy pakiet mixtools:
install.packages(“mixtools”)
library(“mixtools”)
1. Zapoznaj się ze zbiorem faithful
data(faithful)
summary(faithful)
plot(faithful)
2. Używając funkcji normalmixEM, dopasuj modele mieszane do jednowymiarowych zmiennych eruptions i waiting oraz do ich rozkładu łącznego (mvnormalmixEM).
3. Wygeneruj zbiór danych z rozkładu mieszanego 2 wymiarowego o tych samych wariancjach lecz zróżnicowanych wagach (p1=0.9), zrekonstruuj składowe przy pomocy funkcji EM, użyj też metody k-średnich
4. Wygeneruj zbiór danych z rozkładu mieszanego 2 wymiarowego o różnych wariancjach (sigma1=5xsigma2) lecz zrównoważonych wagach (p1=p2), zrekonstruuj składowe przy pomocy funkcji EM, użyj też metody k-średnich
5. Wygeneruj zbiór danych z dwóch składowych o różnych średnich. Zwiększaj wariancję dopóty, dopóki jesteś w stanie zrekonstruować dobrze parametry rozkładu.
Dziś zajmiemy się klastrowaniem. Mamy do dyspozycji dwa rodzaje metod: hierarchiczne (hclust) i typu k-średnich (kmeans i pam z modułu cluster)
0. Przypomnijmy sobie zbiór danych iris z biblioteki class (z poprzednich zajęć)
1. Spróbuj użyć metody kmeans do poklastrowania zbioru obserwacji iris
2. przyjrzyj się metodzie dist i wyznacz kilka macierzy odleglosci dla obserwacji z iris
3. użyj tych macierzy do otrzymania klasteryzacji typu k-medoids(pam z library(clust))
4. Wyznacz różne klasteryzacje hierarchiczne metodą hclust. Wyświetl dendrogram metodą plot(). Zidentyfikuj klastry metodą hclust.rect() lub identify().