Author: bartek
WDI Wykład 3 – Funkcje rekurencyjne
WDI – wykład 2
APB – wykład 2.
Wykład 1. z APB
WDI wykład 1.
Etykiety do zadania 2
Witam,
Przypominam, że w czwartek widzimy się na prezentacjach Państwa wyników. Dane nt. rzeczywistych etykiet pacjentów są w tym pliku.
Proszę pamiętać, że nawet najlepszy model nie może dać gwarancji 100% skutecznośći, ale też jeśli komuś wyszła zgodność na poziomie 5%, to warto poszukać błędu w analizach. Jeśli to ktoś zrobi do czwartku, to tym lepiej.
SVMy
SAD -Porównywanie klastrowań i EM
Dziś spróbujemy swoich sił w modelach związanych z mieszankami rozkładów. Slajdy są tu.
Na początek zainstalujmy pakiet mixtools:
install.packages(“mixtools”)
library(“mixtools”)
1. Zapoznaj się ze zbiorem faithful
data(faithful)
summary(faithful)
plot(faithful)
2. Używając funkcji normalmixEM, dopasuj modele mieszane do jednowymiarowych zmiennych eruptions i waiting oraz do ich rozkładu łącznego (mvnormalmixEM).
3. Wygeneruj zbiór danych z rozkładu mieszanego 2 wymiarowego o tych samych wariancjach lecz zróżnicowanych wagach (p1=0.9), zrekonstruuj składowe przy pomocy funkcji EM, użyj też metody k-średnich
4. Wygeneruj zbiór danych z rozkładu mieszanego 2 wymiarowego o różnych wariancjach (sigma1=5xsigma2) lecz zrównoważonych wagach (p1=p2), zrekonstruuj składowe przy pomocy funkcji EM, użyj też metody k-średnich
5. Wygeneruj zbiór danych z dwóch składowych o różnych średnich. Zwiększaj wariancję dopóty, dopóki jesteś w stanie zrekonstruować dobrze parametry rozkładu.
6*. Dla sytuacji, gdzie dobrze rozpoznajesz parametry rozkładów metodami k-średnich i EM, spróbuj estymować zbyt wiele klastrów i porównaj, która z funkcji oceny z wykładu (Rand index, Jaccard index, Variation of Information) najlepiej oddaje rosnącą różnorodność wyników klastrowania.
Wyszukiwanie skupień czyli klastrowania
Dziś druga część rozdziału 10. poświęcona grupowaniu przy pomocy metod k-średnich i hierarchicznej klasteryzacji.
Tekst w książce od str. 385 (rozdz. 10.3). Lab od str. 404 (rozdz. 10.5 par. 2) oraz lab 10.6 (str. 407) dot. ekspresji genów z nowotworów.
Można też spróbować wygenerować sobie zbiór danych, dla którego single linkage jest dobry (np podobny do opisanego tutaj), żeby zobaczyć jak na nim działa k-średnich i single-linkage.
Jeśli ktoś chce poszerzyć swoją wiedzę o inne metody, to można załadować w R pakiet cluster i np. obejrzeć metody pam (partitioning around medoids) lub fanny (fuzzy k-means).