Drzewa decyzyjne

Dziś będziemy mówić o drzewach decyzyjnych.

Interesuje nas metoda zachłąnnej konstrukcji drzew decyzyjnych względem optymalizacji “Gini impurity” (tj. w metodzie CART) lub zawartości informacyjnej, tj. w metodach ID3 i C4.5.

Będziemy używać pakietów rpart i C50, które implementuje metody inspirowane odpowiednio metodami CART i C45.

0. Zainstaluj pakiety rpart i C50. wczytaj pakiet MASS.

1. Zastosuj oba pakiety do klasyfikacji obserwacji ze zbioru iris w pakiecie MASS, porównaj uzyskane drzewa.

2. Zastosuj oba pakiety do klasyfikacji obserwacji ze zbioru car.test.frame. porównaj uzyskane drzewa.

3. Zainstaluj pakiet mboost i zastosuj drzewa decyzyjne także do danych ze zbioru bodyfat (data(“bodyfat”, package = “mboost”))

Redukcja wymiaru danych

Dziś będziemy przyglądać się metodom redukcji wymiaru.

Dla przykładu weźmy zbiór danych o ekspresji genów u Drożdży.

Zawiera on dane z pomiaru poziomu mRNA w populacji komórek drożdży pod wpływem różnego rodzaju stresu.

0. Wczytaj dane do macierzy w R

1. Dokonaj analizy PCA funkcjami princomp i svd (obserwacje=geny, warunki=zmienne). Zanalizuj ważność składowych i wyrysuj kilka pierwszych na wykresach 2-wymiarowych.

2. przekształć dane do macierzy odległości (dist()) i zastosuj skalowanie wielowymiarowe do 2-wymiarów (cmdscale()). Wybierz jakąś inną metrykę w funkcji dist i porównaj wyniki. Przyjrzyj się też funkcji isoMDS z pakietu MASS, która dotyczy przypadku macierzy odległości nie spełniających nierówności trójkąta.

3. Zastosuj grupowanie metodą k-means, aby uzyskać kilka (3-4) grupy genów zbliżonych do siebie profliem ekspresji..Użyj pakietu ggplot2 (f. qplot()) do narysowania wykresu 2D i pokoloruj punkty wg. przynależności do grup z k-means.

Mieszanki rozkładów

Dziś spróbujemy swoich sił w modelach związanych z mieszankami rozkładów

Na początek zainstalujmy pakiet mixtools:

install.packages(“mixtools”)
library(“mixtools”)

1. Zapoznaj się ze zbiorem faithful

data(faithful)

summary(faithful)

plot(faithful)

2. Używając funkcji normalmixEM, dopasuj modele mieszane do jednowymiarowych zmiennych eruptions i waiting oraz do ich rozkładu łącznego (mvnormalmixEM).

3. Wygeneruj zbiór danych z rozkładu mieszanego 2 wymiarowego o tych samych wariancjach lecz zróżnicowanych wagach (p1=0.9), zrekonstruuj składowe przy pomocy funkcji EM, użyj też metody k-średnich

4. Wygeneruj zbiór danych z rozkładu mieszanego 2 wymiarowego o różnych wariancjach (sigma1=5xsigma2) lecz zrównoważonych wagach (p1=p2), zrekonstruuj składowe przy pomocy funkcji EM, użyj też metody k-średnich

5. Wygeneruj zbiór danych z dwóch składowych o różnych średnich. Zwiększaj wariancję dopóty, dopóki jesteś w stanie zrekonstruować dobrze parametry rozkładu.