Klastrowanie

Dziś zajmiemy się klastrowaniem. Mamy do dyspozycji dwa rodzaje metod: hierarchiczne (hclust) i typu k-średnich (kmeans i pam z modułu cluster)

0. Przypomnijmy sobie zbiór danych iris z biblioteki class (z poprzednich zajęć)

1. Spróbuj użyć metody kmeans do poklastrowania zbioru obserwacji iris

2. przyjrzyj się metodzie dist i wyznacz kilka macierzy odleglosci dla obserwacji z iris

3. użyj tych macierzy do otrzymania klasteryzacji typu k-medoids(pam z library(clust))

4. Wyznacz różne klasteryzacje hierarchiczne metodą hclust. Wyświetl dendrogram  metodą plot(). Zidentyfikuj klastry metodą hclust.rect() lub identify().

 

Klasyfikacja metodą kNN

Dziś będziemy analizować dane o kwiatach z różnych odmian Irysów (pochodzące od R. Fishera).

Zadanie 0.

library(class)

summary(iris)

plot(iris)

Zadanie 1. Spróbujmy poklasyfikować nasze przykłady irysów na podstawie dlugości i szerokości płatków tych kwiatów przy użyciu metody kNN (funkcja knn). Jak dobrze jesteśmy w stanie poklasyfikować te przykłady w zależności od k jeśli chodzi o czułość i specyficzność?

Zadanie 2. Spróbuj użyć  metody knn.cv aby oszacować jakość klasyfikacji w walidacji krzyżowej. Jak oszacowanie jakości zmienia się w zależności od liczności podziału zbioru obserwacji?

Zadanie 3. Przypomnij sobie także metodę lda z pakietu MASS i użyj jej do tego samego zbioru przy użyciu walidacji krzyżowej.