Dziś na wykładzie zajmiemy się oceną błędu modeli statystycznych. Zaczniemy od regresji liniowej, ale skupimy się na metodach klasyfikacji. Wprowadzimy pojęcia zbioru treningowego i testowego, poznamy klasyfikator k-najbliższych sąsiadów i zastanowimy się nad kompromisem pomiędzy obciążeniem a wariancją modeli i różnymi metodami repróbkowania.
Slajdy dostępne są tu: część 1. i część 2.
Na laboratorium będziemy testować uczyć się metod klasyfikacji na danych z pakietu ISLR)
Zaczniemy od załadowania danych giełdowych Smarket (library(ISLR))
Zadanie 1. Użyj metody regresji logistycznej (glm(…,family=binomial)), aby przewidzieć czy rynek pójdzie w górę czy w dół (kolumna Direction zbioru Smarket) na podstawie danych z ostatnich kilku dni (Lag1,..,Lag5,Volume). Zbadaj błąd modelu na podstawie danych ze zbioru treningowego oraz przy podziale zbioru danych na treningowy (pierwsze 1000 observacji) i testowy (ostatnie 250 obserwacji).
Zadanie 2. Dokonaj tej samej analizy metodami lda i qda z pakietu MASS, oraz metody knn z pakietu class. Oblicz błędy klasyfikacji dla lda, qda i knn dla różnych wartości k (1,2,3,4,5).
Zadanie 3. Użyj funkcji knn.cv do zbadania klasyfikatorów knn na podstawie zbioru Smarket. Przeanalizuj stabilność oszacowania błędu na podstawie takich re-próbkowanych zbiorów uczących i testowych. ( k= 3, 5, 10).