SAD Wykład 7 – ocena błędu klasyfikacji i metody repróbkowania

Dziś na wykładzie zajmiemy się oceną błędu modeli statystycznych. Zaczniemy od regresji liniowej, ale skupimy się na metodach klasyfikacji. Wprowadzimy pojęcia zbioru treningowego i testowego, poznamy klasyfikator k-najbliższych sąsiadów i zastanowimy się nad kompromisem pomiędzy obciążeniem a wariancją modeli i różnymi metodami repróbkowania.

Slajdy dostępne są tu: część 1. i część 2.

Na laboratorium będziemy testować uczyć się metod klasyfikacji na danych z pakietu ISLR)

Zaczniemy od załadowania danych giełdowych Smarket (library(ISLR))

Zadanie 1. Użyj metody regresji logistycznej (glm(…,family=binomial)), aby przewidzieć czy rynek pójdzie w górę czy w dół (kolumna Direction zbioru Smarket) na podstawie danych z ostatnich kilku dni (Lag1,..,Lag5,Volume). Zbadaj błąd modelu na podstawie danych ze zbioru treningowego oraz przy podziale zbioru danych na treningowy (pierwsze 1000 observacji) i testowy (ostatnie 250 obserwacji).

Zadanie 2. Dokonaj tej samej analizy metodami lda i qda z pakietu MASS, oraz metody knn z pakietu class. Oblicz błędy klasyfikacji dla lda, qda i knn dla różnych wartości k (1,2,3,4,5).

Zadanie 3. Użyj funkcji  knn.cv do zbadania klasyfikatorów knn na podstawie zbioru Smarket. Przeanalizuj stabilność oszacowania błędu na podstawie takich re-próbkowanych zbiorów uczących i testowych. ( k= 3, 5, 10).

 

SAD Wykład 6 – regresja logistyczna i analiza dyskryminacyjna

23. kwietnia mówiliśmy o regresji logistycznej i analizie dyskryminacyjnej.

Materiał był na podstawie rozdziału 4. książki “An Introduction to statistical Learning” autorstwa Garetha James’a, Danieli Witten, Trevora Hastie’go i Roberta Tibshirani’ego. Książka dostępna jest również jako PDF, na stronie książki są też wykłady wideo i przykłady w R.

Korzystałem ze slajdów Abbass’a Al Sharif’a dostępnych tu: (część 1 i część 2)

 

SAD – zadanie zaliczeniowe 1 (10 pkt)

Będziemy rozpatrywać dane hipotetycznych pacjentów pobrane z mojej strony www.

Mamy tam wielu pacjentów, i dla każdego pomierzone różne zmienne. W szczególności badano obecność 100 mutacji. Każda mutacja występuje lub nie u każdego z pacjentów. Zakładamy, że ich występowanie jest wzajemnie niezależne od siebie. Mamy pomiary ilościowe wagi, wzrostu i ciśnienia tętniczego (skurczowego i rozkurczowego).  Severity – to dolegliwość badanej choroby: jeśli =0 to pacjent zdrowy, jeśli severity >0, to jest to ilościowa miara dokuczliwości choroby.

Interesuje nas, które z mutacji i które z mierzonych parametrów mogą mieć wpływ na badaną chorobę. W przypadku mutacji wpływ może być jakościowy (posiadanie mutacji zwiększa zapadalność na chorobę) albo ilościowy (jeśli pacjent jest chory i posiada mutację, to dokuczliwość choroby jest inna niż w przypadku braku mutacji). W przypadku parametrów ilościowych podobnie. Np. pacjenci o wyższym wzroście mogą częściej zapadać na chorobę albo mieć inną jej dolegliwość niż pacjenci o niższym wzroście.

1. Znajdź mutacje odpowiadające za powstawanie choroby i wpływające na stopień dolegliwości. Oszacuj statystyczną istotność (p) i współczynnik błędów I rodzaju (FDR).

2. Czy choroba zależy od ilościowych wskaźników (wzrost, waga, cisnienie)? Sprawdź które zmienne mogą mieć związek z występowaniem choroby. Spróbuj określić model liniowy dokuczliwości choroby oparty o dane pacjentów nie zawierający zmiennych nie wpływających na wynik.

Każdy wybiera sobie jeden zbiór danych i zapisuje swój wybór w Doodle. Analizujemy dane najlepiej jak umiemy i odsyłamy skrypt w R użyty do analizy i krótki raport z opisem analizy i  wyciągniętymi wnioskami. Odpowiedzi wysyłamy na adres e-mail wykładowcy z dopiskiem [SAD-1-2015] w temacie.

Termin: do 30. kwietnia 2015.