Mamy dane o pacjentach (każdy wybiera sobie ten sam numer co w poprzednim zadaniu). Pacjenci pochodzą z 5 różnych grup: zdrowi i 4 różne grupy chorych. Naszym zadaniem jest:
- zbudować klasyfikator przewidujący czy pacjent jest zdrowy czy chory
- Zudować klasyfikator, przewidujący z której grupy pochodzi dany chory pacjent
- Porównać klasyfikatory używającej jednej z prostych metod (LDA, KNN, lub drzewo decyzyjne) z lasami losowymi. Skuteczność chcemy oceniać przy pomocy krzywej ROC w eksperymencie walidacji krzyżowej lub re-próbkowania
- dokonać predykcji nowych 20 pacjentów (mają oni daną grupę “group-?”)
- Przeanalizować dane metodą składowych głównych i sprawdzić, czy zmienne, które są istotne dla klasyfikacji (w lasach losowych) są też istotne w wyznaczaniu składowych głównych.
Dane obejmują numer pacjenta, jego grupę (healthy, group-(0,1,2,3), lub group-? do predykcji) i 100 różnych pomiarów (np. zazwartości różnych białek w osoczu krwi).
Wyniki w postaci raportu opisującego co Państwu udało się zdziałać proszę przysyłać do mnie (bartek@mimuw.edu.pl) z dopiskiem (SAD-2) w tytule do 7. czerwca. Oprócz raportu prosiłbym o plik tekstowy, który przypisuje pacjentom nieopisanym numer prawdopodobnej grupy.
Ja wtedy opublikuję rzeczywiste etykiety pacjentów o grupach nieznanych (8. czerwca), a Państwo przygotują krótkie prezentacje (max 5 min) o swoich wynikach (już z uwzględnieniem, czy Państwa klasyfikatory działały dobrze, czy źle.
powodzenia!
Czy zakładamy, że group-? oznacza chorego?
Klasyfikatory mamy porównywać dla przewidywania grupy choroby czy wyboru pomiędzy chory/zdrowy?
Nowi pacjenci mogą być chorzy (z dowolnej z wcześniejszych grup) lub zdrowi. Należy ich sklasyfikować do jednej z grup.
gropu-? jest grupą nieznaną, której predykcji masz się podjąć (czy są chorzy czy zdrowi, jeśli chorzy to do jakiej grupy nalerzą).
Klasyfikatory mają być 2 różne:
1. Czy jest chory/zdrowy
2. Chory z grupy 0/1/2/3,
więc podejrzewam, że porównywać, pod względem skuteczności,
Jeśli się mylę to również proszę o wyjaśnienie tego punktu
Kiedy można się spodziewać rzeczywistych etykiet?