W związku z tym, że mamy dziś ostatni wykład, jest dobra okazja, żeby podsumować jakie zagadnienia mogą pojawić się na egzaminie. Przypominam, że egzamin będzie pisemny i będzie obejmował tematy “teoretyczne” nie ocenione przy okazji zadań zaliczeniowych.
- Testowanie hipotez. Należy znać i rozumieć takie pojęcia: hipoteza statystyczna, poziom istotności, p-wartość, test statystyczny, rozkład prawdopodobieństwa, próba losowa.
- Poprawki na testowanie wielu hipotez: przede wszystkim trzeba rozumieć dlaczego testowanie wielu hipotez jednocześnie stanowi problem. Należy też wiedzieć jak działa poprawka Bonferroniego i procedura Benjaminiego/Hochberga do liczenia q-wartości (FDR).
- t-test, test Fisher’a, analiza wariancji (anova)
- Zagadnienie korelacji i regresji: kowariancja, korelacje Pearsona i Spearman’a, regresja liniowa. Należy rozumieć zarówno interpretację geometryczną (prosta “najbliższa” do punktów z próby) jak i statystyczną (model o minimalnej wariancji). Związek pomiędzy współczynnikiem r Pearsona a liniową regresją. Reszty w regresji liniowej. Regresja do wielu zmiennych.
- Analiza dyskryminacyjna: postawienie problemu i metoda LDA.
- Klasyfikacja: postawienie problemu i metody: kNN, drzewa decyzyjne i lasy losowe. Metody oceny jakości klasyfikatorów (specyficzność, czułość, krzywe ROC, miara AUC). Walidacja krzyżowa i repróbkowanie.
- Klasteryzacja: postawienie problemu i podstawowe metody rozwiązywania – hierarchiczne, k-średnich i k-medoidów. związek z mieszankami rozkładów Gaussowskich.
- Zagadnienie redukcji wymiaru danych. Dlaczego duży wymiar danych stanowi problem. Składowe główne: intuicja geometryczna i metody obliczania. Skalowanie wielowymiarowe.
Jeśli chodzi o testy statystyczne, to powinni Państwo umieć odpowiedzieć na następujące pytania nt. wszystkich testów jakie pojawiły się na ćwiczeniach:
- Jakie jest typowe zastosowanie testu
- jaka jest hipoteza zerowa
- jakie są założenia względem rozkładów, z których pochodzą dane
Warunkiem wystarczającym do niezaliczenia egzaminu będzie także wykazanie się brakiem elementarnej wiedzy z rachunku prawdopodobieństwa i statystyki, w szczególności:
- Nieznajomość pojęć rozkładu prawdopodobieństwa, zmiennej losowej, wartości oczekiwanej i wariancji (wzory!),
- próby losowej, statystyki, hipotezy, testu, poziomu istotności