Zagadnienia do egzaminu

W związku z tym, że mamy dziś ostatni wykład, jest dobra okazja, żeby podsumować jakie zagadnienia mogą pojawić się na egzaminie. Przypominam, że egzamin będzie pisemny i będzie obejmował tematy “teoretyczne” nie ocenione przy okazji zadań zaliczeniowych.

  1. Testowanie hipotez. Należy znać i rozumieć takie pojęcia: hipoteza statystyczna, poziom istotności, p-wartość, test statystyczny, rozkład prawdopodobieństwa, próba losowa.
  2. Poprawki na testowanie wielu hipotez: przede wszystkim trzeba rozumieć dlaczego testowanie wielu hipotez jednocześnie stanowi problem. Należy też wiedzieć jak działa poprawka Bonferroniego i procedura Benjaminiego/Hochberga do liczenia q-wartości (FDR).
  3. t-test, test Fisher’a, analiza wariancji (anova)
  4. Zagadnienie korelacji i regresji: kowariancja, korelacje Pearsona i Spearman’a, regresja liniowa. Należy rozumieć zarówno interpretację geometryczną  (prosta “najbliższa” do punktów z próby) jak i statystyczną (model o minimalnej wariancji). Związek pomiędzy współczynnikiem r Pearsona a liniową regresją. Reszty w regresji liniowej. Regresja do wielu zmiennych.
  5. Analiza dyskryminacyjna: postawienie problemu i metoda LDA.
  6. Klasyfikacja: postawienie problemu i metody: kNN, drzewa decyzyjne i lasy losowe. Metody oceny jakości klasyfikatorów (specyficzność, czułość, krzywe ROC, miara AUC). Walidacja krzyżowa i repróbkowanie.
  7. Klasteryzacja: postawienie problemu i podstawowe metody rozwiązywania – hierarchiczne, k-średnich i k-medoidów. związek z mieszankami rozkładów Gaussowskich.
  8. Zagadnienie redukcji wymiaru danych. Dlaczego duży wymiar danych stanowi problem. Składowe główne: intuicja geometryczna i metody obliczania. Skalowanie wielowymiarowe.

Jeśli chodzi o testy statystyczne, to powinni Państwo umieć odpowiedzieć na następujące pytania nt. wszystkich testów jakie pojawiły się na ćwiczeniach:

  1. Jakie jest typowe zastosowanie testu
  2. jaka jest hipoteza zerowa
  3. jakie są założenia względem rozkładów, z których pochodzą dane

Warunkiem wystarczającym do niezaliczenia egzaminu będzie także wykazanie się brakiem elementarnej wiedzy z rachunku prawdopodobieństwa i statystyki, w szczególności:

  1. Nieznajomość pojęć rozkładu prawdopodobieństwa, zmiennej losowej, wartości oczekiwanej i wariancji (wzory!),
  2. próby losowej, statystyki, hipotezy, testu, poziomu istotności

Leave a Reply

Your email address will not be published. Required fields are marked *