Uczenie maszynowe w bioinformatyce

Cel przedmiotu

Przedmiot skupia się na omówieniu wybranych metod uczenia maszynowego używanych w bioinformatyce, ze szczególnym uwzględnieniem tych, które znajdują zastosowanie w analizie danych uzyskiwanych z nowoczesnych technik pomiarowych biologii molekularnej: sekwencjonowania nowej generacji, mikromacierzy, ilościowego PCR i spektrometrii mas.

Zaprezentowane zostaną zarówno metody uczenia się bez nadzoru, jak i algorytmy działające w sposób nadzorowany. Istotnym elementem wykładu będą również zagadnienia związane z opisem statystycznym danych, przetwarzaniem wstępnym i redukcją wymiarowości, a także wnioskowaniem o funkcjach badanych biomolekuł.

Konspekt

  1. Wprowadzenie do bioinformatyki. Podstawowe cele bioinformatycznej analizy danych w biologii molekularnej i naukach medycznych.
  2. Podstawowe pojęcia z zakresu biologii molekularnej. Budowa i właściwości biomolekuł (DNA, RNA i białek). Ekspresja genów. Pojęcia genomu, transkryptomu i proteomu. Zdefiniowanie obszarów badań genomiki, transkryptomiki, proteomiki oraz omówienie ich roli w badaniach podstawowych i medycynie.
  3. Wysokowydajne techniki pomiarowe biologii molekularnej (sekwencjonowanie nowej generacji, mikromacierze, ilościowy PCR, spektrometria mas) jako przykładowe źródła danych dla analiz bioinformatycznych. Charakterystyka danych z wielkoskalowych badań biologicznych i omówienie ogólnego schemat ich przetwarzania.
  4. Metody statystycznego opisu i wizualizacji danych o dużej wymiarowości. Przetwarzanie wstępne danych oraz eliminacja wpływu niebiologicznych źródeł zmienności. Redukcja wymiarowości (na przykładzie PCA) i jej znaczenie dla procesu przygotowania danych wejściowych dla algorytmów analizy statystycznej i uczenia się maszyn.
  5. Uczenie się maszyn: definicja i związki z innymi dziedzinami nauki. Rodzaje uczenia się, ze szczególnym uwzględnieniem podziału pod kątem sposobu wykorzystania informacji trenującej: techniki nadzorowane i nienadzorowane, uczenie ze wzmocnieniem. Główne klasy problemów, do rozwiązywania których używa się uczenia maszynowego. Obszary zastosowań metod uczenia się maszyn w bioinformatyce.
  6. Zadanie klasyfikacji. Zdefiniowanie problemu i podstawy teoretyczne. Klasyczne metody statystyczne: gaussowskie klasyfikatory Bayesa (QDA, LDA) i ich naiwne wersje (DQDA, DLDA). Metoda K najbliższych sąsiadów (K-NN) jako przykład prostego klasyfikatora wywodzącego się z obszaru uczenia maszynowego.
  7. Zaawansowane techniki klasyfikacji. Sieci neuronowe MLP (Multi-Layer Perceptron) – architektura, zasada działania i algorytmy uczenia. Metoda wektorów nośnych (Support Vector Machine, SVM).
  8. Rodzaje i właściwości miar jakości klasyfikacji: dokładność, czułość, swoistość i pole pod krzywą ROC. Zdolność do uogólniania i problem nadmiernego dopasowania do zbioru uczącego. Ocena działania klasyfikatorów przy użyciu walidacji krzyżowej. Optymalizacja parametrów klasyfikatorów. Wybór cech maksymalizujących skuteczność klasyfikacji. Wzmacnianie klasyfikatorów.
  9. Analiza skupień – grupowanie próbek i cech za pomocą algorytmów klasteryzacji. Miary niepodobieństwa obiektów opisywanych wektorami cech. Prezentacja różnych podejść do grupowania: algorytmy używające pojęcia centroidu (na przykładzie k-means), metody density-based (Jarvisa Patricka i DBSCAN), aglomeracyjna klasteryzacja hierarchiczna. Zastosowanie w analizie skupień samoorganizujących się sieci neuronowych uczonych przez współzawodnictwo.
  10. Problem selekcji cech. Wyznaczanie grup cech (genów lub białek) o charakterystycznych wzorcach ekspresji przy wykorzystaniu metod redukcji wymiarowości i klasteryzacji. Użycie klasycznych i resamplingowych testów istotności do selekcji cech różnicujących grupy badanych próbek (z uwzględnieniem problemu korekcji pod kątem jednoczesnego testowania wielu hipotez).
  11. Bioinformatyczne bazy danych i analiza funkcjonalna zbiorów genów i białek. Przegląd ogólnodostępnych repozytoriów bioinformatycznych. Wykorzystanie baz danych podczas interpretacji wyników eksperymentów biologicznych.
  12. Podsumowanie i uwagi praktyczne. Jak efektywnie używać wiedzy zdobytej na wykładach w rzeczywistych analizach bioinformatycznych? Jak zamieniać problemy biologiczne lub eksperymentalne na zadania możliwe do rozwiązania metodami uczenia się maszyn? Jak wykorzystać uzyskaną wiedzę poza obszarem bioinformatyki?

Zasady zaliczenia

Ocena końcowa ustalana jest na podstawie sumy punktów uzyskanych z zadania projektowego (0-40 punktów, w tym: 5 za rozmowę wstępną, 35 za projekt i sprawozdanie) oraz egzaminu z zakresu wykładu (0-60 punktów). Dokładne informacje dotyczące organizacji zajęć i zasad zaliczenia znajdują się w poniższym dokumencie.


Ważne daty związane z projektem:

03.03udostępnienie listy projektów
07-11.04rozmowa wstępna (5 punktów)
08.06umieszczenie projektu i sprawozdania w repozytorium (35 punktów)
09-13.06obrony

Prowadzący

dr inż. Tymon Rubel

Zakład Elektroniki Jądrowej i Medycznej
Instytut Radioelektroniki i Technik Multiumedialnych
Politechnika Warszawska

mail: tymon.rubel@pw.edu.pl

telefon: +48 22 234 7739

konsultacje: piątki 14:00 - 16:00 (pok. 5 lub na MS Team po umówieniu się)