Eksploracja danych

Opis

Rozwój technologii systemów baz danych, hurtowni danych oraz repozytoriów danych, z jednej strony, z drugiej, upowszechnienie systemów informatycznych w najróżniejszych dziedzinach zastosowań, takich jak: administracja, przemysł, bankowość, handel, nauka, itp., wreszcie, powszechność korzystania z sieci WWW, jako globalnego systemu informatycznego, spowodowało nagromadzenie olbrzymich wolumenów danych i informacji. Ta eksplozja gromadzonych i przetwarzanych danych spowodowała, że „toniemy” w gromadzonych danych. Ta powódź danych i potrzeba wydobycia z tych danych użytecznej wiedzy legła u podstaw rozwoju technologii eksploracji danych, obejmującej metody i algorytmy automatycznej analizy i eksploracji danych. Celem wykładu jest zapoznanie studentów z podstawowymi pojęciami, metodami i algorytmami technologii eksploracji danych. Wykład jest ilustrowany licznymi przykładami zastosowań prezentowanych metod i algorytmów, oraz ćwiczeniami laboratoryjnymi.

Sylabus

Autorzy

Kurs został przygotowany przez zespół pracowników Instytutu Informatyki Politechniki Poznańskiej pod kierunkiem prof. dr. hab. inż. Tadeusza Morzego, w składzie:

  • prof. dr hab. inż. Tadeusz Morzy
  • dr inż. Mikołaj Morzy
  • mgr inż. Anna Leśniewska

Wymagania wstępne

  • Podstawowe wiadomości z zakresu systemów baz danych, magazynów danych oraz analizy danych.

Zawartość

Wykłady:

  • Kurs rozpoczyna się wprowadzeniem do tematu eksploracji danych. (2 godz.)Omówione zostały tutaj podstawowe zagadnienia związane z dziedziną eksploracji danych, przedstawiono główne kierunki rozwoju oraz metody eksploracji danych, jak również możliwości zastosowań w świecie rzeczywistym.
  • Drugi moduł kursu poświęcony jest problematyce związanej z odkrywaniem asocjacji. (7 godz.) W ramach tej części kursu zostały przedstawione następujące zagadnienia: wprowadzenie do problematyki odkrywania asocjacji, sformułowanie problemu, typy reguł asocjacyjnych, podstawowe algorytmy odkrywania binarnych reguł asocjacyjnych - algorytm A-Priori oraz algorytm FP-Growth, wielopoziomowe i wielowymiarowe reguły asocjacyjne, korelacje vs asocjacje.
  • Trzeci moduł kursu jest poświęcony odkrywaniu wzorców sekwencji. (4 godz.) Moduł porusza następujące zagadnienia: sformułowanie problemu odkrywania wzorców sekwencji, podstawowe algorytmy - algorytm GSP oraz algorytm PrefixSpan, odkrywanie wzorców sekwencji z ograniczeniami, uogólnione wzorce sekwencji.
  • Czwarty moduł poświęcony jest problematyce klasyfikacji. (6 godz.) W module przedstawiono następujące zagadnienia: sformułowanie problemu klasyfikacji, metody klasyfikacji, kryteria oceny metod klasyfikaji, kryteria podziału - Indeks Gini oraz Zysk Informacyjny, obcinanie drzewa, naiwny klasyfikator Bayes'a, kNN, dokładnośc klasyfikacji.
  • Piąty moduł poświęcony jest tematyce grupowania. (4 godz.) W tej cześci kursu omówione zostały następujące zagadnienia: wprowadzenie do problemu grupowania, klasyfikacja metod grupowania, metody grupowania hierarchicznego, metody grupowania iteracyjno-optymalizacyjne, podstawowe algorytmy grupowania - algorytm k-średnich oraz algorytm k-medoidów.
  • Szósty moduł poświęcony jest eksploracji tekstu. (4 godz.) Omówione zostały tutaj następujące zagadnienia: wprowadzenie do problemu eksploracji tekstu, wyszukiwanie dokumentów, reprezentacje tekstu, ukryte indeksowanie semantyczne SVD, struktury danych.
  • Ostatni moduł porusza tematykę eksploracji sieci Web. (3 godz.) Przedstawiono tutaj zagadnienia związane z klasyfikacją metod, podstawowe algorytmy rankingu stron - algorytm PageRank oraz Hubs&Authorities, eksploracja logów.

Laboratoria:
Laboratorium ma na celu zaznajomienie studentów z nowoczesnymi technologiami eksploracji danych. Głównym zadaniem laboratorium jest ilustracja zagadnień przedstawianych podczas wykładu. W trakcie laboratorium studenci zapoznają się z komercyjnym systemem eksploracji na przykładzie Oracle Data Mining i implementują wybrane algorytmy eksploracji danych przy użyciu języka PL/SQL.

  • Moduł pierwszy poświęcony jest procesowi przygotowaniu danych, które mają zostać poddane procesowi eksploracji. (3 godz.) Omówione zostały tutaj zagadnienia związane z wstępnym przetwarzaniem danych, takie jak dyskretyzacja, normalizacja, identyfikacja osobliwości.
  • Moduł drugi związany jest z dalszym etapem przetwarzania danych i przedstawia dostępne metody określania ważności atrybutów (2 godz.).
  • Moduł trzeci rozpoczyna cykl kursu ilustrujący wykorzystanie metod eksploracji danych. (3 godz.) Przedstawiono tutaj podstawowe metody i algorytmy odkrywania reguł asocjacyjnych.
  • Moduł czwarty poświęcony jest tematyce ekstrakcji cech. (2 godz.) Student zapoznaje się z tematyką odkrywania cech z wykorzystaniem algorytmu Non-Negative Matrix Factorization.
  • Moduł piąty przedstawia problematykę klasyfikacji. (9 godz.) Przedstawiono tutaj następujące techniki klasyfikacji: naiwny klasyfikator Bayesa, adaptatywna sieć Bayesa, indukcja drzew decyzyjnych, algorytm Support Vector Machines.
  • Kolejny moduł prezentuje techniki związane z problematyką analizy skupień. (4 godz.) Przedstawiono tutaj metody grupowania z wykorzystaniem algorytmów k-średnich (k-Means) oraz algorytmu O-Cluster.
  • Moduł siódmy poświęcony jest tematyce regresji oraz wykrywaniu anomalii. (2 godz.) W ramach tego modułu przedstawiono metodę regresji z wykorzystaniem algorytmu One-Class-SVM.
  • Moduł ósmy poświęcony jest problematyce odkrywania osobliwości (ang. outliers). (2 godz.) W ramach laboratorium przeprowadzono ćwiczenie z wykorzystaniem algorytmu SVM.
  • Ostatni moduł przybliża tematykę eksploracji danych tekstowych. (3 godz.) Moduł ten ilustruje w pierwszej części kroki wstępne niezbędne do przetwarzania tekstu w środowisku SQL, oraz za pomocą narzędzia Oracle Data Miner, jak i wykorzystanie narzędzia ODM bezpośrednio do eksploracji danych tekstowych.

Literatura

  • Data Mining: Concepts and Techniques, J. Han, M. Kamber, Morgan Kaufman, 2000
  • Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations, I. H. Witten, E. Frank, Morgan Kaufman, 2000
  • Pricinciples of Data Mining, J. Hand, H. Mannila, P. Smyth, MIT Press, 2001
  • Systemy uczące się, P. Cichosz, WNT, 2000
  • Odkrywanie asocjacji: Algorytmy i struktury danych, T. Morzy, OWN, 2004

Moduły


Wykłady

  1. Wprowadzenie
  2. Odkrywanie asocjacji
  3. Algorytmy odkrywania binarnych reguł asocjacyjnych
  4. Wielopoziomowe i wielowymiarowe reguły asocjacyjne
  5. Odkrywanie wzorców sekwencji
  6. Odkrywanie wzorców sekwencji II
  7. Klasyfikacja I
  8. Klasyfikacja II
  9. Klasyfikacja III
  10. Grupowanie
  11. Grupowanie II
  12. Eksploracja tekstu
  13. Eksploracja tekstu II
  14. Eksploracja sieci Web