Eksploracja danych

Opis

Rozwój technologii systemów baz danych, hurtowni danych oraz repozytoriów danych, z jednej strony, z drugiej, upowszechnienie systemów informatycznych w najróżniejszych dziedzinach zastosowań, takich jak: administracja, przemysł, bankowość, handel, nauka, itp., wreszcie, powszechność korzystania z sieci WWW, jako globalnego systemu informatycznego, spowodowało nagromadzenie olbrzymich wolumenów danych i informacji. Ta eksplozja gromadzonych i przetwarzanych danych spowodowała, że „toniemy” w gromadzonych danych. Ta powódź danych i potrzeba wydobycia z tych danych użytecznej wiedzy legła u podstaw rozwoju technologii eksploracji danych, obejmującej metody i algorytmy automatycznej analizy i eksploracji danych. Celem wykładu jest zapoznanie studentów z podstawowymi pojęciami, metodami i algorytmami technologii eksploracji danych. Wykład jest ilustrowany licznymi przykładami zastosowań prezentowanych metod i algorytmów, oraz ćwiczeniami laboratoryjnymi.

Sylabus

Autorzy

Kurs został przygotowany przez zespół pracowników Instytutu Informatyki Politechniki Poznańskiej pod kierunkiem prof. dr. hab. inż. Tadeusza Morzego, w składzie:

prof. dr hab. inż. Tadeusz Morzy
dr inż. Mikołaj Morzy
mgr inż. Anna Leśniewska

Wymagania wstępne

Podstawowe wiadomości z zakresu systemów baz danych, magazynów danych oraz analizy danych.

Zawartość

Wykłady:

Kurs rozpoczyna się wprowadzeniem do tematu eksploracji danych. (2 godz.)Omówione zostały tutaj podstawowe zagadnienia związane z dziedziną eksploracji danych, przedstawiono główne kierunki rozwoju oraz metody eksploracji danych, jak również możliwości zastosowań w świecie rzeczywistym.
Drugi moduł kursu poświęcony jest problematyce związanej z odkrywaniem asocjacji. (7 godz.) W ramach tej części kursu zostały przedstawione następujące zagadnienia: wprowadzenie do problematyki odkrywania asocjacji, sformułowanie problemu, typy reguł asocjacyjnych, podstawowe algorytmy odkrywania binarnych reguł asocjacyjnych - algorytm A-Priori oraz algorytm FP-Growth, wielopoziomowe i wielowymiarowe reguły asocjacyjne, korelacje vs asocjacje.
Trzeci moduł kursu jest poświęcony odkrywaniu wzorców sekwencji. (4 godz.) Moduł porusza następujące zagadnienia: sformułowanie problemu odkrywania wzorców sekwencji, podstawowe algorytmy - algorytm GSP oraz algorytm PrefixSpan, odkrywanie wzorców sekwencji z ograniczeniami, uogólnione wzorce sekwencji.
Czwarty moduł poświęcony jest problematyce klasyfikacji. (6 godz.) W module przedstawiono następujące zagadnienia: sformułowanie problemu klasyfikacji, metody klasyfikacji, kryteria oceny metod klasyfikaji, kryteria podziału - Indeks Gini oraz Zysk Informacyjny, obcinanie drzewa, naiwny klasyfikator Bayes'a, kNN, dokładnośc klasyfikacji.
Piąty moduł poświęcony jest tematyce grupowania. (4 godz.) W tej cześci kursu omówione zostały następujące zagadnienia: wprowadzenie do problemu grupowania, klasyfikacja metod grupowania, metody grupowania hierarchicznego, metody grupowania iteracyjno-optymalizacyjne, podstawowe algorytmy grupowania - algorytm k-średnich oraz algorytm k-medoidów.
Szósty moduł poświęcony jest eksploracji tekstu. (4 godz.) Omówione zostały tutaj następujące zagadnienia: wprowadzenie do problemu eksploracji tekstu, wyszukiwanie dokumentów, reprezentacje tekstu, ukryte indeksowanie semantyczne SVD, struktury danych.
Ostatni moduł porusza tematykę eksploracji sieci Web. (3 godz.) Przedstawiono tutaj zagadnienia związane z klasyfikacją metod, podstawowe algorytmy rankingu stron - algorytm PageRank oraz Hubs&Authorities, eksploracja logów.

Laboratoria:
Laboratorium ma na celu zaznajomienie studentów z nowoczesnymi technologiami eksploracji danych. Głównym zadaniem laboratorium jest ilustracja zagadnień przedstawianych podczas wykładu. W trakcie laboratorium studenci zapoznają się z komercyjnym systemem eksploracji na przykładzie Oracle Data Mining i implementują wybrane algorytmy eksploracji danych przy użyciu języka PL/SQL.

Moduł pierwszy poświęcony jest procesowi przygotowaniu danych, które mają zostać poddane procesowi eksploracji. (3 godz.) Omówione zostały tutaj zagadnienia związane z wstępnym przetwarzaniem danych, takie jak dyskretyzacja, normalizacja, identyfikacja osobliwości.
Moduł drugi związany jest z dalszym etapem przetwarzania danych i przedstawia dostępne metody określania ważności atrybutów (2 godz.).
Moduł trzeci rozpoczyna cykl kursu ilustrujący wykorzystanie metod eksploracji danych. (3 godz.) Przedstawiono tutaj podstawowe metody i algorytmy odkrywania reguł asocjacyjnych.
Moduł czwarty poświęcony jest tematyce ekstrakcji cech. (2 godz.) Student zapoznaje się z tematyką odkrywania cech z wykorzystaniem algorytmu Non-Negative Matrix Factorization.
Moduł piąty przedstawia problematykę klasyfikacji. (9 godz.) Przedstawiono tutaj następujące techniki klasyfikacji: naiwny klasyfikator Bayesa, adaptatywna sieć Bayesa, indukcja drzew decyzyjnych, algorytm Support Vector Machines.
Kolejny moduł prezentuje techniki związane z problematyką analizy skupień. (4 godz.) Przedstawiono tutaj metody grupowania z wykorzystaniem algorytmów k-średnich (k-Means) oraz algorytmu O-Cluster.
Moduł siódmy poświęcony jest tematyce regresji oraz wykrywaniu anomalii. (2 godz.) W ramach tego modułu przedstawiono metodę regresji z wykorzystaniem algorytmu One-Class-SVM.
Moduł ósmy poświęcony jest problematyce odkrywania osobliwości (ang. outliers). (2 godz.) W ramach laboratorium przeprowadzono ćwiczenie z wykorzystaniem algorytmu SVM.
Ostatni moduł przybliża tematykę eksploracji danych tekstowych. (3 godz.) Moduł ten ilustruje w pierwszej części kroki wstępne niezbędne do przetwarzania tekstu w środowisku SQL, oraz za pomocą narzędzia Oracle Data Miner, jak i wykorzystanie narzędzia ODM bezpośrednio do eksploracji danych tekstowych.

Literatura

Data Mining: Concepts and Techniques, J. Han, M. Kamber, Morgan Kaufman, 2000
Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations, I. H. Witten, E. Frank, Morgan Kaufman, 2000
Pricinciples of Data Mining, J. Hand, H. Mannila, P. Smyth, MIT Press, 2001
Systemy uczące się, P. Cichosz, WNT, 2000
Odkrywanie asocjacji: Algorytmy i struktury danych, T. Morzy, OWN, 2004

Informatyka MIMUW