Rozwój technologii systemów baz danych, magazynów danych, sieci komputerowych, automatycznych narzędzi do gromadzenia danych, z jednej strony, z drugiej, upowszechnienie systemów informatycznych związane ze wzrostem świadomości użytkowników i znaczącym spadkiem cen sprzętu komputerowego, zaowocowały nagromadzeniem olbrzymich wolumenów danych przechowywanych w bazach danych, hurtowniach danych i różnego rodzaju repozytoriach danych. Postęp technologiczny w zakresie cyfrowego generowania i gromadzenia informacji doprowadził do przekształcenia się baz danych wielu przedsiębiorstw, urzędów i placówek badawczych w zbiorniki ogromnych ilości danych.
Rozwój sieci Web spowodował, iż stał się on olbrzymią bazą danych przechowującą tera bajty danych. Przykładowo, Alexa internet archiwum: 7-letnie dane, 500 TB, Google - 8 miliardów stron, Yahoo - 20 miliardów stron , IBM WebFountain, 160 TB (2003), Internet archiwum (www.archive.org),~ 300 TB;
Odpowiedzią na potrzebę bardziej zaawansowanej i automatycznej analizy danych przechowywanych w bazach i hutrowniach danych jest technologia Eksploracji Danych (ang. Data Mining).
Możemy wyróżnić trzy typy zapytań do repozytoriów danych w szczególności do systemów baz danych. Są to zapytania operacyjne, zapytania analityczne oparte o model OLAP oraz zapytania eksploracyjne. Typowym zapytaniem operacyjnym do bazy danych będzie: „Ile butelek wina sprzedano w I kwartale 2006 w sklepie Auchan w Poznaniu”? Bardziej zaawansowanym zapytaniem będzie zapytanie analityczne postaci: „Ile sprzedano butelek wina w sieci Auchan na terenie kraju z podziałem na województwa, gatunki win oraz kwartały, w ciągu ostatnich 5 lat?” Analiza danych w magazynie danych, zgodnie z modelem OLAP, jest sterowana całkowicie przez użytkownika. Użytkownik formułuje zapytania i dokonuje analizy danych zawartych w magazynie. Z tego punktu widzenia, OLAP można interpretować jako rozszerzenie standardu SQL o możliwość efektywnego przetwarzania złożonych zapytań zawierających agregaty. Niestety, analiza porównawcza zagregowanych danych, która jest podstawą modelu OLAP, operuje na zbyt szczegółowym poziomie abstrakcji i nie pozwala na formułowanie bardziej ogólnych zapytań.
Jakie inne jeszcze produkty, najczęściej, kupują klienci, którzy kupują wino?
Czym różnią się koszyki klientów kupujących wino i piwo?
W jaki sposób można scharakteryzować klientów kupujących wino?
Czy można dokonać predykcji, że dany klient kupi wino?
Jakie produkty kupują klienci supermarketu najczęściej wraz z winem?
Jakie oddziały supermarketu miały 'anormalną' sprzedaż w pierwszym kwartale 2004 r.?
Czy można przewidzieć przyszłe zachowania klientów?
Czy istnieje korelacja pomiędzy lokalizacją oddziału supermarketu a asortymentem produktów, których sprzedaż jest wyższa od średniej sprzedaży produktów?
Zapytań takich nie moglibyśmy zrealizować przy pomocy SQL czy nawet jego rozszerzeń w postaci zapytań analitycznych.
Rozważając czym jest eksploracja danych należy się również zastanowić czym ona nie jest. Czasami jest błędnie utożsamiana z systemami eksperckimi czy też analizą OLAP (Online Analytical Processing). Analiza danych sterowana zapytaniami (OLAP) zakłada, że użytkownik, po pierwsze, posiada pełną wiedzę o przedmiocie analizy, i, po drugie, potrafi sterować tym procesem. Eksploracja danych umożliwia analizę danych dla problemów, które, ze względu na swój rozmiar, są trudne do przeprowadzenia przez użytkownika, oraz tych problemów, dla których nie dysponujemy pełną wiedzą o przedmiocie analizy, co uniemożliwia sterowanie procesem analizy danych.
Eksploracja danych jest dziedziną informatyki, która integruje szereg dyscyplin badawczych, takich jak: systemy baz danych i hurtownie danych, statystyka, sztuczna inteligencja, obliczenia równoległe, optymalizacja i wizualizacja obliczeń. Powyższa lista dyscyplin nie jest pełna. Eksploracja danych wykorzystuje również szeroko techniki i metody opracowane na gruncie systemów wyszukiwania informacji, analizy danych przestrzennych, rozpoznawania obrazów, przetwarzania sygnałów, technologii Web, grafiki komputerowej, bioinformatyki. Różnorodność i wielość metod eksploracji danych, wywodzących się często z różnych dyscyplin badawczych, utrudnia potencjalnym użytkownikom identyfikację metod, które są najodpowiedniejsze z punktu widzenia ich potrzeb w zakresie analizy danych.
Odkrywanie asocjacji - najszersza klasa metod obejmująca, najogólniej, metody odkrywania interesujących zależności lub korelacji, nazywanych ogólnie asocjacjami, pomiędzy danymi w dużych zbiorach danych. Wynikiem działania metod odkrywania asocjacji są zbiory reguł asocjacyjnych lub wzorców sekwencji opisujących znalezione zależności i/lub korelacje. Klasyfikacja i predykcja - obejmuje metody odkrywania modeli (tak zwanych klasyfikatorów) lub funkcji opisujących zależności pomiędzy zadaną klasyfikacją obiektów a ich charakterystyką. Odkryte modele klasyfikacji są, następnie, wykorzystywane do klasyfikacji nowych obiektów o nieznanej klasyfikacji. Grupowanie (analiza skupień, klastrowanie) - obejmuje metody analizy danych i znajdowania skończonych zbiorów klas obiektów posiadających podobne cechy. Wykrywanie punktów osobliwych - obejmuje metody wykrywania (znajdowania) obiektów osobliwych, które odbiegają od ogólnego modelu danych (klasyfikacja i predykcja) lub modeli klas (analiza skupień). Często, metody wykrywania punktów osobliwych stanowią integralną część innych metod eksploracji danych, na przykład, metod grupowania. Analiza przebiegów czasowych - obejmuje metody analizy przebiegów czasowych w celu znalezienia: trendów, podobieństw, anomalii oraz cykli. Opisy koncepcji/klas - obejmuje metody znajdowania zwięzłych opisów lub podsumowań ogólnych własności klas obiektów. Znajdowane opisy mogą mieć postać reguł charakteryzujących lub reguł dyskryminacyjnych. W tym drugim przypadku, opisują różnice pomiędzy ogólnymi własnościami tak zwanej klasy docelowej (klasy analizowanej) a własnościami tak zwanej klasy (zbioru klas) kontrastującej (klasy porównywanej). Analiza trendów i odchyleń - obejmuje metody analizy danych zmiennych w czasie w celu znalezienia różnic pomiędzy aktualnymi a oczekiwanymi wartościami danych, anomalnych zmian wartości danych w czasie, itp. Eksplorację tekstu oraz Eksplorację WWW .
Przejdziemy obecnie do omówienia niektórych wybranych metod eksploracji danych. Rozpoczniemy od krótkiego omówienia metody klasyfikacji. Klasyfikacja jest metodą analizy danych, której celem jest predykcja wartości określonego atrybutu w oparciu o pewien zbiór danych treningowych. Obejmuje metody odkrywania modeli (tak zwanych klasyfikatorów) lub funkcji opisujących zależności pomiędzy zadaną klasyfikacją obiektów a ich charakterystyką. Odkryte modele klasyfikacji są, następnie, wykorzystywane do klasyfikacji nowych obiektów o nieznanej klasyfikacji.
Innym przykładem może być kurs akcji BPH, który podczas ostatnich trzech sesji wzrósł o 0.5%, 0.9%, 0.1%, na następnej sesji spadnie o 0.5%. Również w nawiązaniu do koszyka zakupów, jeżeli do współwystępowania produktów dołożymy element czasowy będziemy mieli do czynienia z problemem odkrywania wzorców sekwencji następującej postaci. „klienci, którzy kupili farbę emulsyjną, kupią w najbliższym czasie pędzel płaski, a jeszcze później rozpuszczalnik’.
Metoda odkrywania wzorców sekwencji znalazła zastosowanie w wielu dziedzinach: analiza koszyka zakupów, telekomunikacja, medycyna (znajdowanie skutecznej terapii), ubezpieczenia i bankowość, planowanie inwestycji giełdowych, przewidywanie sprzedaży, WWW, itd. W przypadku analizy koszyka zakupów, metodę odkrywania wzorców sekwencji stosuje się w celu znalezienia typowych wzorców zachowań klientów w czasie. Dotyczy to handlu hurtowego lub półhurtowego, gdy potrafimy zidentyfikować pojedynczego klienta i jego koszyk zakupów. W takim przypadku, z każdym rekordem opisującym zakupy pojedynczego klienta jest związana, dodatkowo, informacja o kliencie (identyfikator klienta) i o dacie zakupów (etykieta czasowa rekordu). Na podstawie danych opisujących zakupy danego klienta, uporządkowanych zgodnie z wartościami etykiet czasowych można uzyskać profil klienta i próbować przewidzieć jego zachowanie w czasie.
Kolejną metodą eksploracji danych jest odkrywanie charakterystyk. Metoda ta polega na znajdowaniu zwięzłych opisów (charakterystyk) podanego zbioru danych, czy też znajdowaniu zależności funkcyjnych pomiędzy zmiennymi opisującymi zbiór danych. Przykładem wykorzystania odkrywania charakterystyk może być opis pacjentów chorujących na anginę. Celem jest określanie powszechnych symptomów wskazanej choroby, czyli w przypadku anginy możemy podać następującą charakterystykę ‘pacjenci chorujący na anginę cechują się temperaturą ciała większą niż 37.5C, bólem gardła i osłabieniem organizmu’.
W świecie nauki: odkrywanie nowych obiektów (astronomia), bioinformatyka, przemysł farmaceutyczny, …
W świecie biznesu: reklama, CRM (Customer Relationship Management), inwestycje, finanse, ubezpieczenia, telekomunikacja, …
Web: Przeglądarki (Google), handel elektroniczny – Amazon, eBay, Allegro
Administracja: wykrywanie przestępstw, wykrywanie nadużyć podatkowych, etc.
Handel i marketing: identyfikacja „profilu klienta” dla przewidywania, którzy klienci odpowiedzą na marketing korespondencyjny, wykrywanie schematów zakupów i planowanie lokalizacji artykułów.
Finanse i bankowość: identyfikacja schematów wykorzystywania np. kradzionych kart kredytowych
przewidywanie dochodowości portfela akcji, znajdowanie korelacji wśród wskaźników finansowych.
Telekomunikacja: wykrywanie schematów alarmowych w sieciach telekomunikacyjnych.
Medycy do oceny tarapii itd