dział ??? Technologie OLAP i Data Mining w systemie Linux
Technologie OLAP i Data Mining w systemie Linux Grzegorz Gałęzowski
linux@software.com.pl
Systemy baz danych rozbudowały się znacząco w ciągu ostatnich dwóch dziesięcioleci. Odniosły one sukcesy w niezliczonej liczbie dziedzin współczesnego życia. Gromadzimy więcej i więcej danych, które są zapisywane w bazach danych.
B
azy o rozmiarach terabajtów są już na porządku dziennym. Często przedsiębiorstwo zdobywa i przechowuje różnego rodzaju dane, których nie potrafi wykorzystać. Sukces zależy w dużej mierze od umiejętności wykorzystania posiadanych informacji. Jednak duże zbiory nie podlegają łatwej analizie, szczególnie jeżeli jest ona dokonywana przez administratora. Dlatego też przychodzą nam tutaj z pomocą takie technologie jak OLAP i Data Mining.
OLAP
OLAP w swoim głównym zamierzeniu jest narzędziem nieingerującym w zawartość bazy, ani nie aktualizującym bazy danych. Narzędzia z tej rodziny przetwarzają dane online, znajdujące się w bazach i odpowiadają na zapytania użytkowników. Szeroka gama aplikacji umożliwia analizy ilościowe, jak i dostarcza niezbędnych informacji do analiz jakościowych. Jednak żeby lepiej zrozumieć termin OLAP pomocna będzie nam historia. W 1985 roku powstał termin przetwarzanie transakcji w trybie online (ang. Online Ttransaction Processing). Au-
2
luty 2009
torem tego terminu jest E. F. Codd, który zaproponował 12 kryteriów definiujących bazę danych typu OLTP. Zaproponowana przez niego terminologia została powszechnie zaakceptowana jako standard dla baz danych używanych do zarządzania transakcjami firmy. W 1993 Codd wprowadził kolejny termin przetwarzanie analityczne w trybie online (ang. Online Analytical Processint). Tak jak w poprzednim przypadku, tak i teraz zaproponował 12 kryteriów definiujących bazę typu OLAP. Niestety w tym przypadku jego kryteria nie zostały powszechnie przyjęte. Współcześnie Online Analytical Processing (OLAP) to technologia analizująca duże ilości danych w czasie rzeczywistym. W przeciwieństwie do przetwarzania transakcji na bieżąco (OLTP), które są zaprojektowane tak, aby umożliwić przechowywanie danych operacyjnych w celu skutecznej obsługi transakcji, OLAP zajmuje się przechowywaniem danych w streszczonych tabelach, w celu ułatwienia użytkownikom nawigacji i pobierania danych. System OLAP wykorzystuje technikę Multidimensional Analysis. Podczas gdy relacyjna baza danych gromadzi wszystkie dane w formie kolumn, wielowymiarowy zestaw danych składa się z kostki zawierającej agregacje wstęp-