Hurtownie danych. OLAP. Business Intelligence

download Hurtownie danych. OLAP. Business Intelligence

of 102

description

Niniejsza praca dotyczy tematyki hurtowni danych w Business Intelligence; zawiera przeglad technologii i narzedzi Business Intelligence. Przedstawiony został proces wdrozenia przykładowego, choc niekompletnego srodowiska Business Intelligence przy pomocy darmowego produktu - platformy Pentaho BI.

Transcript of Hurtownie danych. OLAP. Business Intelligence

Akademia Grniczo-Hutnicza im. St. Staszica w KrakowieWydzia Elektrotechniki, Automatyki, Informatyki i Elektroniki Katedra Automatyki

Zaawansowane Technologie Bazodanowe - projekt

Hurtownie danych. OLAP. Business Intelligence

Katarzyna GruszczyskaInformatyka Stosowana studia dzienne II-stopnia, rok I, semestr I

Krakw, 2008

...

Streszczenie Niniejsza praca dotyczy tematyki hurtowni danych osadzonych w kontekcie rodowisk Business Intelligence. Technologia Business Intelligence suy wspomaganiu podejmowania decyzji. Hurtownia danych jest specycznym systemem bazy danych wykorzystywanym w srodowiskach BI Rozdzia pierwszy zawiera omwienie zagadnienia Business Intelligence, etapw technicznej implementacji systemu BI, opis architektur, elementw, zada rodowisk Business Intelligence oraz ekonomiczne aspekty wdroenia. Kolejny rozdzia zawiera wprowadzenie do tematyki hurtowni danych, zasad, metod projektowania hurtowni danych ze zwrceniem uwagi na podstawowe wzorce projektowe m.in. schemat gwiazdy oraz aspekty techniczne wdrozenia. W dalszej czci pracy przedstawiono istniejace rozwizania BI oraz korzyci z wdraania tej technologii i hurtowni danych. Dokonano porwnania operacyjnych baz danych przetwarzania transakcyjnego OLTP i baz OLAP przetwarzania analitycznego. Poruszono kwesti oprogramowania suacego do zasilania hurtowni danych informacjami z systemw rdowych nazywanego ETL oraz dokonano krtkiego porwnania dostpnych narzdzi ETL oraz narzdzi dla uytkownikw kocowych do przegldania hurtowni danych: OLAP i eksploracji danych. W czi praktycznej zostanie omwiony proces wdraania hurtowni danych, technologii BI w przedsibiorstwie. Zostanie przedstawione przykadowe wdroenie rodowiska BI na przykadowej hurtowni danych przy uyciu narzdzi Pentaho. Na potrzeby niniejszego projektu zostaa zaprojektowana i utworzona operacyjna baza danych w Microsoft Access. Zaprojektowano oraz wdroono hurtowni danych na serwerze PostgreSQL. Rozwizano kwesti integracji danych, zasilania hurtowni danych i harmonogramowania wykonywania zasile za pomoc aplikacji Pentaho Data Integration stanowicego implementacj narzdzia ELT (Extraction Tranformation Loading). Wykonano niezbdne prace konguracyjne aplikacji Pentaho oraz serwera JBoss wymagane do tworzenia analiz danych zawartych w hurtowni oraz raportw. Wprowadzono przykadowe, kcyjne dane do hurtowni, zrealizowano analiz wielowymiarow i wykonano raport na tyche danych.

Spis treciI Analiza teoretyczna. .

34 4 5

1 Business Intelligence 1.1 Informacje oglne . . . . . . . . . . . . . . . . . . . . . . . . 1.1.1 Architektura systemu hurtowni danych . . . . . . . . 1.1.2 Kwestia adowania zgromadzonych danych do centralnej hurtowni danych . . . . . . . . . . . . . . . . . . 1.1.3 Techniczna implementacja systemu BI: . . . . . . . . 1.2 Business Intelligence 2.0 . . . . . . . . . . . . . . . . . . . . 2 Hurtownie danych 2.1 Wprowadzenie . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.1 SZBD w hurtowni danych . . . . . . . . . . . . . . . 2.1.2 Skadnice danych . . . . . . . . . . . . . . . . . . . . 2.1.3 Problemy zwizane z tworzeniem i zarzdzaniem hurtowni danych . . . . . . . . . . . . . . . . . . . . . . 2.2 Projektowanie hurtowni danych . . . . . . . . . . . . . . . . 2.3 OLTP vs. OLAP . . . . . . . . . . . . . . . . . . . . . . . .

. 7 . 10 . 10 12 . 12 . 16 . 17 . 18 . 19 . 21 27 27 30 31 32 32 34 37 39 41

3 Proces ETL - zasilanie hurtowni danych 3.1 Informacje oglne . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Narzdzia ETL . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3 Porwnanie dostpnych narzdzi . . . . . . . . . . . . . . . . . 4 Technologie i narzdzia dostpowe 4.1 Technologia i OLAP . . . . . . . . . . . . . . . . . . 4.1.1 Model OLAP . . . . . . . . . . . . . . . . . . 4.1.2 Reprezentacje wielowymiarowej kostki danych 4.1.3 Narzdzia OLAP . . . . . . . . . . . . . . . . 4.2 Eksploracja danych . . . . . . . . . . . . . . . . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

1

SPIS TRECI 5 Istniejce rozwizania Business 5.1 Microsoft SQL Server 2005 . . 5.2 Sybase . . . . . . . . . . . . . 5.3 SAS System . . . . . . . . . . 5.4 IBM . . . . . . . . . . . . . . 5.5 Bizgres . . . . . . . . . . . . . 5.6 Oracle . . . . . . . . . . . . . 5.7 SpagoBI . . . . . . . . . . . . 5.8 Pentaho Open BI Suite . . . . Intelligence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2 48 50 52 53 54 55 57 58 60 67

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

6 Korzyci z wdraania technologii Business Intelligence

II

Implemetacja praktyczna

69

7 Przygotowania do wdroenia 70 7.1 Baza operacyjna i hurtownia danych . . . . . . . . . . . . . . 70 8 Wdroenie platformy Pentaho BI 8.1 Instalacja Pentaho BI . . . . . . . . . . . . . . . . . . . . . . 8.2 Spoon - Pentaho Data Integration (Kettle) . . . . . . . . . . 8.2.1 Transformations . . . . . . . . . . . . . . . . . . . . . 8.2.2 Jobs . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.3 Tworzenie analiz - Mondrian Schema Workbench . . . . . . 8.3.1 Tworzenie prostego schematu . . . . . . . . . . . . . 8.3.2 Publikowanie Analysis Schema na platformie Pentaho BI . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.4 Konguracja rde danych JNDI . . . . . . . . . . . . . . . 8.4.1 Instalacja sterownika bazy danych . . . . . . . . . . . 8.4.2 Konguracja JNDI . . . . . . . . . . . . . . . . . . . 8.5 Tworzenie nowego widoku analiz (Analysis View) . . . . . . 8.6 Tworzenie raportw - Pentaho Report Design Wizard . . . . 72 72 74 74 82 82 84 86 86 87 87 88 89

. . . . . . . . . . . .

Cz I Analiza teoretyczna

3

Rozdzia 1 Business IntelligenceRozdzia zawiera informacje oglne dotyczce Business Intelligence. Pokrtce omwiono zagadnienie Business Intelligence 2.0.

1.1

Informacje oglne

Business Intelligence jest pojciem bardzo szerokim. Najbardziej oglnie mona przedstawi je jako proces przeksztacania danych w informacje, a informacji w wiedz, ktra moe by wykorzystana do zwikszenia konkurencyjnoci przedsibiorstwa.1

Business Intelligence jest wzgldnie mod technologi informatyczn; pojawila si praktycznie kilka lat temu. W chwili obecnej nie istnieje dobre tumaczenie powyszego terminu na jzyk polski, dlatego w nauce i w przemyle funkcjonuje angielsko brzmicy termin Business Intelligence. Z uwagi na fakt, i przedsibiorstwa chc walczy w ramach dziaa konkurencyjnych, by uzyskiwa przewag nad konkurentami, zarzdzajcy nimi ludzie musz posiada wiedz o rynku i zachowaniu klientw. Jednake taka wiedza okazuje si niewystarczajca, gdy zdobycie przewagi nad konkurentem posiadajc tylko powysza wiedz jest bardzo trudne. Naley zatem wiedz menadersk rozszerza w oparciu o obserwacje zachowania sie rynku lokalnego i o obserwacje dokona, sukcesw oraz poraek wasnej rmy. Wnioskujc z historii jej dziaalnoci uczy si na bdach popenianych w przeszoci przez menaderw. Zatem ujmujc oglnie powysze stwierdzenia mona wycign wniosek, i technologia BI pomaga wzbogaca wiedz menadersk.1

Cytat z: http:\\pl.wikipedia.org\wiki\Business intelligence

4

ROZDZIA 1. BUSINESS INTELLIGENCE

5

Business Intelligence jest to technologia suca wspomaganiu manederw, decydentw w podejmowaniu decyzji biznesowych, ktra ma opiera sie na historii dziaania przedsibiorstwa. Technolgia BI stawia sobie za cel przeksztacanie danych zgromadzoych w ramach przeszej dziaalnoi rmy w informacje, a informacje w wiedz o charakterze menaderskim. Odbiorcami technlogii BI s menaderowie, pracownicy szczebla kierowniczego, osoby decyduje o planach, strategiach, promocjach rm. BI stwarza bardzo drastyczne wymagania wydajnociowe dla sprztu i oprogramowania ze wzgldu na konieczno przetwarzania danych ogromnych rozmiarw. Stosownane s proste zapytania operujce na danych mierzonych w setkach terabajtw. Wdroenie BI jest wyzwaniem o charakterze implementacyjno-administracyjo-wydajnociowym. Rozwizania Business Intelligence powoli staj si nieodzownym elementem rodowiska informatycznego wielu rm; maj umoliwiac konstruowanie wiedzy o charakterze manederskim, ktora powstaje w wyniku obserwacji przeszej dziaalnoci przedsiebiorstwa. Centralnym punktem BI jest hurtownia danych. Technologia BI jest skupiona wok zagadnie hurtowni danych. Aplikacje BI (gracznie reprezentujce dane na przykad w postaci tabel, wykresw) uatwiaj ledzenie historii dziaania przedsibiorstwa i wywodzenie na jej podstawie pewnych regu wspomagajcych zarzdzanie przedsibiorstwem, formulowanie hipotez i ich werykowanie, rozpoznawanie trendw sprzedazy itp. Aplikacje pojawiajce sie w rodowiskach BI dostarczaj raportw biznesowych informujcych, na przyklad o sumach zyskw w rnych okresach caasowych, w rnych kategoriach, podkategoriach produktw w oparcu o dane gromadzone przez przdsibiorstwo w rnych lokalizacjach na wiecie za pomoc rnych lokalnych systemw informatycznych, w ktrych dane reprezentowane s w rnych sposb, w rych formatach. Technologi BI najbardziej zainteresowane s przedsibiorstwa globalne, w ktrych nie istnieje pojedyncza baza danych przechowujca informacje o penej sprzedazy lub usugach realizowanych w liach, sklepach w rozlegych czciach wiata zwykle tego typu informacje gromadzone s wielu bazach danych i rozproszonych systemach informatycznych.

1.1.1

Architektura systemu hurtowni danych

Kluczowy skadnik BI stanowi korporacyjna hurtownia danych (Enterprise Data Warehouse) - rodzaj systemu bazy danych, w ktrym groma-

ROZDZIA 1. BUSINESS INTELLIGENCE

6

Rysunek 1.1: Architektura systemu hurtowni danych. rdo ilustracji: http:\\ www.datawarehouse4u.info\images\data warehouse architecture.jpg dzone s wszystkie informacje potrzebne pracownikowi szczebla kierowniczego do generownaia raportw biznesowych. Rola korporacyjnej hurtowni danych ksztatuje si nastpujco: dane pochodzce z systemw rdowych (operacyjne bazy danyh - bazy danych wykorzystywane w dzialalnoci operacyjnej w oddziaach przedsibiorstwa; systemy starszej generacji wykorzystywane w dziaalnoci operacyjnej w rozproszonych oddziaach przedsiebiorstwa; pliki zewntrzne produkowane przez aplikacje wykorzystywane w dziaalnoci operacyjnej wybranych oddziaw) s powielane do jednego miejsca - korporacyjnej hurtowni danych - mona powiedzie, e jest to baza danych, ktra jest replik baz danych, zbiorw danych wystpujacych w lokalizacjach rdowych; jest to replika w sensie powielania wybranych danych zwizanych z tymi elementami dziaaloci biznesowych, ktre maj podlega raportownaiu biznesowemu. Nie pobierane s infomacje dotyczce danych osobowych pracownikw, o urlopach, katalogii produktw itp. tylko dane majce podlega docelowo wykorzystywaniu przez decydenta uytkujcego aplikacje raportowania biznesowego. Powielanie danych suy umieszczeniu ich w jednym miejscu. Naley gromadzi dane w perspekywie historycznej z punktu widzenia BI by nie tracic danych historycznych, gdy dla decydenta mozliwo obserwacji trendw w szerokiej perspektywie jest bardzo cenna.

ROZDZIA 1. BUSINESS INTELLIGENCE

7

Realizacja rodowisk BI zwykle oznacza konieczno skonstruowania systemu bazy danych nazywanego korporacyjn hurtownia danych. System ten podlega na projektowniu prowadzonym na podobnych zasadach jak klasycznych systemow baz danych, aczkolwiek zaproponowano szereg wzorcow projektowych, ktre uatwiaj podejcie analityka, projektanta do tego problemu.

1.1.2

Kwestia adowania zgromadzonych danych do centralnej hurtowni danych

Wizualizacja danych nie jest problematyczna. Prawdziwym wyzwaniem stawianym przed BI jest zintegrowanie, przetworzenie, zgrupowanie danych pozyskanych z rnych rdowych systemw. Wiele rm globalnych, poprzez budowanie fuzji z innymi rmami posiada systemy informatyczne heterogenicze tzn. wykorzystujce rne systemy komputerowe pochodzce od rnych dostawcw, tworzone w odmiennych technologach w innych czasie. Dane czsto s take rozproszone geogracznie. Dane musz by przenoszone z sytemw dziaalnoci operacyjnej do rodowiska hurtowni danych, centralnej bazy danych. Dane gromadzone w systemach rowych s pokanych rozmiarw, zatem ich przesanie sieciami komputerowymi do centralnej hurtowni danych moe stanowi wyzwanie natury organizacyjnej, infrastrukturalnej. Z uwagi na fakt, i dane mog mie inna struktur niezbdna moe okaza si konwersja struktur danych, aeby dopasowa je do siebie take w przypadku braku danych lub przekama. Kiedy dane zostan zgromadzone w centralnej hurtowni mog z nich korzysta aplikacje analityczne, zwykle graczne - daj moliwo analizowania zawartoci hurtowni danych, operuj bezposrednio na hurtowni na strukturach, ktre w niej si znajduj i wizualizuja jej zawarto w sposb w sposob interakcyjny mozliwosc wnikania w sprzedaz w skali roku, kwartalu, miesiaca w kategorie produktw, podkategorie itp. Kwestia adowania, zasilania hurtowni danymi z systemow operacyjnych zwykle powoduje wzmoone obcienie tych systemw dlatego unika sie wykonywania tego typu operacji podczas normalnego dnia pracy; dane pobierane s kiedy uytkownicy tych systemw s nieaktywni w zwizku z czym pobieranie danych nastpuje periodycznie np. w okresach nocnych, raz w tygodniu podczas weekendu, raz w miesiacu podczas przerwy technicznej. Praca decydenta korzystajacego z aplikacji analitycznych odbywa si w dowolnym momencie, w godzinach pracy decydenta i polega na korzystaniu

ROZDZIA 1. BUSINESS INTELLIGENCE

8

Rysunek 1.2: Architektura koncepcyjna BI. http:\\ articles.techrepublic.com. z aplikacji anlitycznej powodujc wzmoone obcienie systemu korporacyjnej hurtowni danych. Dlatego te rodowisko korporacyjnej hurtowni danych funkcjonowao na odrbnym, dedykowanym sprzecie. W praktyce czsto stosowane s modele bardziej zozone - jednym z nich jest model rodowiska BI z obszarem skladowania. Rnica pomidzy tymi dwiema architekturami polega m.in. pojawieniu si dodatkowego komponentu - wyznaczonego fragmentu pamici masowej, ktry suy do tymczasowego przechowywania danych pobieranych z systemw rdowych. Dane pochodzace z systemow rdowych s najpierw umieszczane w tymczasowym obszarze skadowania - dysku, bazie danych - nastpnie z tego miejsca przekazywane do korporacyjnej hurtowni danych. Dane s czytane, trasformowane do postaci docelowej i dopiero wtedy zapisywane w hurtowni danych. Tego typu rozudowa ma suy przyspieszeniu ekstrahowania danych z systemw rdowych. Zasilanie hurtowni danych jest procesem zoonym (obliczeniowo) z punktu widzenia kosztu przetwarzania, co oznacza ze moe

ROZDZIA 1. BUSINESS INTELLIGENCE

9

si okaza i czas zasilania hurtowni danych jest na tyle dugi, e nie moliwe jest zaadowanie danych np. w cigu jednej nocy i zakoczenie tego procesu przed rozpoczciem dnia pracy uytkownikw baz operacyjnych. W czasie nastpnego dnia pracy dane przenoszone s z tego z obszaru skadowania do korporacyjnej hurtowani danych nie zakcajac pracy systemw rdowych. Istnieje take model rodowiska BI ze skadnicami danych zwanych oddziaowymi skadnicami danych. Klasyczna korporacyjna hurtowania danych gromadzi informacje na temat najwaniejszych nurtw dziaalnosci przedsibiorstwa. Uytkownicy szczebla kierowniczego zwykle nie sa zainteresowani jednoczenie wszystkimi nurtami dziaalnoci, ale uytkownicy podzieleni s jeli chodzi o zakres ich zinteresowa i wykorzystania zawartoci hurtowni danych. Problemy wydajnociowe pojawiaj si jeli wielu uytkownikw operuje na tej samej hurtowni danych, wpywa na pogorszenie komfortu ich pracy. Rozwiazaniem kwestii wydajnociowych jest replikacja zawartoci korporacyjnej hurtowni danych do mniejszych hurtowni danych - skadnic danych (data marts). Oddziaowa skadnica danych to mini hurtownia danych, gromadzca wycinek zawaroci korporacyjnej hurtowni danych, ktrym zainteresowany jest decydent.

Rysunek 1.3: System BI ze skadnicami danych (data marts).

ROZDZIA 1. BUSINESS INTELLIGENCE

10

1.1.3

Techniczna implementacja systemu BI:

Etapy technicznej implementacji systemu BI: analiza wymaga Na tym etapie okrelane s cele jakie klienci, uytkownicy chc osigac, co chca analizowac, jakie cele biznesowe beda realizone za pomoca technologii Business Intelligence. Dokonywany jest wybr obszarw wiedzy dla ktrych bda gromadzone dane w hurtowni danych projekt logiczny hurtowni danych Projektowana jest kostka, okreslane s osie ukladu wsprzednych stanowice wymiary, fakty i miary; projektowane s wielowymiarowe struktury logiczne. implementacja struktur zycznych hurtowni danych Projektowana jest struktura zyczna bazy danych np. relacje, zaprojektowana kostka staje sie zbiorem relacji w bazie relacyjnej. implementacja oprogramowania ETL realizacja aplikacji analitycznych Implemetuje si aplikacje analityczne, tworzy programy komputerowe wyposaone w bogaty GUI, za pomoca ktrego odbiorca, uytkownik, analityk bdzie prowadzil raportowanie biznesowe. strojenie hurtowni danych Kongurowany jest system, aby jego wydajnoc bya zadowalajaca; procedury te nazywane s procedurami strojenia wydajnosci; nastpuje m.in. dobr parametrow konguracyjnych, struktur przechowywania danych, indeksowanie danych itp. [ZPWI07]

1.2

Business Intelligence 2.0

Rozwizania BI s bardzo popularne, przynajmniej w niektrych rejonach wiata i sama technologia jest na znacznym etapie rozwoju. Stosuje si Business Intelligence 2.0. Zalet i najwaniejsz cech BI 2.0 jest, i wszystkie raporty pokazuj sytuacj w czasie rzeczywistym (real-time), a nie z opnieniem jak w przypadku BI 1.0, kiedy to raporty oraz analizy dostpne s dopiero po jakim czasie, potrzebnym na odpowiednie przetworzenie danych w hurtowniach.

ROZDZIA 1. BUSINESS INTELLIGENCE

11

BI 2.0 oparte jest na zdarzeniach (event-driven), dziki czemu mona szybko i precyzyjnie reagowa na wydarzenia zachodzce w biznesie, w szczeglnoci wczenie wykrywa sytuacje krytyczne (tzw. Early Warning System) i zapobiega ich negatywnym nastpstwom. BI 2.0 automatyzuje cz analizy wystpujcych zdarze, dziki czemu w praktyce mona zrzuci odpowiedzialno za interpretacj prostych danych na system. Przykadem moe by porwnanie wartoci otrzymanych podczas wystpienia konkretnego zdarzenia do tych oczekiwanych na podstawie historii. Jeeli chodzi o stron techniczn, to najczciej BI 2.0 oparte jest o SOA (Service Oriented Architecture), co pozwala na atwe czenie systemu z aplikacjami zewntrznymi.

Rozdzia 2 Hurtownie danychNiniejszy rozdzia zawiera wprowadzenie do tematyki hurtowni danych, porusza zagadnienia projektowania oraz aspekty techniczne wdroenia hurtowni danych. Dokonano porwnania systemw OLTP i OLAP.

2.1

Wprowadzenie

Hurtownia danych stanowi kluczowy element rodowisk Business Intelligence. Jedna z pierwszych denicji hurtowni danych pojawia sie w pracy naukowej Williama H. Inmonna zwanego ojcem hurtowni danych w roku 1996. W najbardziej zwizej postaci brzmi nastpujco: Hurtownia danych to tematyczna baza danych, ktra trwale przechowuje zintegrowane dane opisane wymiarem czasu. Wyjanienie i rozwinicie poj w denicji: tematyczna - dane dotycz gwnych obszarw dziaalnoci przedsibiorstwa; zwiazana z wybranymi zagadnieniami hurtownia danych nie gromadzi wszystkich informacji o dziaalnosci przedsibiorstwa jest z gry okrelone, ktre tematy dziaaloci rmy bd podlega analizie biznesowej i dla ktrych nalezy przygotowa w hurtowni danych odpowiedni zbir danych w postaci danych historycznych; trwale przechowuje - dane nie s zmieniane ani usuwane; hurtownia ma charakter przyrostowy; oznacza, e hurtownie danych nigdy nie pozbywaja sie danych, nieprzerwalnie rosn. W przypadku doskonaym gromadz 100% historii dziaalnoci przedsibiorstwa w tematycznie

12

ROZDZIA 2. HURTOWNIE DANYCH

13

wybranych obszarach w hurtowni danych; hurtownie danych przeprowadzaj wycznie operacje wprowadzania i odczytu danych nie realizujc operacji usuwania i modykowania; zintegrowane dane - dane dotyczce tego samego podmiotu stanowi cao; fakty wygenerowane w dwch systemach (rnych oddziaach rmy) to fakty wygenerowane przez t sam jednostk, ten sam byt; dane pochodzce z wielu heterogenicznych rode musz zosta poaczone; opisane wymiarem czasu - dane opisuj zdarzenia historyczne, a nie tylko stan aktualny. Niezwykle wane jest, aby kada informacja bya oznakowana czasowo tzn. kazdy fakt np. sprzeday mia zwizany z nim znacznik czasowy - dat zaistnienia faktu; hurownie wykorzystywane s do obserwacji tredw w wymiarze czasu; czsto danych czasowych brakuje z systemach rdowych i uzupenia si je podczas procesu zasilania hurtowni o punkty czasowego wystapienia zjawisk. Relacyjne systemy zarzdzania baz danych zostay zaprojektowane do wydajnej obsugi duej liczby transakcji przy zaoeniu, e pojedyncze transakcje dokonuj na og niewielkich zmian w danych operacyjnych organizacji - w danych, ktrych organizacja uywa do wykonywania codziennych zada. Natomiast hurtownie danych powstay w celu sprawniejszej realizacji analiz dziaalnoci organizacji, wystpujcych trendw i danych; dostarczaj przede wszystkim narzdzi do zarzdzania magazynem danych. Hurtownia danych moe by wykorzystywana jako gwny element systemu wspomagajcego zarzdzanie rm. Pozwala ona systematyzowa i gromadzi informacje w jednym miejscu, dziki czemu z danych mona wydoby szczeglny rodzaj informacji okrelany mianem wiedzy i dokonywa analizy. Hurtownia danych uywa przetwarzania OLAP do przedstawienia uytkownikom danych w postaci wielowymiarowych widokw, ktre mog by dla trzech wymiarw wizualnie reprezentowane w postaci kostki. Ostatecznym zadaniem hurtowni danych jest integracja danych korporacyjnych z caego przedsibiorstwa w pojedynczym repozytorium, do ktrego uytkownicy mog atwo zadawa pytania, tworzy raporty i wykonywa analizy. Podsumowujc - do zada hurtowni danych naley zarzdzanie danymi i ich analiza. Hurtownie danych WWW - rozproszone hurtownie danych, ktre zaimplementowane s w sieci WWW bez centralnego repozytorium danych. Stosowane w celu gromadzenia w analizy danych pochodzcych ze strumieni

ROZDZIA 2. HURTOWNIE DANYCH

14

klikni (ang. clickstream), czyli danych behawioralnie generowanych w wyniku interakcji uytkownikw przy pomocy przegldarek WWW z serwisami WWW. Gwnymi skadnikami hurtowni danych s: rda danych operacyjnych, operacyjny magazyn danych, zarzdca wprowadzania danych, zarzdca hurtowni, zarzdca zapyta, szczegowe oraz lekko i mocno skumulowane dane, dane archiwalne i kopie zapasowe, matadane oraz narzdzia dostpowe dla uytkownikw. Dane operacyjne to dane dostarczane do hurtowni; rdami danych operacyjnych mog by: - Dane operacyjne komputera centralnego przechowywane w bazach danych pierwszej generacji, - Dane wydziaowe przechowywane w rmowych systemach plikw, - Dane prywatne, - Zewntrzne systemy, - Bazy danych komercyjne lub powizane z dostawcami, klientami organizacji. Operacyjny magazyn danych (ODS, ang. operational datastore) - to miejsce przechowywania biecych i zintegrowanych danych operacyjnych uywanych do analizy; ma czsto podobn struktur i przejmuje dane w sposb analogiczny do hurtowni danych; moe by etapem porednim przy przenoszeniu danych do hurtowni. Zarzdca wprowadzania danych - wykonuje wszystkie operacje zwizane z pobieraniem danych i ich wprowadzaniem do hurtowni oraz proste transformacje danych przystosowujce dane do wprowadzenia do hurtowni. Zarzdca hurtowni - wykonuje wszystkie operacje zwizane z zarzdzaniem danymi w hurtowni; jest konstruowany przy uyciu komercyjnych narzdzi i odpowiednich programw. Zarzdca zapyta - wykonuje wszystkie operacje zwizane z zarzdzaniem zapytaniami uytkownikw m.in. kierowanie zapyta do tabel, szeregowanie wykona zapyta. Szczegowe dane - fragment hurtowni zapisujcy szczegowe dane w schemacie bazy danych, zwykle nieprzechowywane bezporednio, lecz udostpniane przez agregacje danych na nastpnym poziomie szczegowoci. Zagregowane dane s uzupeniane nowymi danymi szczegowymi w regularnych odstpach czasu. Lekko i mocno skumulowane dane - fragment hurtowni danych, zapisujcy wszystkie predeniowane, lekko i mocno skumulowane (zagregowane) dane generowane przez zarzdc hurtowni. Ten fragment hurtowni ma nietrway charakter, poniewa jest cigle modykowany, co wynika ze zmieniajcych si proli zapyta. Dane skumulowane s generowane na podstawie

ROZDZIA 2. HURTOWNIE DANYCH

15

danych szczegowych.Celem kumulacji danych jest przyspieszenie wykonywania zapyta. Skumulowane dane s aktualizowane w sposb cigy, gdy tylko nowe dane wprowadzone zostan do hurtowni. Dane archiwalne i kopie zapasowe - fragment hurtowni zapisujcy szczegowe i skumulowane dane do archiwum i kopii zapasowych. Metadane - fragment hurtowni danych przechowujcy wszystkie denicje metadanych uywanych przez wszystkie procesy w hurtowni. Struktura metadanych jest rna dla kadego procesu. Metadane s wykorzystywane do odwzorowania rde danych na wsplny model danych przyjty w hurtowni, do automatyzacji czynnoci tworzenia tabel skumulowanych oraz przy kierowaniu zapyta do najbardziej odpowiedniego rda danych. Narzdzia dostpowe dla uytkownikw korzystaj z metadanych w celu objanienia sposobu konstruowania zapytania. Zarzdzanie metadanymi, ktre s uywane do rnych celw to wyjtkowo trudne i bardzo zoone zadanie i stanowi zasadnicz kwesti przy penej integracji hurtowni danych. Jednym z gwnych zagadnie integracji danych jest opracowanie metod synchronizacji rnego rodzaju metadanych w ramach hurtowni. Rne narzdzia hurtowni danych generuj i wykorzystuj wasne metadane jednake zgodnie z wymogiem penej integracji powinny one wsplnie wykorzystywa metadane. Wynika std, e niezbdna jest synchronizacj metadanych pomidzy produktami pochodzcymi od rnych producentw i uywajcymi odmiennych systemw pamitania metadanych. Faktem jest, i nie da si unikn integracji metadanych. Istnieje standard pozwalajcy na swobodn wymian metadanych - CWM (Common Warehouse Model) budowany na bazie standardw UML, XMI, MOF, OIM. Podstawowym zadaniem hurtowni danych jest zarzdzanie picioma gwnymi przepywami danych: Dopywem - pobieranie, czyszczenie i wprowadzanie danych. Wznoszeniem si - zwikszanie wartoci danych poprzez kumulacj, pakowanie i dystrybucj. Odpywem - archiwizacja i sporzdzanie kopii zapasowych. Wpywem - udostpnianie danych uytkownikom. Meta-przepywem, przepywem metadanych - zarzdzanie metadanymi.

ROZDZIA 2. HURTOWNIE DANYCH

16

Narzdzia i technologie hurtowni danych zwizane z budowaniem i zarzdzaniem hurtowni danych. Narzdzia do pobierania, czyszczenia i przeksztacania danych: - Generatory kodu - Narzdzia replikacji danych w bazach danych - Dynamiczne mechanizmy przeksztacajce

2.1.1

SZBD w hurtowni danych

Wymagania wzgldem SZBD decydujce o ich przydatnoci dla hurtowni danych: a. Wydajno wprowadzania danych b. Przetwarzanie wprowadzanych danych c. Zarzdzanie jakoci danych d. Wydajno zapyta e. Terabajtowa skalowalno f. Skalowalno ze wzgldu na liczb uytkownikw g. Sieciowe hurtownie danych h. Administracja hurtowni danych i. Zintegrowane wielowymiarowe analizy j. Zaawansowane funkcje zapyta

Rwnolege SZBD Wan kwestia podczas integracji zwizan z potencjaln wielkoci danych w hurtowni jest rwnolego oblicze - rwnie istotna jak wydajno, skalowalno, dostpno i atwo zarzdzania. Technologia rwnolegych baz danych zapewnia konieczn wydajno podczas przetwarzania ogromnych iloci danych przez hurtownie. Sukces rwnolegych SZBD zaley od efektywnego dziaania wielu zasobw w tym procesorw, pami, dyskw i pocze sieciowych. Gwnymi waciwociami rwnolegych SZBD s skalowalno, operatywno, dostpno. Jako platformy serwerw baz danych dla hurtowni danych uywane s dwa gwne rodzaje rwnolegych architektur sprztowych: Symetryczne przetwarzanie wieloprocesorowe - zbir cile powizanych procesorw, ktre maj wspln pami i przestrze dyskow Przetwarzanie masywnie rwnolege - zbir luno powizanych procesorw, z ktrych kady ma wasn pami i przestrze dyskow Wszystkie wymienione zagadnienia powinny by brane pod uwag przy wyborze SZBD.

ROZDZIA 2. HURTOWNIE DANYCH

17

2.1.2

Skadnice danych

Skadnica danych - przechowuje podzbir danych zawartych w hurtowni danych, ktry realizuje wymagania konkretnego wydziau lub dziaania biznesowego, koncentruje si wycznie na wymaganiach uytkownikw zwizanych z jednym wydziaem lub dziaaniem biznesowym; moe dziaa samodzielnie lub by podczona centralnie do korporacyjnej hurtowni danych. Skadnice danych stay si popularne, poniewa rozlege korporacyjne hurtownie danych okazay si trudne w tworzeniu i uywaniu, ze wzgldu na mniejsz liczb przechowywanych danych w porwnaniu do hurtowni danych s atwiejsze w obsudze i zrozumieniu. Skadnice danych zazwyczaj nie zawieraj szczegowych danych operacyjnych. Zagadnienia zwizane z tworzeniem i zarzdzaniem skadnicami danych:

Wzrastajcy zakres funkcji realizowanych przez skadnice danych wraz ze wzrostem ich popularnoci. Niektre skadnice musz by skalowane do setek gigabajtw i realizowa zoone analizy za pomoc narzdzi OLAP i eksploracji danych oraz obsugiwa setki zdalnych uytkownikw oczekujcych szybszych czasw reakcji ni w hurtowniach danych. W zwizku z powyszymi skadnice danych s porwnywalne pod wzgldem zoonoci i rozmiaru z niewielkimi korporacyjnymi hurtowniami danych. Jednak wydajno pogarsza si wraz ze wzrostem wielkoci skadnicy. Przykadem sposobu zmniejszenia rozmiaru stosowanego przez producentw moe by dynamiczna wielowymiarowo pozwalajca na obliczanie agregacji na yczenie zamiast wstpnego wyliczania i zapamitywania w kostkach wielowymiarowych baz danych. Poza czasem reakcji na dania uytkownikw musi zosta rozpatrzony drugi skadnik (rwnie) krytyczny, mianowicie wydajno wprowadzania danych . Producenci badaj moliwo usprawnienia procedury wprowadzania danych przez zastosowanie indeksw, ktre automatycznie dopasowuj si do przetwarzanych danych. Inn metod jest modykacja tylko komrek, ktrych dotyczy dana aktualizacj zamiast modykacji caej struktury MDDB (ang. multi-dimentional database) podczas przyrostowej aktualizacji bazy danych.

ROZDZIA 2. HURTOWNIE DANYCH

18

Wirtualne skadnice danych to sposoby widzenia wielu zycznych skadnic danych lub korporacyjnych hurtowni danych dopasowane do wymaga specycznej grupy uytkownikw; ich budowa jest jednym z rozwiza dostpu uytkownikw do danych z wielu skadnic poza replikacj danych pomidzy skadnicami; do tworzenia wirtualnych skadnic s dostpne odpowiednie produkty. Potrzeba centralnego zarzdzania, koordynacji i administracji skadnicami danych pojawia si wraz ze wzrostem ich liczby w organizacji. Na rynku dostpne s narzdzia do administrowania skadnicami danych. W efekcie pojawiy si takie zagadnienia jak: praca z rnymi wersjami skadnic, spjno danych i meta danych, integralno, bezpieczestwo caego przedsibiorstwa i dostrajanie wydajnoci. Producenci za wzgldu rosnc zoono stworzenia skadnicy danych oferuj produkty nazywane skadnicami danych w pudeku stanowice tanie rdo narzdzi dla skadnic danych.

2.1.3

Problemy zwizane z tworzeniem i zarzdzaniem hurtowni danych

Niedoszacowanie czasu potrzebnego do wprowadzenie danych Ukryte problemy z systemami rdowymi zasilajcymi hurtowni danych; mog zosta wykryte po wielu latach niezauwaalnego ich wystpowania Brakujce dane w systemach rdowych Rosnce wymagani uytkownikw; Wzrost liczby uytkownikw zapyta i zoonoci tych zapyta Trudnoci z ujednoliceniem danych; rozwizanie problemu ujednolicenia moe prowadzi do obnienia wartoci tych danych Wysokie zapotrzebowanie na zasoby, na przestrze dyskow, implementacje oparte o schematy patka niegu, patka gwiadzistego lub gwiazdy powoduj powstawanie bardzo duych tabel faktw; jeli dane rzeczowe maj wiele wymiarw to powstae z polaczenia tabel agregujcych i indeksw tabel faktw mog zajmowa wicej przestrzeni ni dane pierwotne

ROZDZIA 2. HURTOWNIE DANYCH Wasno danych Zoona pielgnacja systemu

19

Dugoterminowo projektw wdroe hurtowni danych - do trzech lat. Z tego powodu niektre organizacje tworz skadnice danych, ktre mog powstawa szybciej Zoono integracji rnych narzdzi magazynowania danych

2.2

Projektowanie hurtowni danych

Hurtownie danych s tworzone do wsppracy z oprogramowaniem wspomagajcym zarzdzanie przedsibiorstwem i podejmowanie decyzji biznesowych. S one elementem poredniczcym midzy systemami transakcyjnymi a zaawansowanymi narzdziami analitycznymi. Gwn motywacj konstruowania hurtowni danych jest lepsze wykorzystanie systemw wspomagania decyzji DSS (Decision Support Systems), systemw informacyjnych MIS (Management Information Systems) oraz EIS (Executive Information Systems). W latach osiemdziesitych zaczto tworzy techniki projektowania hurtowni danych. Modelowanie wielowymiarowe to technika projektowania, ktrej celem jest prezentacja danych w formie pozwalajcej na wysoce wydajny dostp. Techniki projektowania wielowymiarowego stay si dominujc metod projektowania baz danych dla hurtowni. Schemat gwiazdy (zczenie gwiadziste) - struktura logiczna; w centrum znajduje si tabela faktw zawierajca dane rzeczowe; otoczona jest przez tabele wymiarw z danymi referencyjnymi (mog by zdenormalizowane); tabele faktw mog by wyjtkowo due w stosunku do tabel wymiarw; Tabele wymiarw zawierajca opisowe informacje tekstowe. Atrybuty wymiarowe s uywane w warunkach ograniczajcych zapytania do hurtowni danych. Schemat gwiazdy korzysta z cech danych rzeczowych: 1) wszystkie fakty zostay wygenerowane przez przesze zdarzenia; 2) fakty nie ulegn zmianie bez wzgldu na sposb ich analizy; Najbardziej uyteczne s fakty numeryczne i addytywne, poniewa aplikacje hurtowni danych zazwyczaj korzystaj jednorazowo z setek, tysicy lub milionw rekordw, a najbardziej uyteczn operacj, jak mona wykona na tak duej liczbie rekordw jest agregacja.

ROZDZIA 2. HURTOWNIE DANYCH

20

Rysunek 2.1: Porwnanie modeli gwiazdy i patka niegu. rdo: Cezary Gowiski: Sztuka wysokiego skadowania 2000 Schemat patka niegu - odmiana schematu gwiazdy; tabele wymiarw nie zawieraj zdenormalizowanych danych. Schemat patkowo-gwiadzisty (konstelacji) - struktura hybrydowa bdca poczeniem schematw gwiazdy i patka niegu. Model ER bywa zazwyczaj rozkadany na wiele modeli DM. Powstae modele DM s czone za pomoc zgodnych tabel wymiarw. Istniej alternatywne techniki tworzenia hurtowni danych. Jednym z najbardziej udanych rozwiza jest rozoenie projektu hurtowni na atwiejsze w zarzdzaniu czci - skadnice danych. Integracja skadnic danych prowadzi do powstania hurtowni obejmujcej cae przedsibiorstwo. Etapy projektowania hurtowni lub skadnicy danych okrelane s przez metod dziewiciu krokw. Kolejne kroki wspomnianej metody: 1. Wybr procesu 2. Wybr poziomu szczegowoci 3. Identykacja i uzgodnienie wymiarw 4. Wybr faktw 5. Umieszczenie wstpnych oblicze w tabeli faktw 6. Zaokrglanie tabel wymiarw 7. Wybr zakresu czasowego bazy danych 8. ledzenie wolno zmieniajcych si wymiarw 9. Okrelenie priorytetw zapyta i trybw zapyta

ROZDZIA 2. HURTOWNIE DANYCH

21

Rysunek 2.2: Schemat gwiazdy

Rysunek 2.3: Schemat patka niegu Kryteria oceny systemu dotyczce stopnia realizacji wielowymiarowego sposobu widzenia hurtowni danych podzielone zostay na trzy grupy: - architektura, - administracja, - zdolno wyraania.

2.3

OLTP vs. OLAP

Porwnanie systemw klasycznych z systemami hurtowni danych

ROZDZIA 2. HURTOWNIE DANYCH

22

Rysunek 2.4: Schemat patkowo gwiadzisty (konstelacji)

Rysunek 2.5: Schemat gwiazdy OLTP On-Line Transaction Processing (przetwarzanie transakcyjne) OLAP On-Line Analytical Processing (przetwarzanie analityczne) Systemy klasycznych baz danych OLTP to systemy przetwarzania transakcyjnego, operacyjnego np. systemy bankowosci detalicznej uywane przez pracownikw szeregowych do wspomagania ich podstawowej dziaalnoci. Systemy OLAP su do prowadzenia analiz przez prezesw, decydentw, umoliwiaj wyciganie wnioskw co do form zarzadzania w przyszoci. W systemach baz operacyjnych najwaniejsz kwesti jest jak najszybsze wykonywanie transakcji, w hurtowniach danych nie ma znaczenia prdko wykonywania operacji. Operacje w przypadku hurtowni danych daj do dugie czasy odpo-

ROZDZIA 2. HURTOWNIE DANYCH

23

Rysunek 2.6: Schemat patka niegu wiedzi. Raport biznesowy pokazujcy roczny zysk przedsibiorsta w ronych obszarach, galeziach, kategoriach produktw moe by generowany przez kilka godzin. Jednakze taka prace wykonywane s jednorazo w cigu roku kiedy dokonuje si planowania biznesowego my na nastpny rok, ustalenia gwne strategii funkjonowania rmy. Technologie, ktore obecnie posiadane powoduj wielk konsumcj czasu i mocy obliczeniowej w zwizku z czym na potrzeby BI dokonuje si zakupu najdroszych rozwiaza sprztowych, angauje sie przetwarzanie rozproszone. Rozproszon hurtowni danych tworz poczone korporacyjne hurtownie danych. Intensywno operacji dyskowych w systemach OLTP dane s dobrze buforowane, powtarzalne, nie musza by odczytywane w duych porcjach, w przypadku hurtowni wydajno dyskw twardych czsto determinuje wydajno caego systemu. W klasycznych systemach dominuj operacje DML (Data Manipulation Language). To operacje wprowadzania, modykowania i usuwania danych std wynika zorientowanie architektur i rozwiaza na efektywne wykonywanie przetwarzanie tego typ operacji, aby jak najszybciej wykonywa transakcje i operacje wprowadzania nowych danych. W przypadku hurtowni danych ten prol jest zupenie inny - dominuj operacje odczytu danych. Z punktu widzenia decydenta 100% operacji to odczyt danych. Oprcz odczytu na hurtowni wykonywane s operacje wprowadzania danych. Klasyczne bazy danych przechowuj dziesitki, setki gigabajtw informacji w przypadku typowych rozwiaza natomiast hurtownie - terabajty

ROZDZIA 2. HURTOWNIE DANYCH

24

Rysunek 2.7: Schemat patkowo gwiadzisty (konstelacji) danych. Sytemy klasyczne krotkoterminowo przechowuj dane, wyczaj przypadki regulowane wzgldami prawnymi tj. przechowywania komunikacji mailowej lub dokumentw nansowych, pracowniczych przez kilka lat. Informacje przenoszone s na noniki typu DVD i gromadzone w archiwach, nie dostpne bezposrednio uytkownikom. Dane s usuwane, aby nie spowalnialy dziaania bazy operacyjnej. W pzypadku hurtowni danych caa historia dziaalnoci przedsibiorstwa np. 10 lat - ale tylko dlatego, e technologia hurtowni moda i nie ma przedsibiorstw, ktry zgromadziyby dane z szerszego okresu czasu. Klasyczne bazy danych gromadz dane potrzebne aplikacj. Hurtownie gromadz wyacznie dane tematyczne np. dane dotyczce sprzeday produktw, reklamacji itp. Przedsiwzicie zwizane z budow hurtowni danych obejmuje wiele aspektw. Jednym z nich jest wybr platformy sprztowej dla hurtowni danych chodzi tu gwnie o okrelenie mocy serwera. Nastpny to wybr platformy systemowej (Windows NT, rnego rodzaju Uniksy i systemy mainframe). Kolejny aspekt to wybr systemu zarzdzania baz danych (SZBD). Ostatni wreszcie aspekt dotyczy wyboru oprogramowania do budowy i zarzdzania hurtowni danych. Jeli rma decyduje si na jaki SZBD, to wybiera rwnie oprogramowanie do tworzenia hurtowni u tego samego producenta. Nie

ROZDZIA 2. HURTOWNIE DANYCH

25

Rysunek 2.8: OLTP vs. OLAP. rdo exonous.typepad.com\mis\busines intelligence.jpg

ilustracji:

http:\\

jest to w aden sposb obligatoryjne, gdy zwykle dostpne s sterowniki do rnego rodzaju serwerw baz danych, niemniej jest to do naturalny wybr.

ROZDZIA 2. HURTOWNIE DANYCH

26

Cecha System klasyczny Hurtownia danych czas odpowiedzi aplikacji uamki sekundy - sekundy sekundy - godziny wykonywane operacje DML select czasowy zakres danych 30-60 dni 2-10 lat organizacja danych wedug aplikacji tematyczna rozmiar mae - due due - wielkie intensywno operacji dyskowych maa - rednia wielka Tabela 2.1: Porwnanie systemw klasycznych z systemami hurtowni danych [ZPWI07]

OLTP bieace, aktywne dane, zwykle cigle aktualizowane, ograniczona ilo danych historycznych

OLAP

aktywne przetwarzanie operacji zoptymmalizowane w modelu relacyjnym do efektywnej aktualizacji danych, wysoka wydajno przetwarzania transakcji zoptymmalizowane do odczytu, wyszukiwania danych, wydajno przetwarzania transakcji mieci si w zakresie od redniej do niskiej przetwarzania powtarzaj si przetwarzania wykonywane s ad hoc, niestrukturalnie i heurytycznie dane dynamiczne dane statyczne dane szczegowe dane szczegowe, lekko i silnie skumulowane przewidywalny schemat uycia nieprzewidywalny schemat uycia sterowanie transakcjami sterowanie analizami zorientowane aplikacjnie zorientowane podmiotowo wspieraj codzienne decyzje wspieraj strategiczne decyzje su duej liczbie uytkownikw biurowych i operacyjnych su wzgldnie maej liczbie uytkownikw zarzdzajcych

dane archiwalne, historyczne, aktualizowane w ustalonym czasie np. co noc analiza zebranych danych

Tabela 2.2: Porwnanie systemw OLTP i OLAP

Rozdzia 3 Proces ETL - zasilanie hurtowni danych3.1 Informacje oglne

Waznym elementem architektury kadego srodowiska BI jest oprogramowanie suzace do zasilania hurtowni danych informacjami, danymi z systemw rdowych. To oprogramowanie nazywane jest ETL (ang. Extraction, Transformation, Loading). Wyrni mona 3 etapy pracy aplikacji ETL: ekstrakcja, transformacja, adowanie. Extraction - ekstrakcja danych z systemow rdowych, odczyt danych z operacyjnych baz danych, systemw starej generacji, plikw zewntrznych; polega na odczycie, pobraniu danych z systemu rdowego - operacyjnego systemu rdowego. Na przyad jeli rdem jest SQLowa baza danych naley wyda zapytanie, plik tekstowy - dokonac analizy skladniowej tego pliku i pobra jego zawarto. Ekstrakcja danych jest czesto niezwykle trudnych krokiem realizacyjnym w przypadkach kiedy programista musi wydoby dane z systemu starej generacji napisanego w jezyku pogrmowania obecnie nie uywanym. Czsto wymusza to niejako wamywanie sie do starego systemu stworzonego przez rm, ktora byc moze juz przestaa istniec i nie jest mozliwe zlecenie stworzenia interfejsu do tego systemu umoliwiajacego pobranie danych z tego systemu. Tranformation - konwersja, transformacja z postaci rdowej do postaci, ktrej oczekujemy w rodowisku hurtowni danych; dostosownie danych rdowych do postaci, w ktorej maj by przechowywane w hurtowni

27

ROZDZIA 3. PROCES ETL - ZASILANIE HURTOWNI DANYCH

28

danych; czenie, werykacja, walidacja, czyszczenie i znakowanie czasowe danych; transformacja oznacza np. konwersj wartoci reprezentowanej jako tekst do numerycznego typu danych, ukadu zapisywanych dat, rodzielenie pola imie nazwisko na dwa oddzielenie pola imie i nazwisko. Podczas realizacji fazy transformacji moe okaza sie, e system rdowy nie gromadzi w ogle informacji, ktrej przechowania w hurtowni danych oczekujemy. W takim przypadku degenerowuje sie brakujace informacje podczas fazy transformacji. Jest to faza kosumujca duo czasu ze wzgledu na koniecznosc stosowania mechanizmw naprawiania danych, uzupeniania brakw w danych. Poza brakami w danych innym zagrozeniem podczas implemenacji fazy transfortmacji s przeklamania, wic trasformacja wie si z naprawianiem danych niepoprawnych np. le zapisanych nazw miast lub rozbienoci - w jednym systemie zapisywane bez polskich literw drugim z polskimi literami albo bdy literowe popeniane przez pracownikw wprowadzajcych dane. Poprawianie danych nazywane jset czyszczeniem danych - polega na naprawianiu usterek, ktre w danych s zawarte, uzupenianiu brakw, niwelowaniu przeklama, integrowaiu danych niepoprawnych, rozbienych. Innym krokiem fazy transformacji jest znakowanie czasowe danych oznaczajce koniecznosc uzupelniania znacznikw czasowych na etapie transformacji. Loading czyli wczytywanie, umieszczanie wyekstrahowanych i przetransforwanych danych wewntrz docelowej hurtowni danych. Jest ostatnim etapem pracy aplikacji ETL. Wykonywanie polecenia Insert to najgorszy ze sposobw wczytywania danych do hurtowni ze wzgledu na niska wydajno w przypadku informacji masowych. Rozwizania komercyjne oferuj specjalne rodzaje rwnolegych Insertw, rwnolegych operacji wczytywania, pomijania interpretera jezyka SQL, zapisywania danych bezporednio do binarnych plkw systemu zarzdzania baz danych. Poszukuje si metod, aby wczytywanie duej ilosci danych zabierao tak ilo czasu, by moliwe byo wczytanie danych przed nadejciem momentu kolejnego zaadowania danych. Systemy hurtowni danych wydaj si pracowa naprzemiennie w dwch trybach: pierwszy tryb pracy to tryb wykonywania zapyta analitycznych przez uytkownikw drugi tryb pracy to tryb adowania danych. Te dwa tryby pracy wzajemnie si przeplataj: periodycznie w nocy wykonywane s operacje ETL, w dzie nastpuje obsuga zapyta. Zmienia sie natura obcienia systemu hurtowni danych. Fakt ten ma negatywny wpyw jeli chodzi o strojenie wydajnosci i zarzdzanie systemem hurtowni danych. Hurtownia danych jest systemem bazy danych. System bazy danych jest zwykle kongurowany przez jego administratora w taki sposob, eby jak naj-

ROZDZIA 3. PROCES ETL - ZASILANIE HURTOWNI DANYCH

29

lepiej radzi sobie z obcieniem generowanym przez uytkownikw; konguracja dotyczy doboru obszarow buforowych, rozkadu plikw na dysku, doboru wykorzystania pamici operacyjnej na potrzeby obsugi sesji uytkownikw, doboru rozmiaru pewnych struktur pomocniczych. Strojenie wydajnoci prowadzi si dobrze kiedy prol obcienia jest stabilny jezeli np. w systemie opracyjnym liczba pracownikw bankowych wykonujcych operacje przelewu jest mniej, wicej staa, kiedy ilo informacji na dzie jest podobna, wtedy administartor systemu bazy danych jest w stanie dobrze dobra paramentry konfguracyjne, aby zapewni maksymalna wydajnosc tego systemu. Poblemy pojawiaj si wtedy, kiedy zmienia sie prol obcienia. W systemie hurtowni danych prol nie jest stabilny, statyczny. W nocy pojawia si ogromna ilo operacji zapisu, wprowadzania nowych danych, natomiast w dzie trudne zapytania a zupenie znikaj operacje zapisu. Hurtownia danych powinna mie inne ustawienia konguracyjne w nocy a inne w dzie - dwie alternatywne konguracje. Wielu producentw systemw baz danych, ktre mog suy jako podstawa do implementacji hurtowni danych oferuje mechanizmy przygotowywania alternatywnych zestaww parametrw konguracyjnych i automatycznego ich przeaczania. Administrator dopasowuje wartoci parametrw kongacyjnych do trybw pracy nocnego i dziennego, a nastpnie deniuje sposb przeczania pomiedzy trybami. Implementacja ETL jest zazwyczaj bardzo kosztowna. W skali caego projektu wdraania rodowiska BI implementacja aplikacji ETL pochania nawet 70% czasu pracy projektantw i programistw co wynika z trudnoci zaoferowania na rynku gotowego, uniwersalnego narzdzia ETL. Zwykle narzdzia te musz by implementowane, projektowane na potrzeby konkretnego wdrozenia. W wielu projektach twrcy, programici musza nawet siga po archaiczne jezyki programowania i dobudowywac do starych systemw istniejacych moduy pobierania danych. Implemetacja ETL jest trudna, poniewa na rynku istnieje obecnie jeszce wiele systemw starej generacji. Prawdopodobnie za kilkanacie, kilkadziesit lat implementacja narzedzi ETL nie bedzie stanowia problemu, gdy wszystkie przedsibiorstwa bda realizoway swoje systemy informatyczne w technologiach otwartych zgodnych za standardami. Wiekszoc producentw systemw zarzdzania bazami danych oferuje rodowiska uatwiajace implementacj narzdzi ETL np.: generatory aplikacji, gotowe biblioteki. Pomimo to rola programisty niskopoziomowego jest bardzzo znaczca w przedsiwzieciach tego typu.

ROZDZIA 3. PROCES ETL - ZASILANIE HURTOWNI DANYCH

30

3.2

Narzdzia ETL

Narzdzia ETL ekstrahuj dane z wielu rde, transformuj dane z formy zoptymalizowanej pod wzgldem transakcji do zoptymalizownej do wykonawania analiz i raportw, sychronizj dane pochodzce z rnych baz danych, wykonanuj czyszcenie danych w celu usunicia bdw oraz aduj dane do hurtowni danych. Uzywanie narzdzi ETL podczas projektowania systemu BI oszczdza czas i pienidze ze wzgldu na brak koniecznoci rcznego kodowania. Rczne kodowanie jest jednak najpopularniejszym sposobem integrowania danych co jednak wymaga wielu godzin pracy programistw. Do narzdzi ETL mona zaliczy: - Informatica - Power Center - IBM - Websphere DataStage(przed zakupem produkt DataStage rmy Ascential) - SAP - BusinessObjects Data Integrator - IBM - Cognos Data Manager (przed zakupem produkt DecisionStream rmy Cognos) - Microsoft - SQL Server Integration Services - Oracle - Data Integrator (przed zakupem produkt Data Conductor rmy Sunopsis) - SAS - Data Integration Studio - Oracle - Warehouse Builder - AB Initio - Information Builders - Data Migrator - Pentaho - Pentaho Data Integration (Kettle) - Embarcadero Technologies - DT/Studio - IKAN - ETL4ALL - IBM - DB2 Warehouse Edition - Pervasive - Data Integrator - ETL Solutions Ltd. - Transformation Manager - Group 1 Software (Sagent) - DataFlow - Sybase - Data Integrated Suite ETL - Talend - Informatica - PowerCenter - Inaplex - Inaport cite11

ROZDZIA 3. PROCES ETL - ZASILANIE HURTOWNI DANYCH

31

3.3

Porwnanie dostpnych narzdzi

Wdroenie Talend tworzy plik Javy lub Perla, ktry moze byc uruchomiony na komputerach o bardzo maych zasobach. Rekomendowane: 1x1Ghz CPU, 512MB RAM. Pentaho Kettle to silnik stworzony w Javie, moe by uruchomiony na kadym komputerze obsugujcym Jav, pracowa w trybie automatyczym; moe by wdroony na wielu maszynach uywanych jako slave servers by wspomaga wykonywanie transformacji. Rekomendowane: 1x1Ghz CPU, 512MB RAM. Informatica PowerCenter wymaga serwera: Windows, Solaris, HP-UX, IBM-UX, Redhat, SUSE linux. Rekomendowane dla Standard Edition Server: 2xCPU, 1GB RAM. Inaplex Inaport platforma Windows, .NET 2.0 Rekomendowane: 1xCPU 50MB RAM. Wydajno Wydajno narzdzi ETL zaley od wielkoci danych jakie musz by przetransferowane i przetworzone. Talend aplikacja wolniejsza ni Pentaho. Pentaho Kettle oprogramowanie wydajniejsze od Talend, ale poaczenia Javy spowalniaj prac. Moe by wdroony na wielu rozproszonych komputerach. Informatica PowerCenter najwydajniejsze narzdzie. Zaimplementowano zaawansowan opcj PushDown, ktra zarzdza wykonywaniem transformacji zalenie od obcienia systemu. Inaplex Inaport nie zaimplementowano adnych technik w celu poprawy wydajnoci.

Rozdzia 4 Technologie i narzdzia dostpoweW niniejszym rozdziale zostan przedstawione narzdzia dostpowe, zostani omwione najwaniejsze zwizane z nimi technologie: OLAP i eksploracja danych. Narzedzia dostpowe to narzdzia dla uytkownikw kocowych do przegldania hurtowni danych. Narzdzia dostpowe dla uytkownikw, podzielone na pi grup: narzdzia do tworzenia raportw i zapyta; narzdzia programowania aplikacji; narzdzia systemu informacyjnego zarzdu EIS; narzdzia przetwarzania analitycznego on-line (OLAP); narzdzia eksploracji danych (data mining). Istniej dwa typy narzdzi analitycznych: - narzdzia przetwarzania analitycznego OLAP, - narzdzia eksplorujce dane (data mining).

4.1

Technologia i OLAP

OLAP (biece przetwarzanie analityczne) to specyczny sposb przetwarzania danych, ktry wystpuje w rodowiskach klasy Business Intelligence; 32

ROZDZIA 4. TECHNOLOGIE I NARZDZIA DOSTPOWE

33

Rysunek 4.1: Przepyw danych w BI i narzdzi dostpowe dynamiczna synteza, analiza i konsolidacja duych wolumenw wielowymiarowych danych. To technologia uywajca wielowymiarowych perspektyw zagregowanych danych w celu zapewnienia szybkiego dostpu do strategicznych informacji przeznaczonych do zaawansowanych analiz. Pozwala uytkownikom na uzyskanie gbszego zrozumienia oraz dodatkowej wiedzy o rnorodnych aspektach swoich danych korporacyjnych poprzez szybki i interaktywny dostp do wielu odmian sposobw widzenia danych. OLAP wspomaga procesy podejmowania decyzji dotyczcych przyszych dziaa. Analizy uzyskiwane z systemw OLAP obejmuj podstawowe takie jak nawigacja i przegldanie (krojenie wzdu i w poprzek), standardowe obliczenia i wreszcie bardzo zoone analizy (szeregi czasowe, skomplikowane modelowanie). W klasycznych bazach danych przetwarzania realizowane s najczniej poprzez wykonywanie polece jezyka SQL np.: operacje wprowadzenia nowego rekordu do tabeli czy krotki do relacji, operacja projekcji, selekcji, poaczenia relacji, zczenia tabel, operacje sortowania, grupowania , trowania. W przypadku systemw hurtowni danych okazao sie, e paradygmaty jezyka SQL nie speniaj wymaga funkckjonalnych aplikacji analitycznej wykorzy-

ROZDZIA 4. TECHNOLOGIE I NARZDZIA DOSTPOWE stywanych przez decydentow.

34

4.1.1

Model OLAP

Model OLAP to model danych i model przetwarzania, bdcy jakby konkurencj dla modelu relacyjnego, w ktrym dane gromadzone s w formie tabel a jezyk zapyta, zwykle SQL, umoliwia wykonywanie pewnych operacji na tych danych. W modelu OLAP struktura danych jest innna nierelacyjna i zbir operacji podstawowych take rni si od operacji charakterystycznych dla modelu relacyjnego. Dane w modelu przetwarzania OLAP nie s reprezentowne w postaci relacji czy obiektw, ale reprezentowne w postaci tzw. wielowymiarowego modelu danych, natomiast obiekty wielowymiarwego modelu danych nazywane sa czsto kostkami danych. Serwery baz danych OLAP uywaj wielowymiarowych struktur do przechowywania danych i zwizkw pomidzy nimi. Struktury te wizualizowane s w postaci kostki danych lub kostki w kostkach danych. Kady bok kostki to oddzielny wymiar. Kostka OLAP (ang. OLAP cube) - wielowymiarowa baza danych, ktra przechowuje dane w sposb bardziej przypominajcy wielowymiarowe arkusze kalkulacyjne ni tradycyjn, relacyjn baz danych. Kostka umoliwia wywietlanie i ogldanie danych z rnych punktw widzenia. Do jej budowy potrzeba dowolnego rda danych opartego na relacjach. Ze wzgldw wydajnociowych zaleca si stosowanie rde opartych na jzyku SQL i technologii hurtowni danych.1 Dane gromadzone s w komrkach pewnej np. trwymiarowej kostki opisane s za pomoc wsprzdnych. W realnych zastosowaniach systemw hurtowni danych kostki licz po dziesi, dwadziecia wymiarw, kada komrka jest opisywania, adresowana, wyraona w ukadzie kilkunastu, kilkudziesiciu wymiarw, std dane o dziaalnoci rmy maj charakter przestrzenny. W odniesieniu do wielowmiarowego modelu danych stosuje sie pojecia faktw, miar, wymiarw. Fakty reprezentuj zdarzenia biznesowe, o ktrych chcemy przechowywa informacje np. fakt sprzeday. Kady fakt jest komrk w kostce wielowymiarowej; w komrce znajduje sie warto miary bdca liczb charakteryzujc fakt np. dla faktu sprzedania produktu moe to byc kwota sprzeday. Wymiar odnosi si do osi ukadu wsprzdnych, w ktrym jest umieszczona kostka wielowymiarowa. Na osi wsprzdnych odnosimy np. adres1

cyt. z: pl.wikiedia.org

ROZDZIA 4. TECHNOLOGIE I NARZDZIA DOSTPOWE

35

opisujcy lokalizacj faktu, czyli komrki. W systemie hurtowni danych w modelu wielowyiarowym wykorzystywany jest inny sposb adresowania danych ni w klasycznych relacyjnych sytemach, gdzie wystpuj pojcia wiersza i kolumny. Tutaj dane opisuje si mwic: miara faktu opisanego pewnymi wymiarami. Najwaniejsze cechy faktw, miar i wymiarw. Miary maja wartoci cige, numeryczne np.: warto sprzeday, koszt, zysk. Wymiary maja zwykle wartosci dyskretne, niezmienne albo rzadko zmienne, poniewa osie ukadu wsprzdnych zwykle wyskalowywane s jednokrotnie i nie zmieniaja si. Jednake kostka moe w rosnac mog dochodzi nowe wymiary np. ma otwiera nowy sklep, siedzib, ale zazwyczaj kostka jest stabilna i osie wymiarw pozostaj niezmienne. Wymiary klient, czas, produkt, sklep to przykady wsprzdnych, do ktrych odnosimy fakty i ich miary. W bardziej zoonych rodowiskach hurtowni danych wymiary miewaj natur hierarchiczn np. czas: dzien, miesiac, rok. Dni grupuj si w tygodnie, tygodnie w miesice, miesice w kwartay a nastpnie w lata - wystpuje hierarchia wartoci wymiarw. Podane jest posugiwanie si hierarchicznymi wymiarami w przypadku hurtowni danych, gdy daje to moliwosc ciekawej interakcji uytkownikowi. Hierachiczne wymiary zwiazane mog by z czasem, lokalizacj geograczn, kategoriami i podkategoriami produktw. Hierachia wymiarw to rodzaj struktury drzewiastej, w ktrej wartosci wymiarow s agregowane, grupowane w bardziej oglne pojecia. W odnieieniu do hierarchi wymiaru posugujemy si pojciem poziomu, ktre oznacza pitro w drzewie hierarchi np: poziom dni, poziom miesicy, poziom lat w aplikacji analitycznej moliwe jest zarzdanie pokazania na przykad danych sprzeday zgrupowanych na poziomie lat, tygodni itp. Atrybuty to zmienne lub cechy, ktre su do charakteryzowania poszczeglnych poziomw hierarchi wymiarw. Na kadym poziomie warto wymiaru jest w pewien sposb opisana; na poziomie dni opisem jest numer dnia, tygodni - numer tygodnia w roku, miesiaca - nazwa miesiaca. Istnieje ronorodno w opisie na ronych poziomach hierarchii opisywa moe liczba cakowita lub acuch znakowy. Poza kostk danych rozumian jako model reprezentacji danych w hurtowniach danych w dziedzinie OLAP mwi si o podstawowych operacjach wykonywanych na kostce danych przez uytkownika. Zdeniowano w tej dziedzinie operacje podstawowe OLAP i tymi operacjami podstawowymi posuguje si uytkownik aplikacji analitycznej, aby okresli ktra cz kostki w jaki sposb widziana interesuje go w danym momencie.

ROZDZIA 4. TECHNOLOGIE I NARZDZIA DOSTPOWE

36

Rysunek 4.2: Trjwymiarowa kostka danych. rdo ilustracji: http:\\ exonous.typepad.com\mis\datawarehouse.jpg

Operacje podstawowe OLAP: 1. agregacja czasem nazywana konsolidaj lub zwijaniem wymiaru - roll-up - operacja, w ramach ktrej uytkownik aplikacji biznesowej przechodzi na oglniejszy poziom wymiaru np. zwiniecie dni do poziomu miesicy; 2. rozwijanie wymiaru to dziaanie odwrotne do agregacji i oznacza przejcie na bardziej szcegowy poziom wymiaru roll-down, drill-down; 3. operacja selekcji, slicing and dicing - logiczna do operacji selekcji w relacyjnej bazie danych, oznacza wybr fragmentu danych poprzez zawenie wartoci wymiarw, zbioru danych, z kostki wielowymiarowej wycinamy fragment odszcy si do zadanego przedziau wsprzdnych;

ROZDZIA 4. TECHNOLOGIE I NARZDZIA DOSTPOWE

37

4. operacja obrotu,pivot - operacja, w ramach ktrej uytkownik aplikacji biznesowej okrela jakie wymiary i w jakiej organizacji chce wizualizowa na ekranie, zamiana miejscami wymiarw, wymiana wywietlanych wymiarw. MDX (ang. Multidimensional Expressions - wielowymiarowe wyraenia) - jzyk zapyta dla wielowymiarowych struktur OLAP pozwalajcy na zadawanie zapyta online w kostkach analitycznych.2 Proste zapytanie MDX wyglda nastpujco: SELECT {[Measures].[Unit Sales], [Measures].[Store Sales]} ON COLUMNS, {[Product].members} ON ROWS FROM [Sales] WHERE [Time].[1997].[Q2] Organizacja ANSI zaakceptowaa zbir funkcji OLAP jako poprawk do SQL. Obecnie OLAP stanowi rozszerzenie standardu SQL pozwalajce na realizacj oblicze statystycznych, rankingu, ruchomych rednich i sum, skumulowanych sum, porwnania, podzia rynku, zestawienia oraz wielu innych zoonych oblicze. Wikszo zapyta wielowymiarowych odnosi si do skumulowanych danych, dlatego sposobem na zbudowanie efektywnej wielowymiarowej bazy danych jest wstpna kumulacja, ktrej przeprowadzenie moe by szczeglnie wartociowe ze wzgldu na hierarchiczn natur typowych wymiarw. Posiadanie wstpnie zdeniowanych hierarchii w ramach wymiaru pozwala na logiczn wstpna agregacj oraz logiczn eksploracj danych. Reprezentacja danych w postaci wielowymiarowej to zwarty i zrozumiay sposb na ich wizualizacj i manipulacj. Kostka moe by rozszerzana przez doczanie kolejnych wymiarw. Wraz ze wzrostem liczby wymiarw liczba elementw kostki ronie wykadniczo. Na kostce mona wykonywa operacje matematyczne. Czas odpowiedzi na wielowymiarowe zapytanie zaley od liczby elementw kostki, ktre musz by zsumowane w trakcie realizacji.

4.1.2

Reprezentacje wielowymiarowej kostki danych

Chocia hurtownia danych wszyskie informacje gromadzi w wielowymiarowej kostce danych, moliwe jest wykorzystywanie relacyjnych baz danych do obslugi hurtowni.2

cyt. z: pl.wikiedia.org

ROZDZIA 4. TECHNOLOGIE I NARZDZIA DOSTPOWE

38

Istniej dwa sposoby na implementacj struktury kostki wielowymiarowej jako relacji podczas wykorzystania relacyjnego systemu zarzdzania baz danych jako fundamentu hurtowni. Metody zastosowania schematu gwiazdy, patka niegu i konstelacji faktw opisano w rozdziale drugim niniejszej pracy. Implementacje logicznego wielowymiarowego modelu danych Relacyjna implementacja modelu (ROLAP) 1. -powizane ze sob relacje faktw i wymiarw 1. -schematy logiczne: 1. -materializowane perspektywy dla wartoci agregowanych Wielowymiarowa reprezentacja modelu MOLAP 1. -dane zycznie skadowane w postaci wielowymiarowej Serwery wielowymiarowych baz danych realizuj oglne operacje analityczne: - Konsolidacja - wymaga agregacji danych, prostych zwini lub obliczania wyrae dotyczcych wzajemnie powizanych danych; - Eksploracja - operacja odwrotna do konsolidacji, wymagajca prezentacji szczegowych danych; - krojenie wzdu i w poprzek tzw. obracanie - moliwo ogldania danych z rnych punktw widzenia, odbywa si czsto wzdu osi czasu, gdy celem jest analiza trendw i szukanie wzorcw; S zdolne przechowywa dane wielowymiarowe w skompresowanej formie. Zdolno wielowymiarowych SZBD do pomijania pustych i powtarzajcych si komrek pomaga zredukowa znacznie rozmiar kostki i ilo przetwarza. Poprzez waciw optymalizacj wykorzystania przestrzeni mog zminimalizowa wymagania, co do pamici zycznej i umoliwi analiz wyjtkowo licznych danych. Kompresja pozwala na wprowadzenie wikszej iloci danych do pamici, co przyczynia si do znacznego wzrostu wydajnoci poprzez minimalizacj operacji dyskowych wejcia/wyjcia. Wstpna agregacja, hierarchie wymiarw i zarzdzanie rzadkimi danymi mog znacznie zredukowa rozmiar bazy danych i potrzeby obliczania wartoci. Waciwy projekt struktury bazy pozwala unikn koniecznoci wykonywania zcze wielu tabel i zapewnia szybki i bezporedni dostp do tablic danych, zatem przyspiesza znacznie realizacj wielowymiarowych zapyta.

ROZDZIA 4. TECHNOLOGIE I NARZDZIA DOSTPOWE

39

4.1.3

Narzdzia OLAP

OLAP (ang. online analytical processing) - oprogramowanie wspierajce podejmowanie decyzji, ktre pozwala uytkownikowi analizowa szybko informacje zawarte w wielowymiarowych widokach i hierarchiach. Narzdzia OLAP s czsto uywane do wykonywania analiz trendw sprzeday czy analiz nansowych (hurtownia danych). S te przydatne do wstpnego obejrzenia zbioru danych przez analityka we wstpnej fazie analiz statystycznych.3 Reguy sformuowane w 1993 roku przez E.F. Codda stanowice podstaw wyboru narzdzi OLAP: 1. Wielowymiarowe perspektywy pojciowe 2. Przezroczysto 3. Dostpno 4. Niezmienna wydajno raportowania 5. Architektura klient-serwer 6. Standardowa wielowymiarowo 7. Dynamiczna obsuga rzadkich tablic 8. Obsuga wielodostpnoci 9. Nieograniczone operacje w poprzek wymiarw 10. Intuicyjna manipulacja danymi 11. Elastyczne raportowanie 12. Nieograniczona liczba wymiarw i poziomw agregacji Gwne kategorie narzdzi OLAP zwizane z architektur stosowanej bazy danych (dostarczajcej danych na potrzeby przetwarzania analitycznego on-line OLAP): MOLAP - wielowymiarowe OLAP ROLAP - relacyjne OLAP HOLAP, MQE - hybrydowe OLAP, rodowiska zarzdzanych zapyta

MOLAP - korzysta ze specjalnych struktur danych oraz systemw zarzdzania wielowymiarowymi bazami danych MDDBM; dane s zazwyczaj agregowane i przechowywane odpowiednio do sposobw uycia. Narzdzia MOLAP zapewniaj doskonaa wydajno. Struktury danych stosowane w MOLAP maj ograniczone moliwoci obsugi wielu obszarw podmiotowych3

cyt. z: pl.wikiedia.org

ROZDZIA 4. TECHNOLOGIE I NARZDZIA DOSTPOWE

40

oraz zapewnienia dostp do szczegowych danych, nawigacja i analiza danych s w MOLAP ograniczone. MOLAP wymaga innych umiejtnoci i narzdzi do tworzenia i pracy z baz danych. ROLAP - najszybciej rozwijajca si technologia OLAP; korzysta z produktw RSZBD poprzez uycie warstwy metadanych, unikajc koniecznoci tworzenia statycznej wielowymiarowej struktury danych, co umoliwia tworzenie wielu wielowymiarowych perspektyw danej dwuwymiarowej relacji. W celu zwikszenia wydajnoci niektre produkt ROLAP zawieraj motory SQL przystosowane do realizacji wielowymiarowych analiz. Pozostae wymuszaj uycie zdenormalizowanych baz danych takich jak schemat gwiazdy. Technologia ROLAP wymusza tworzenie oprogramowania poredniczcego przeksztacajcego dwuwymiarow relacj w wielowymiarow struktur oraz opcji pozwalajcej na zbudowanie staych wielowymiarowych struktur o programw do administrowania nimi. MQE - oferuj ograniczone moliwoci analizy; pobieraj dane wprost z SZBD lub poprzez serwer MOLAP i przekazuj je do lokalnego komputera, serwera w postaci kostki danych gdzie jest lokalnie zapisywana, analizowana i pielgnowana. Technologia MQE jest promowana, jako prosta w instalacji i administracji, tania i atwa w konserwacji. Opisywane architektura doprowadza d znacznej redundancji danych powoduje problemy w sieciach obupujcych wiele uytkownikw. Moliwo budowania wasne kostki danych przez kadego uytkownika moe spowodowa utrat spjnoci danych. Uywa si rwnie, cho rzadziej ni powyszych, kategorii: Desktop OLAP (DOLAP) systemy niewielkiej, osobistej skali, Real-time OLAP (RTOLAP) systemy czasu rzeczywistego, Web-based OLAP (WOLAP) systemy dostpne w publicznej sieci.4

Aplikacje OLAP s oceniane pod ktem wydajnoci oraz zdolnoci dostarczania informacji JIT - akurat teraz. Zdeniowano miar porwnawcz AQM reprezentujc liczb zapyta analitycznych przetworzonych w cigu minuty wcznie z wprowadzaniem danych i obliczeniami. AQM wyraa wydajno wprowadzania danych, wykonywania oblicze i realizacji zapyta. Typowy relacyjny SZBD potra przeczyta par setek rekordw cigu jednej sekundy. Natomiast typowy wielowymiarowy SZBD potra wykona agregacj z szybkoci, co najmniej 10 tysicy wartoci na sekund.4

cyt. z: pl.wikiedia.org

ROZDZIA 4. TECHNOLOGIE I NARZDZIA DOSTPOWE

41

Aplikacje OLAP istniej w rnych obszarach zastosowa: budetowaniu, analizie wydajnoci nansowej, modelowaniu nansowym, analizie i prognozowaniu sprzeday, analizie promocji, klientw, analizie badawczej i segmentacji rynku oraz planowaniu produkcji i analizie defektw. Wszystkie aplikacje OLAP bez wzgldu na obszar zastosowa musz posiada kluczowe waciwoci, do ktrych nale: - Wielowymiarowe perspektywy danych - podstawa przetwarzania analitycznego poprzez zapewnienie elastycznego dostpu do danych korporacyjnych, uytkownik moe oglda dane na rne sposoby, w rnych wymiarach; - Realizacja zoonych oblicze; - Inteligencja czasowa - kluczowa cecha prawie kadej aplikacji analitycznej, gdy osignicia s niemal zawsze oceniane w perspektywie czasowej: porwnuje si dany miesic w stosunku do innego miesica.

4.2

Eksploracja danych

Eksploracja danych (spotyka si rwnie okrelenie drenie danych, pozyskiwanie wiedzy, wydobywanie danych, ekstrakcja danych) (ang. data mining) to jeden z etapw procesu odkrywania wiedzy z baz danych (ang. Knowledge Discovery in Databases, KDD). Istnieje wiele technik eksploracji danych, ktre wywodz si z ugruntowanych dziedzin nauki takich jak statystyka (statystyczna analiza wielowymiarowa) i uczenie maszynowe. Idea eksploracji danych polega na wykorzystaniu szybkoci komputera do znajdowania ukrytych dla czowieka (wanie z uwagi na ograniczone moliwoci czasowe) prawidowoci w danych zgromadzonych w hurtowniach danych.5 Eksploracja danych stanowi jeden z najlepszych sposobw wyznaczania istotnych trendw i wzorcw na podstawie olbrzymich iloci danych. Celem eksploracji danych jest wyszukiwanie ukrytych i nieoczekiwanych informacji w hurtowniach danych, ktrych nie mona efektywnie wyszuka za pomoc zapyta i raportw. Analiza odpowiednich regu i waciwoci wystpujcych w danych prowadzi do wyznaczenia ukrytych wzorcw i zwizkw. Wzorce danych mog zosta przeksztacone w cenn informacj, jeli dokona si waciwej interpretacji biznesowej. Nastpnie pozyskane informacje wykorzystuje si do podejmowania istotnych decyzji biznesowych. Techniki i metody suce eksploracji danych wywodz si gwnie z obszaru bada nad sztuczn inteligencj. Gwne przykady stosowanych rozwiza nale do nastpujcych zakresw:5

cyt. z: pl.wikiedia.org

ROZDZIA 4. TECHNOLOGIE I NARZDZIA DOSTPOWE

42

Rysunek 4.3: Proces eksploracji baz danych. rdo: Cezary Gowiski: Sztuka wysokiego skadowania 2000 * wizualizacje na wykresach, * metody statystyczne, * sieci neuronowe, * metody uczenia maszynowego, * metody ewolucyjne, * logika rozmyta, * zbiory przyblione. Istniej dwa rodzaje eksploracji danych: werykacja hipotez i odkrywanie wiedzy. Aby moliwe byo wykonanie eksploracji danych posiadane dane musz by odpowiednio zintegrowane i dobrej jakoci, gdy bdy w danych mog wpywa na wyniki procesw eksploracji. Bdy danych okrela si jako szum i zachodzi zaleno im wikszy szum tym mniejsza dokadno przewidywania. Nie jest prawdziwa opinia, i do wykonania eksploracji potrzebna jest ogromna ilo danych. Wane jest natomiast, aby dane poddawane eksploracji byy reprezentatywne i niewypaczone w aden sposb. Dobre wyniki mog by osignite przy maych ilociach danych, jeli dane obejmuj zakres moliwych wynikw. Proces analizy w eksploracji danych rozpoczynany jest od znalezienia optymalnej reprezentacji dla prbki danych, do czego konieczna jest znajomo zalenoci czasowych. Nastpnie wiedza ta jest rozszerzana na wiksze zbiory danych, dla ktrych mona przyj, e maj podobn struktur do danych z prbki. Eksploracja danych to wzgldnie nowa technologia, jednake jest ju stosowana w wielu gaziach gospodarki, w wielu dziedzinach np.: sprzeda i marketing, bankowo, ubezpieczenia, medycyna.

ROZDZIA 4. TECHNOLOGIE I NARZDZIA DOSTPOWE

43

Rysunek 4.4: Etapy procesu KDD - odkrywania wiedzy z baz danych (ang. Knowledge Discovery in Databases). rdo ilustracji: http:\\www.kmining.com\kdd-data-mining.gif Z technikami eksploracji danych zwizane s cztery gwne operacje, do ktrych nale: modelowanie prognostyczne, segmentacja bazy danych, analiza powiza, wykrywanie odchyle. Techniki to specyczne implementacje operacji, ktre s uywane do przeprowadzenia operacji eksploracji danych. Kada operacja posiada swoje wasne silne i sabe punkty. Operacje Techniki eksploracji danych Modelowanie prognostyczne Klasykacja, prognozowanie wartoci Segmentacja bazy danych Grupowanie demograczne i neuronowe analiza powiza Wykrywanie powiza, wzorcw sekwencyjnych i podobnych nastpstw czasowych wykrywanie odchyle Statystyka, wizualizacja Tabela 4.1: Operacje eksploracji danych i zwizane z nimi techniki Modelowanie prognostyczne jest podobne do procesu uczenia si; obserwacje s uywane do stworzenia modelu wanych waciwoci pewnego

ROZDZIA 4. TECHNOLOGIE I NARZDZIA DOSTPOWE

44

zjawiska. Moe by stosowane do analizy istniejcej bazy danych. Celem jest wyznaczenie modelu - wybranych waciwoci - zawartego w bazie, ktry powstaje za pomoc metody nadzorowanej nauki. Do aplikacji modelowania prognostycznego zaliczy mona: zarzdzanie strategi utrzymania klientw, zatwierdzanie kredytw, sprzeda krzyow i marketing bezporedni. Z operacj modelowania prognostycznego zwizane s dwie techniki rozrnialne ze wzgldu na waciwoci przewidywalnej zmiennej: Klasykacja - uywana do ustalenia przynalenoci kadego rekordu bazy danych do jednej wybranej klasy spord skoczonego zbioru moliwych klas; wyrniamy dwie specjalizacje: indukcja po drzewie i indukcja neuronowa; Przewidywanie wartoci - uywane do oszacowania wartoci numerycznych zwizanych z rekordem w bazie danych; oparta o tradycyjne techniki statystyczne: regresj liniow i nieliniow; stosowana do wykrywania oszustw za pomoc kart kredytowych oraz identykacji docelowej listy wysykowej; Segmentacja bazy danych dzieli baz na nieznan z gry liczb segmentw lub klastrw podobnych rekordw. Metoda korzysta z niekontrolowanej nauki do wykrywania jednorodnych podpopulacji w bazie danych. Nie jest operacj precyzyjn, dlatego jest w mniejszym stopniu wraliwa na nadmiarowe i nieistotne cechy. Celem jest poprawienie dokadnoci prolowania. Segmentacja stosowana jest przy prolowaniu klientw, w marketingu bezporednim oraz sprzeday krzyowej. Wie si z dwoma technikami: grupowaniem demogracznym i neuronowym, ktre rni si dopuszczalnymi danymi wejciowymi, metodami obliczania odlegoci pomidzy rekordami oraz prezentacj segmentw otrzymanych w analizie. Analiza powiza ma na celu ustalenie wizw nazywanych zwizkami, pomidzy poszczeglnymi rekordami lub zbiorami rekordw w bazie danych. Wyrniamy trzy specjalizacje: Wykrywanie powiza; Wykrywanie wzorcw sekwencyjnych; Wykrywanie podobnych nastpstw czasowych. Zastosowaniami analizy powiza s: analiza powinowactwa produktw, marketing bezporedni i ledzenie kursw akcji.

ROZDZIA 4. TECHNOLOGIE I NARZDZIA DOSTPOWE

45

Wykrywanie odchyle jest technik wzgldnie now w odniesieniu do dostpnych komercyjnych narzdzi eksploracji danych. Czsto bywa rdem odkry, gdy identykuje wartoci odlege, reprezentujce odchylenia od wartoci rednich i norm znanych uprzednio. Analizy tego typu mog by wykonywane za pomoc technik statystycznych i wizualizacyjnych lub jako produkt uboczny przy eksploracji danych. Techniki wizualizacji przedstawiaj podsumowania i graczne reprezentacje pozwalajce na atwe wykrywanie odchyle. Techniki wykrywania odchyle s stosowane przy wykrywaniu oszustw popenianych za pomoc kart kredytowych i przy zgoszeniach szkd ubezpieczeniowych, kontrol jakoci i ledzenie defektw.

Rysunek 4.5: Ekploaracja danych. rodo ilustracji: http:\\mail.scianta.com\ technology\ imagesdata-mining.jpg

ROZDZIA 4. TECHNOLOGIE I NARZDZIA DOSTPOWE Istotnymi cechami narzdzi eksploracji danych s: Dostpno narzdzi do preparacji danych;

46

Moliwo wyboru operacji (algorytmw) eksploracji danych - wynika z przydatnoci pewnych typw danych wejciowych, czytelnoci wyniku eksploracji, tolerancji dla nieobecnych wartoci zmiennej, poziomu moliwej dokadnoci oraz zdolnoci do przetworzenia duych iloci danych; Skalowalno i wydajno produktu; Dostpno metod wizualizacji wynikw; Na rynku jest oferowana coraz wiksza liczba narzdzi eksploracji danych. Eksploracja wymaga jednego, wydzielonego, oczyszczonego, zintegrowanego i wewntrznie niesprzecznego rda danych. Hurtownie danych posiadaj odpowiednie rodki do dostarczania danych niezbdnych do eksploracji, poniewa wanie takimi danymi zapeniane s i takie dane zawieraj. Poniej przedstawiono waciwoci hurtowni danych powizane z eksploracj danych: Jako i niesprzeczno danych - warunek wstpny, gdy modele prognostyczne musz zapewnia odpowiedni dokadno; Dane pochodzce z wielu rde - korzystne dla eksploracji w celu wykrycia wzajemnych powiza danych w liczbie jak najwikszej; Due moliwoci formuowania zapyta - wymagane przez konieczno wyboru odpowiednich podzbiorw rekordw i pl do eksploracji danych; Moliwoci powrotu do rda danych - wyniki bada eksplorujcych dane s uyteczne, jeli dostpny jest sposb dalszego badania odkrytych wzorcw; Poszukiwane s sposoby integracji technologii eksploracji i hurtowni danych ze wzgldu na uzupeniajce si ich waciwoci. Obszarw stosowania eksploracji danych jest wiele, obejmuj one te miejsca, w ktrych stosuje si systemy informatyczne, midzy innymi w celu gromadzenia pozyskanych danych w postaci baz danych. Istnieje i powstaje coraz wicej baz danych, majc na myli ich liczb i objto. Ogromne zbiory

ROZDZIA 4. TECHNOLOGIE I NARZDZIA DOSTPOWE

47

danych gromadzone s w hurtowniach danych. Z powodu duej prostoty konstruowania bazy danych oraz akceptowalnych cen, systemy gromadzce dane stosuje si prawie we wszystkich dziedzinach ycia. Wszdzie tam natomiast, gdzie istnieje ju baza danych, pojawia si potrzeba analizy tych danych w celu odkrycia nieznanej dotd wiedzy. Dziedziny, w ktrych szeroko stosuje si eksploracj danych to: technika, medycyna, astronomia, ekonomia, szeroko pojty biznes. KDD znajduj zastosowania przy: * eksploracji danych o ruchu internetowym, * rozpoznawaniu sygnaw obrazu, mowy, pisma, * wspomaganiu diagnostyki medycznej, * badaniach genetycznych, * analizie operacji bankowych, * projektowaniu hurtowni danych, * tworzeniu reklam skierowanych(ang. Targeted ads), * prognozowaniu sprzeday(ang. Sales forecast), * wdraaniu strategii Cross-sellingowej, * wykrywaniu naduy(ang. Fraud detection), * ocenie ryzyka kredytowego, * segmentacji klientw. Przykadem moe by odkrycie w danych z supermarketu zalenoci polegajcej na tym e klient, ktry kupuje szampana i kwiaty, kupuje zwykle rwnie czekoladki.

Rozdzia 5 Istniejce rozwizania Business IntelligencePlatforma Business Intelligence powinna zapewnia kompleksow infrastruktur, rozwizania i technologie obsugujce nastpujce zagadnienia: - integracja danych - zarzdzanie danymi - hurtownie danych - narzdzia BI - repozytorium najlepszych modeli i praktyk biznesowych.

Platformy baz danych dla hurtowni danych Wrd wielu dostpnych obecnie platform baz danych obsugujcych hurtownie danych do czoowych moemy zaliczy nastpujce: - IBM DB2 Warehouse 9.5 - Microsoft SQL Server 2008 - Oracle Database 11g - Teradata Enterprise Data Warehouse 12.0 - Sybase IQ - Netezza Performance Server [DW4U08] Do narzdzi Business Intelligence zaliczamy m.in.: Oracle - Siebel Business Analytics Applications SAS - Business Intelligence SAP - BusinessObjects XI IBM - Cognos 8 BI

48

ROZDZIA 5. ISTNIEJCE ROZWIZANIA BUSINESS INTELLIGENCE49 Oracle - Hyperion System 9 BI+ Microsoft - Analysis Services MicroStrategy - Dynamic Enterprise Dashboards Pentaho - Open BI Suite Information Builders - WebFOCUS Business Intelligence QlikTech - QlikView TIBCO Spotre - Enterprise Analytics Sybase - InfoMaker KXEN - IOLAP SPSS - ShowCase [DW4U08] Analitycy rynku zgodnie plasuj SAS Institute na pozycji lidera zarwno na wiatowym, jak i polskim rynku Business Intelligence. W swoim najnowszym raporcie Magic Quadrant for Business Intelligence Platforms 1Q07 Gartner pozycjonuje SAS Institute w kwadrancie liderw. Ponadto Gartner wymienia SAS Institute wrd liderw Customer Data Mining, Multi-channel Campaign Management i Basel II oraz wrd wizjonerw w zakresie Data Integration Tools, Corporate Performance Management Suites oraz Marketing Resource Management.

Rysunek 5.1: Magic Quadrant for Business Intelligence Platforms, 2008. rdo: Gartner (January 2008)

ROZDZIA 5. ISTNIEJCE ROZWIZANIA BUSINESS INTELLIGENCE50

Rysunek 5.2: Magic Quadrant for Customer Data Mining. rdo: www.sas.com Jednoczenie wedug najnowszego raportu IDC SAS Institute jest jedynym wrd trzech czoowych dostawcw BI, ktry coraz szybciej zwiksza swj udzia w wiatowym rynku. Rwnie niezalena rma analizujca rynek Datamonitor wskazaa SAS Institute jako zdecydowanego lidera rynku. Podobnie pochlebnie na temat rozwiza SAS Institute i pozycji SAS Institute na rynku BI wypowiadaj si inni analitycy: Aberdeen Group, AMR Research, Butler Group, Chartis Research, Forrester Research, Nucleus, Ovum, Yphise.

5.1

Microsoft SQL Server 2005

Microsoft SQL Server 2005 to kompletna platforma Business Intelligence (BI) zapewniajca infrastruktur oraz oprogramowanie serwerowe do tworzenia: kompleksowych hurtowni danych, atwych w obsudze i o wysokiej efektywnoci kosztowej; elastycznych systemw raportowania i analiz, ktre mniejsze przedsi-

ROZDZIA 5. ISTNIEJCE ROZWIZANIA BUSINESS INTELLIGENCE51

Rysunek 5.3: Udzia w rynku poszczeglnych producentw. rdo: www.sas.com biorstwa bd departamenty duych przedsibiorstw mog atwo zbudowa, i ktrymi mog bez problemw zarzdza; systemw dostarczajcych dane analityczne do uytkownikw merytorycznych; systemw analitycznych i Data Mining dziaajcych w ukadzie zamknitym; osadzonych systemw rozszerzajcych zasig rozwiza Business Intelligence. W skad platformy BI rmy Microsoft oprcz relacyjnej bazy danych SQL Server, wchodz ponisze narzdzia i usugi: - Analysis Services - Data Mining - Integration Services - Reporting Services - Report builder - Business Intelligence Development Studio - SQL Server Management Studio

ROZDZIA 5. ISTNIEJCE ROZWIZANIA BUSINESS INTELLIGENCE52

Rysunek 5.4: Platforma Business Intelligence Microsoft. rdo ilustracji: www.datawarehouse4u.info

5.2

Sybase

Sybase jedna z najwikszych na wiecie rm specjalizujcych si w dostarczaniu oprogramowania do zarzdzania informacj w przedsibiorstwie. Relacyjna baza danych Sybase IQ jest motorem najwikszej na wiecie hurtowni danych tworzonej wraz z Sun SPARC Enterprise M9000 Server i BMMsoft Server. Sybase IQ jest w stanie wspiera rekordow iloci informacji na poziomie jednego Petabajta (1024 terabajtw) niezalenych i nieustrukturyzowanych danych. Jest to 34 razy wicej od najwikszych hurtowni baz danych stosowanych w standardowych testach przemysowych i dwukrotnie wicej ni najwiksze komercyjne hurtownie baz danych znane dotychczas. Caociowo hurtownia potra pomieci i zarzdza 6 bilionami wierszych danych transakcyjnych i ponad 185 milionami dokumentw takich jak emaile, raporty, arkusze kalkulacyjne i inne obiekty multimedialne. Hurtownia potra skadowa znacznie wiksze iloci danych na mniejszej powierzchni, dodatkowo jest w stanie przeszukiwa i analizowa dane w krtszym czasie, zuywajc przy tym 91 procent mniej energii i generujc mniej ciepa i dwutlenku wgla ni konwencjonalne rozwizania. Sybase IQ umoliwia uytkownikom zarzdzanie ogromnymi ilociami danych i przyspiesza

ROZDZIA 5. ISTNIEJCE ROZWIZANIA BUSINESS INTELLIGENCE53 procesy analityczne do 100 razy szybciej ni tradycyjne rozwizania. Zaprojektowana od pocztku jako serwer analityczny, aplikacja Sybase IQ zawdzicza swoje niezwyke moliwoci, opatentowanej technologii przetwarzania zapyta, indeksowania w oparciu o kolumny danych oraz algorytmw zoptymalizowanych pod wzgldem wydajnoci. Sybase oferuje niezwykle wysok wydajno za nisz cen w porwnaniu do tradycyjnych aplikacji wykorzystujcych architektur baz danych opartych na wierszach . Dane przechowywane dane w Sybase IQ s skompresowane do 70 procent ich wejciowej wielkoci. 1 W skad platformy Sybase Business Intelligence wchodz nastpujce aplikacje: - PowerDesigner - WorkSpace - Industry Warehouse Studio - ASE Database - Sybase IQ - Data Integration Suite (Replication, Data Federation, Real-time Events, Sybase ETL) - InfoMaker Sybase Warehouse Studio Sybase oferuje Warehouse Studio, ktry jest zintegrowanym zestawem narzdzi do tworzenia hurtowni danych. W jego skad wchodzi ponad dziesi narzdzi i aplikacji przeznaczonych do obsugi projektu (modelowania, oczyszczania i przenoszenia danych), skadowania i zarzdzania danymi, tworzenia zapyta i raportw. Ponadto dostpne s rwnie branowe pakiety aplikacji Sybase Industry Warehouse Studio, ktre zostay przygotowane do tworzenia specjalizowanych hurtowni danych. Dodatkowo, Sybase udostpnia pakiet PowerStage przeznaczony do automatyzacji procesw ekstrakcji, transformacji i oczyszczania danych pochodzcych z rnych rde. Jako platform do dziaania hurtowni danych Sybase oferuje wasny serwer bazy danych - Adaptive Enterprise Server.

5.3

SAS System

SAS Institute, lider w dziedzinie Business Intelligence oraz zaawansowanej analityki ma w ofercie SAS System, ktry skada si z bazy SAS1

http:\\www.sybase.com.pl

ROZDZIA 5. ISTNIEJCE ROZWIZANIA BUSINESS INTELLIGENCE54

Rysunek 5.5: Platforma do:www.sybase.com

Business

Intelligence

Sybase.

r-

Base oraz dodatkowych moduw rozszerzajcych jego podstawowe funkcje. SAS/Warehouse Administrator jest przeznaczony do tworzenia skryptw adujcych hurtownie danych. Pakiet SAS/ACCESS pozwala operowa na danych zewntrznych pochodzcych z innych serwerw baz danych. W systemie znajduj si moduy pozwalajce na zorganizowanie dostpu do hurtowni danych z poziomu Internetu. W ofercie znajduje si rwnie SAS/Enterprise Miner, narzdzie klasy data mining przeznaczone do odkrywania zalenoci w danych oraz caa gama analiz statystycznych.

5.4

IBM

Produkty wchodzce w skad platformy Business Intelligence IBM:

ROZDZIA 5. ISTNIEJCE ROZWIZANIA BUSINESS INTELLIGENCE55 IBM IBM IBM IBM IBM IBM Cognos 8 Business Intelligence InfoSphere Warehouse InfoSphere Master Data Management Server Information Server Industry Models Business Intelligence Services

IBM Visual Warehouse IBM przygotowa zintegrowany pakiet oprogramowania biznesowego pod nazw Visual Warehouse. Pakiet ten zawiera szereg narzdzi przeznaczonych do realizacji poszczeglnych krokw projektu hurtowni danych. Nale do nich: oprogramowanie do deniowania schematu, oprogramowanie do ekstrakcji danych z rnych rde, ich oczyszczania i przeksztacania, oprogramowanie do zasilania hurtowni danymi (adowania za pomoc SQL-a, przyrostowego oraz rwnolegego), narzdzia do automatyzacji procesu zasilania (scheduler), podstawowe oprogramowanie do zarzdzania, narzdzie analityczne typu OLAP oraz oprogramowanie pozwalajce na dostp do hurtowni za pomoc technologii internetowych. W pakiecie zawarty jest rwnie serwer bazy danych DB2 - platforma, na ktrej moe dziaa hurtownia korporacyjna. W ofercie znajduje si jeszcze dodatkowy pakiet DB2 Warehouse Manager rozszerzajcy moliwoci serwera bazy. Udostpnia on nowe funkcje zarzdzania, poprawia skalowalno, zwiksza moliwo kontroli nad zapytaniami oraz metadanymi. IBM oferuje rwnie aplikacje analityczne w technologii OLAP (DB2 OLAP Server) i data mining IntelligentMiner.

5.5

Bizgres

Bizgres - PostgreSQL for Business Intelligence and Data Warehousing Projekt Bizgres ma na celu uczynienie PostgreSQL najlepsz i najpopularniejsz na wiecie open sourceow platform dla rodowisk Business Intelligence. Jest sponsorowany przez wiele rm w tym najmocniej przez GreenPlum. Firmy wsperajce Bizgres: GreenPlum, JasperSoft, Kinetic Networks i Loyalty Matrix tworz tzw. koalicj Bizgres. Projekt jest nadzorowany przez inynierw z GreenPlum, czonkw spoecznoci PostgreSQL oraz przez programistw z innych rm zwizanych z projektem takich jak: Kinetic Networks, JasperSoft, Loyalty Matrix i Sun Microsystems. Celem Bizgres zbudowanie komletnego systemu bazodanowego dla rodowisk Business Intelligence wycznie z darmowego oprogramowania. Bizgres ma

ROZDZIA 5. ISTNIEJCE ROZWIZANIA BUSINESS INTELLIGENCE56 pomc uczyni PostgreSQL siln, darmow alternatyw dla systemw rm Oracle, Sybase, Informix i Microsoft. Moa stwierdzi i Bizgres jest dystrybucj PostgreSQL podobnie jak RedHat i SuSE s dystrybucjami systemu Linux. Bizgres w wersji 0.9 oferuje ponisze cechy wzbogacajce, ktrych prno szuka w PostgreSQL 8.1: indeksy bitmapowe zwikszona wydajno sortowania Bizgres Loader - program napisany w jzyku Java uatwiajcy adowanie znacznych iloci danych do bazy Bizgres jest rozpowszechniany z aplikacj Installation Verication Program (IVP) pomagajc stwierdzi czy system Bizgres jest zainstalowany i skongurowany poprawnie oraz z aplikacj webow Bizgres Clickstream bdc narzdziem BI do wykonywania analiz, raportw korzystajc z KETL i JasperReports KETL to narzdzie ETL (Extraction, Transformation, and Loading) rmy Kinetic Networks JasperReports rmy JasperSoft jest narzdziem raportujcym stworzonych w Javie, ktre pozwala wywietli na ekranie wyniki analizy a nastpnie wydrukowa lub zapisa je w postaci plikw PDF, HTML, XLS, CSV, XML JavaLoader jest narzdziem wytworzonym przez Greenplum, ktre pozwala na adowanie bazy PosgtreSQL przez sie. Wspiera adowanie przez wile strumienie i zawiera limitowantolerancje na bdy i odzuskiwanie po wystpieniu bedu, a take innowacje ktore moja wspiera steronik JDBS Bizgres Clickstream jest aplikacj sieciow stworzon w technologii JSP uywajc serwera aplikacyjnego Apache Tomcat. Zawiera serwer ETL rmy Kinetic Networks (KELT) i silnik generujcy raporty JasperReports. Bizgres Clickstream wykonuje ekstrakcj, transformacj i aduje dane do bazy Bizgres.

ROZDZIA 5. ISTNIEJCE ROZWIZANIA BUSINESS INTELLIGENCE57

5.6

Oracle

Gwne cechy systemu Oracle usprawniajce wydajno i zarzdzanie aplikacjami hurtowni danych: - Zarzdzanie skumulowanymi danymi; - Funkcje analityczne; - Indeksy w postaci bitmapowej; - Zaawansowane metody zczania; - Wyranowany optymalizator SQL; - Zarzdzanie zasobami; - Moliwo wykonywania przebudowy indeksw na bieco; - Moliwo uywania indeksw opartych na funkcjach do indeksacji wyrae np. arytmetycznych lub funkcji modykujcych wartoci w kolumnach; - Funkcja wyrywkowego przeszukiwania; Oracle Database 11g - Oracle Database for Business Intelligence and Data Warehousing - jest kompleksowym systemem bazodanowym dla hurtowni danych i rodowisk Business Intelligence, ktry czy skalowalno, wydajno, integralno oraz jako w jedn platform opart o niezawodn, nisko kosztow infrastruktur gridow. Oracle Database 11g zapewnia funkcjonalno dla hurtowni danych i magazynw danych - data marts, dowiedzion skalowalnoia do 100 Terabajtw i innowacyjnej optymalizacji przetwarzania zapyta. Oracle Database 11g jest tak zintegrowan platform do wykonawania analiz. przez osadzenie OLAP, Data Mining, i moliwoci statystyczne bezporednio w bazie, Oracle dostarcza wszystkich funkcjonalnoci jakie zapewniaj silniki analityczne wraz ze skalowalnoci, bezpieczestwem i niezawodnoci bazy Oracle. Oracle Database 11g zawiera take Oracle Warehouse Builder, w tym ETL. Oracle Warehouse Builder - oprogramowanie przeznaczone do projektowania, generowania i zasilania (narzdzie ETL do pobierania, przeksztacania i wprowadzania danych) korporacyjnych hurtowni danych. W ofercie znajduje si te serwer bazy danych, ktry moe suy jako platforma dla hurtowni danych oraz szereg aplikacji analitycznych. Oprogramowanie do projektowania hurtowni pozwala modelowa j wizualnie, dostpne s kreatory wspomagajce standardowe dziaania projektowe oraz biblioteki transformacji danych. Zapewnia to szybkie tworzenie hurtowni, a cay potrzebny kod generowany jest automatycznie.

ROZDZIA 5. ISTNIEJCE ROZWIZANIA BUSINESS INTELLIGENCE58 Pakiety Oracle Data Mart Suite oraz Oracle Data Mart Suite - Sales & Marketing Edition - suce do tworzenia skadnic danyc