Kierunki rozwoju technologii informatycznych: Hurtownie Danych

Post on 25-Feb-2016

82 views 0 download

description

Kierunki rozwoju technologii informatycznych: Hurtownie Danych. dr inż. Piotr Muryjas Wyższa Szkoła Przedsiębiorczości i Administracji. Plan wykładu. Problemy eksploatacji SIP Hurtownia Danych (HD) - przeznaczenie, definicja, struktura, architektura Punkty krytyczne HD - PowerPoint PPT Presentation

Transcript of Kierunki rozwoju technologii informatycznych: Hurtownie Danych

Kierunki rozwoju technologii informatycznych: Hurtownie Danych

dr inż. Piotr Muryjas

Wyższa Szkoła Przedsiębiorczości i AdministracjiWyższa Szkoła Przedsiębiorczości i Administracji

2/69

Plan wykładu

Problemy eksploatacji SIP

Hurtownia Danych (HD) - przeznaczenie, definicja, struktura, architektura

Punkty krytyczne HD

Projektowanie Hurtowni Danych

3/69

Systemy Informacyjne Przedsiębiorstw (SIP)

Transakcyjne

Wspomagania

Informowaniakierownictwa

Eksperckie

decyzji

Podmiot gospodarczy

Sfera procesów realnych

Sfera regulacji

Poziom strategiczny

Poziom taktyczny

Poziom operacyjny

4/69

Rodzaje SIP

Systemy transakcyjne (ST) Systemy informowania kierownictwa

(MIS) Systemy wspomagania podejmowania

decyzji (DSS) Systemy eksperckie (EIS)

5/69

Eksploracja danych w ST

Olbrzymia ilość rekordów

Ukryte zależności między danymi

Oczekiwanie na odpowiedź

Ciągły wzrost objętości zbiorów danych

Wiele tabel i relacji między nimi Opis rzeczywistości w wybranym obszarze

funkcjonowania przedsiębiorstwa

6/69

Systemy Informowania Kierownictwa (MIS)

Zasilane zagregowanymi danymiz transakcyjnych systemów dedykowanych

Źródło danych dla MIS znajduje się wewnątrz organizacji

Postać danych i stopień agregacji adekwatne do potrzeb informacyjnychi decyzji podejmowanych przez kierownictwo średniego szczebla

7/69

Systemy Wspomagania Decyzji (DSS)

Budowane w oparciu o wybrane modele biznesowe sytuacji decyzyjnych

Źródło danych to systemy transakcyjne Uwzględniają szerszy aspekt prowadzenia

biznesu Stopień agregacji danych uwzględnia różne

wymiary analiz Stosowane na szczeblu taktycznym

(kierownictwo wyższego szczebla np. dyrektorzy departamentów)

8/69

Systemy eksperckie (EIS)

Umożliwiają całościowe spojrzenie na organizację i jej miejsce w otoczeniu

Odnoszą się do wszystkich, typowych dla organizacji aspektów biznesu

Wykorzystują wewnętrzne i zewnętrzne źródła danych

Wykorzystywane na szczeblu strategicznym organizacji (zarządy, rady nadzorcze)

9/69

Systemy DSS i EIS w procesach decyzyjnych

Wymagania: Całościowe spojrzenie na organizację Prawidłowa ocena aktualnej sytuacji

organizacji, oparta na wiarygodnej informacji aktualnej i archiwalnej

Możliwość przeprowadzania analizw dowolnym przekroju informacyjnym niezbędnym dla podjęcia decyzji

10/69

Pojęcie Hurtowni Danych (HD)

Analityczna baza danych przeznaczona jedynie do odczytu, używana jako podstawa systemu wspomagania decyzji

Zintegrowany bank danych wspomagający procesy decyzyjne

Zorientowana tematycznie kolekcja danych, służąca wsparciu procesu podejmowania decyzji kierownictwa

11/69

Pojęcie Hurtowni Danych (HD)

Repozytorium danych z procedurami ich ładowania do HD

Repozytorium uzupełnione minihurtowniami danych

Repozytorium, minihurtownie danych oraz aplikacje analityczne

12/69

Hurtownia Danych - gdzie leży prawda?

Bill Inmon

13/69

Definicja HD

System baz danych zawierający dane: zorientowane tematycznie zintegrowane zorganizowane w czasie trwałe

do wspomagania podejmowania decyzji strategicznych.

14/69

Zorientowanie tematyczne HD

Zgromadzone dane opisują problemy

Lokalizacja danych uzależniona od ich treści ekonomicznych

Dane zorientowane na podejmowanie decyzji w różnych obszarach działania

15/69

Integralność danych w HD

Czystość - ta sama informacja zapisana jeden raz i tylko na jeden sposób (format, jednostka miary)

Poprawność - kontrola danych pobieranychz systemów szczebla operacyjnego

Właściwa agregacja - wybór zmiennych agregujących

16/69

Element czasu w HD

Dane utrzymywane są w długim horyzoncie czasu (ponad 5 lat)

Czas jako wymiar innych danych

Dane tworzą szeregi czasowe

Dane załadowane do HD nie są w czasie aktualizowane

17/69

Trwałość danych w HD

W HD dopuszcza się operacje:– ładowania danych– dostępu do danych

W HD nie przeprowadza się operacji aktualizacji załadowanych danych

Dane analityczne przechowywane sąw postaci gotowych agregatów

18/69

Cele budowy HD

Realizacja misji przedsiębiorstwa

Zwiększenie konkurencyjności firmy

Osiąganie celów biznesowych

Optymalne wykorzystanie zasobów informacyjnych przedsiębiorstwa

19/69

Zadania realizowane przy wykorzystaniu HD

Budowa modelu ekonomicznego Weryfikacja hipotez biznesowych Identyfikacja trendów i zależności Określanie ryzyka Alokacja zasobów

20/69

Przykłady celów biznesowych Badanie rentowności produktów, oddziałów,

współpracy z klientami, spółek zależnych Analiza ryzyka działalności Prognozowanie sprzedaży Wyznaczenie kosztu operacji handlowych Badanie struktury sprzedaży Budowa systemów sprawozdawczości

zarządczej

21/69

Hurtownie danych a CRM Lojalność klientów wobec organizacji Rezygnacje klientów ze współpracy

i powody takiej decyzji Rodzaj produktu czy usługi (mix-produkt)

oferowane klientom określonej grupy wiekowej, zawodowej, terytorialnej

Efektywność realizacji programów pozyskiwania nowych klientów czy też utrzymania klientów dotychczasowych

22/69

Hurtownie danych w e-biznesie Średnia wartość transakcji w internetowym

biurze maklerskim Wartość kredytów zaciągniętych przez

Internet Rodzaje lokat zakładanych przez Internet,

ich średnia wysokość i czas lokaty Wartość przelewu bankowego dokonanego

drogą elektroniczną Średnia wartość transakcji przy użyciu kart

płatniczych

23/69

Dlaczego nie wykorzystać ST?

Brak właściwych danych Zapytania przekrojowe znacznie obciążają

bieżącą pracę ST Bazy danych w ST nie są zoptymalizowane

do analitycznego przetwarzania danych Uzyskanie informacji globalnych wymaga

złączenia wielu tabel baz danych Duża zmienność stanu baz danych

24/69

Różnice między HD i ST (1)

HD oparte są na bazach analitycznych, ST na bazach operacyjnych tzn.:

Dane w HD mają charakter zagregowany, w ST - szczegółowy

HD zawiera wybrane dane, ST - wszystkie dane

ST zawierają zawsze dane aktualne, HD - archiwalne (obraz tych danych)

25/69

Różnice między HD i ST (2)Struktura i przetwarzanie danych: ST przechowują dane w postaci

znormalizowanej, HD - nadmiarowość danych ST oparte są na przetwarzaniu

transakcyjnym, w HD - brak transakcji ST pozwalają na zapis, odczyt, usuwanie

i modyfikację danych, w HD - tylko odczyt ST zasilane są stałym i równomiernym

strumieniem danych, HD - duża ilość danych w krótkich odcinkach czasu

26/69

4 powody separacji HD i ST

Wydajność

Dostęp do danych

Format danych

Jakość danych

27/69

Podobieństwa HD i ST

Oparte na bazach danych Posiadają wbudowane języki

przetwarzania danych Przechowywane dane można graficznie

prezentować

Możliwość wprowadzania danych

28/69

Hurtownie Danych a DSS/EIS

DSS/EIS posiadają rozbudowane narzędzia analizy danych

DSS/EIS nie są odpowiednio wyposażonew narzędzia organizacji danych

HD dostarczają dla DSS/EIS wsparciaw postaci baz danych

HD dostarczają danych niezbędnych dla DSS/EIS

29/69

Użytkownicy HD

Osoby odpowiedzialne za realizację misji i strategii przedsiębiorstwa (zarządy, rady nadzorcze)

Analitycy biznesowi

Pracownicy merytoryczni

Informatycy

30/69

Wymagania użytkowników wobec HD

Możliwość definiowania zapytań ad-hoc (dowolne zapytania na dowolnych przekrojach danych, zapytania w języku naturalnym)

Udzielanie szybkich odpowiedzi

Kompleksowa analiza danych

Właściwy sposób prezentowania informacji

Wiarygodność informacji zarządczej

31/69

Klasyczny model HD

ST 3

ST 2

ST 1

Hurtownia Danych

MHD 3

MHD 2

MHD 1

Wyniki

Wyniki

Wyniki

32/69

Architektura HDSystemy transakcyjne przedsiębiorstwa

SprzedażProdukcjaF-KOtoczenie

SZBD HURTOWNI DANYCH

Oprogramowanie zasilania HD

Oprogramowanie klienta

RaportMarketing

RaportFinanse

RaportZarządzanie

RaportSprzedaż

33/69

Elementy architektury HD

Dedykowane źródłowe systemy transakcyjne organizacji

Oprogramowanie zasilania danymi bazy danych hurtowni

Wielowymiarowa baza danych oraz system zarządzania bazą danych

Oprogramowanie klienta realizujące funkcję analityczną oraz prezentacyjną danych

34/69

Struktura funkcjonalna HD

Zarządzanie metadanymi

Ładowanie

Przekształacanie danych

Wybieranie danych

Metadane

Repozytorium

OLAPAnalizy

ZapytaniaRaportowanie

PrognozyData miningWizualizacja

Intranet

Użytkownik końcowy

35/69

Zarządzanie HD Sposoby dostępu do danych w ST:

– interfejsy dostępu do BD Oracle, Informix, DB/2, Sybase ...

– język SQL, 4GL

Walidacja, czyszczenie, formatowaniei agregacja danych

Zasilanie HD:– procedury analizy statystycznej– odświeżanie danych– metadane opisujące proces zasilania HD

36/69

Organizacja HD - metadane

Modele danych:– relacyjny model danych, – inne modele (np. hierarchiczny, gwiazdy, płatek

śniegu)

Sposób zasilania danymi

Architektura HD:– scentralizowana– rozproszona (data marts)

Dostęp użytkowników

37/69

Metadane - co jeszcze składa się na HD?

Struktura danych hurtowni uwzględniająca wymagania SWD

Sposób transformacji danych operacyjnych (algorytmy)

Relacje między modelem danychw systemach operacyjnych a HD

Historia zasilania HD danymi operacyjnymi

38/69

Organizacja metadanych

Lista metadanych Ważność Odpowiedzialność Zawartość Dostępność Jakość metadanych

Kompletność Nadrzędna

kontrola Dokumentowanie

działań, odpowiedzialności

39/69

Eksploatacja HD Zapytania i raporty:

– filtrowanie danych, język 4GL i SQL

Techniki analizy danych:– MOLAP, ROLAP, HOLAP

Wizualizacja danych: – wykresy, drzewa decyzyjne, statystyka

Wspomaganie procesów decyzyjnych:– ekonometria, badania operacyjne, prognozowanie

Publikacja wyników w formacie HTML

40/69

Struktura danych w HD

Szczegółowe dane bieżące Archiwalne dane szczegółowe Dane częściowo zagregowane Silnie zagregowane dane Metadane

41/69

Zasilanie HD

Wybór danych Lokalizacja danych Transformacja danych do zunifikowanej

postaci Integracja danych Częstotliwość zasilania

Wprowadzanie danych do HD, opartych na danych operacyjnych.

42/69

Organizacja zasilania HD

Ludzie biznesu i informatycy Zespoły zadaniowe:

– projekt struktury hurtowni– analiza danych źródłowych– logika konwersji danych– budowa i generowanie procedur konwersji– zapewnienie jakości danych

Zrozumienie wymagań związanychz konwersją i przepływów danych

43/69

Projekt zasilania HD

Plan konwersji danych operacyjnych

Definicja specyfikacji konwersji

Ekstrakcja danych operacyjnych do postaci schematów pośrednich

Konwersja schematów pośrednich do postaci danych ładowanych

Agregacja danych

Ładowanie i indeksowanie danych

Zapewnienie jakości danych

44/69

Plan konwersji danych Określa najlepszy sposób migracji danych do hurtowni

Uwzględnia:

- dostępne zasoby danych, - liczność danych, - liczbę różnych schematów danych, - metody i platformy dostępu, - języki ekstrakcji danych,- strukturę hurtowni, - liczbę wymaganych agregacji

45/69

Specyfikacja konwersji danych

Sposób przypisania danych źródłowych do danych w hurtowni (dane, logika)

Inne zewnętrzne źródła informacji

Opis procesów: – ekstrakcji danych do postaci schematu pośredniego, – konwersji schematu pośredniego,– agregacji danych,– migracji danych do baz danych hurtowni,– walidacji danych

46/69

Ekstrakcja danych w schematy pośrednie

Zwiększenie użyteczności programów do czyszczenia danych, transformacjii integracji

Zachodzi w środowisku systemów transakcyjnych

Procedury identyfikacji starychi nowych danych operacyjnych

Izolowanie niezbędnych danych

47/69

Konwersja schematów pośrednich Identyfikacja wzorców danych i liczby pól

Określenie kontekstu i przeznaczenia danych

Korekcja danych w oparciu o listy

Eliminacja nadmiarowych rekordów

Rezultat:– dane o wymaganym poziomie granulacji– dane dla tabel wymiarów i tabel faktów– klucze wybierania danych

48/69

Agregacja danych

Miejsce wykonania - poza serwerem hurtowni

Powody:– narzędzia agregacji są szybsze niż RDBMS– pewność wykonania– szybkość i skuteczność wbudowanych

procedur ładowania danych zagregowanych

49/69

Ładowanie i indeksowanie danych

Umieszczenie danych na serwerze hurtowni

Tworzenie tabel faktów i wymiarów

Indeksowanie: – natychmiastowe– z opóźnieniem

Koordynacja procesów

50/69

Zapewnienie jakości danych

Nadrzędny charakter kontroli etapów zasilania

Dokumentowanie działań

Aktywny udział użytkowników

Dobra znajomość strukturyi znaczenia danych źródłowych

Zrozumienie procesów zasilania

Zatwierdzanie etapów zasilania

51/69

Modelowanie danych w HD

Model korporacyjny danych jako punkt wyjścia

Oczyszczanie modelu danych Element czasu Denormalizacja Wybór modelu danych:

– star join (model gwiazdy)– snowflake (płatek śniegu)

52/69

Modele danych - gwiazda

Miejsce

CzasProdukt

Sprzedaż

Klient

Miejsce

Czas

Produkt Sprzedaż

Centrum gwiazdy - tablica faktów Otoczenie gwiazdy - tablice wymiarów (wskaźników

do tabeli faktów)

53/69

Modele danych - płatek śniegu

Miesiąc

Kwartał

Rok

Rodzaj

Czas

Płeć

Produkt

Sprzedaż

Klient

Wykształcenie

Cena

Miejsce

Wiek

Kraj

Region

Kontynent

54/69

OLAP - On-Line Analytical Processing

Aplikacje wspomagania interaktywnych analiz wykonywanych na bieżąco

Udostępnianie danych analitycznychw różnych przekrojach i w sposób przystępny dla użytkowników

Możliwość dynamicznego prowadzania analiz danych skonsolidowanych przedsiębiorstwa

55/69

Zadania realizowane w OLAP

Porównywanie dowolnych danych Analiza danych historycznych (trendy) Dostęp do danych na dowolnym poziomie Perspektywy dostosowane do

indywidualnych potrzeb użytkownika

Analizy typu „what-if” Tworzenie graficznej prezentacji danych

56/69

Przesłanki użycia OLAP

Dane niezbędne są do prowadzenia analiz (nie rejestracji zdarzeń)

Konieczność prowadzenia złożonych obliczeń i agregacji danych operacyjnych

Potrzeba przekrojowego spojrzenia na dane

Względna niezmienność danych w czasie

57/69

Wielowymiarowe BD w HD

Charakter danych Tylko odczyt danych Agregaty danych:

– agregat podstawowy– agregat częściowy

Krótki czas oczekiwania na odpowiedź Duża efektywność formułowania

zapytań ad-hoc

58/69

Budowa HD

Przedsięwzięcie informatycznei organizacyjne

Proces iteracyjny

Projekt, który nie kończy się

Możliwe zastosowanie metod inżynierii systemów

59/69

Etapy budowy HD Zakres projektu Wymagania biznesowe Korporacyjny model danych Koncepcyjny model HD Identyfikacja źródeł danych operacyjnych Architektura HD Technologia implementacji Implementacja HD

60/69

Inżynieria systemów w procesie budowy HD

Planowanie systemu Określenie wymagań i analiza Projekt systemu Integracja Weryfikacja i konserwacja

61/69

Spiralny model cyklu życia HD

Wymagania i analiza

Projekt systemu

Weryfikacja i konserwacja

Diagram przepływu

danych

Diagram E-R

Model metadanych

Integracja

Komponenty HD

Aplikacje OLAP Modyfikacja

metadanych

Określenie potrzeb

użytkowników

62/69

Faza planowania systemu

Wybór strategii budowy HD:– strategia Top Down – strategia Bottom Up

Wybór metodologii budowy:– model kaskadowy– model spirali

Cele biznesowe

Wstępna kolekcja metadanych

63/69

Wymagania i analiza - właściciel HD

Jakie problemy biznesowe będą rozwiązywane? Ile to kosztuje? Kiedy będą pierwsze efekty? Jaki będzie wpływ HD na pracowników, ich

umiejętności, organizację? Czy potrafimy podołać takiemu zadaniu? Jakie jest ryzyko zastosowania tej technologii?

64/69

Wymagania i analiza - analityk biznesowy

Jakie analizy można przeprowadzać? Jakie funkcje oferuje HD? Jaka jest ziarnistość danych? Jakie raporty można generować? Jakie są możliwości modyfikacji raportów? Jakie są możliwości budowy raportów od

podstaw? Jakie dodatkowe analizy można

samodzielnie definiować?

65/69

Wymagania i analiza - informatyk

Jaka jest platforma implementacji HD? Jakie są standardy i interfejsy? Czy architektura HD jest otwarta? Jakie są metody i narzędzia dostępu oraz

zasilania HD? Jaka jest struktura sieci, w której zostanie

osadzona HD? Jakie są możliwości optymalizacji działania

HD?

66/69

Projekt systemu

Określa sposób spełnienia wymagań odbiorców HD

Definicja specyfikacji kolejnych poziomów HD: modele logiczne i fizyczne

Identyfikacja procesów zasilania HDi procesów w HD

Identyfikacja procesów integracji danych źródłowych, HD i narzędzi dostępu do HD

67/69

Integracja

Osadzenie HD w platformach systemowej i sprzętowej (instalacja serwera bazy danych)

Implementacja modelu metadanych HD Instalacja oprogramowania klienta Realizacja procedur zasilania HD Realizacja procedur dostępu do HD

z poziomu aplikacji klienta

68/69

Weryfikacja i konserwacja

Zgodność z wymaganiami odbiorców Ocena zestawień analitycznych

generowanych z HD przez specjalistę Zarządzanie metadanymi

(np. modyfikacja istniejących źródeł, nowe źródła danych i kanały dystrybucji danych, zmiana reguł konwersji danych, nowe aplikacje analityczne lub prezentacji danych)

69/69

Warunki sukcesu HD Koncentracja uwagi na wybranym

obszarze funkcjonowania przedsiębiorstwa (najważniejszy jest biznes, nie technologia)

Zrozumienie danych analitycznychi operacyjnych

Małe, ale widoczne kroki w budowiei wdrażaniu HD

Korzystanie z pomocy konsultantóww fazie projektu

Współpraca z przyszłym użytkownikiem HD (definicja potrzeb, szkolenia)