Integracja danych i raportowanie w chmurze obliczeniowej Windows Azure - transkrypt webinarium IDG

18
WEBINARIUM MICROSOFT Konrad Wypchło, Program Manager, ITMAGINATION Włodzimierz Bielski, Architekt, ITMAGINATION Tematem trzeciego eSeminarium firmy Microsoft z cyklu Chmura publiczna w scenariuszach biznesowych jest wykorzystanie chmury obliczeniowej do integracji i wizualizacji danych. Niniejszą publikację rozpoczniemy od przedstawienia aktualnych trendów w analizie danych. Opowiemy o problemach i wyzwaniach, jakie stają przed nami w zakresie integracji, przetwarzania i raportowania danych biznesowych. Zanim przejdziemy do omawiania scenariuszy biznesowych, poszukajmy odpowiedzi na pytanie, jakie wyzwania w zakresie analizy danych stoją dzisiaj przed firmami różnej wielkości? Nie ulega wątpliwości, że najważniejszym obecnie trendem na rynku nowych technologii jest Big Data. Hasło to nierzadko pada z ust osób związanych z branżą IT. Prelegenci Cykl webinariów Agenda spotkania Wyzwania analizy danych 1. Prowadzący: Paweł Potasiński, Microsoft ITMAGINATION jest partnerem Microsoft od 6 lat, czyli od początku istnienia firmy. Główną działalnością ITMAGINATION jest budowa systemów analitycznych i raportowych dla różnych grup odbiorców i szerokiego spektrum zastosowań. Przedsiębiorstwa muszą zmagać się z dużą ilością danych. Bazy danych, w tym bazy operacyjne, osiągają rozmiary już nie setek gigabajtów, tylko bardziej dziesiątek terabajtów. Mamy ogromne hurtownie danych, coraz większe są również bazy analityczne. W branży mówi się o tym, że świat podąża w kierunku baz danych, który rozmiar liczy się w zetabajtach, czyli w jednostkach, którymi dzisiaj nie operujemy. Na trzech wybranych scenariuszach biznesowych pokażemy, w jaki sposób usługi Microsoft udostępniane w chmurze wpisują się w te zagadnienia. Na koniec spróbujemy odpowiedzieć na pytanie, jak zacząć używać technologii chmurowych, aby przyniosły one wymierne korzyści biznesowe? Spotkanie trzecie: Integracja danych i raportowanie w chmurze obliczeniowej Windows Azure

description

 

Transcript of Integracja danych i raportowanie w chmurze obliczeniowej Windows Azure - transkrypt webinarium IDG

Page 1: Integracja danych i raportowanie w chmurze obliczeniowej Windows Azure - transkrypt webinarium IDG

Webinarium microsoft

Konrad Wypchło, Program Manager, ITMAGINATION

Włodzimierz Bielski, Architekt, ITMAGINATION

Tematem trzeciego eSeminarium firmy Microsoft z cyklu Chmura publiczna w scenariuszach biznesowych jest wykorzystanie chmury obliczeniowej do integracji i wizualizacji danych.

Niniejszą publikację rozpoczniemy od przedstawienia aktualnych trendów w analizie danych. Opowiemy o problemach i wyzwaniach, jakie stają przed nami w zakresie integracji, przetwarzania i raportowania danych biznesowych.

Zanim przejdziemy do omawiania scenariuszy biznesowych, poszukajmy odpowiedzi na pytanie, jakie wyzwania w zakresie analizy danych stoją dzisiaj przed firmami różnej wielkości? Nie ulega wątpliwości, że najważniejszym obecnie trendem na rynku nowych technologii jest Big Data. Hasło to nierzadko pada z ust osób związanych z branżą IT.

Prelegenci

Cyklwebinariów

Agendaspotkania

Wyzwania analizy danych

1.

Prowadzący: Paweł Potasiński, Microsoft

ITMAGINATION jest partnerem Microsoft od 6 lat, czyli od początku istnienia firmy. Główną działalnością ITMAGINATION jest budowa systemów analitycznych i raportowych dla różnych grup odbiorców i szerokiego spektrum zastosowań.

Przedsiębiorstwa muszą zmagać się z dużą ilością danych. Bazy danych, w tym bazy operacyjne, osiągają rozmiary już nie setek gigabajtów, tylko bardziej dziesiątek terabajtów. Mamy ogromne hurtownie danych, coraz większe są również bazy analityczne. W branży mówi się o tym, że świat podąża w kierunku baz danych, który rozmiar liczy się w zetabajtach, czyli w jednostkach, którymi dzisiaj nie operujemy.

Na trzech wybranych scenariuszach biznesowych pokażemy, w jaki sposób usługi Microsoft udostępniane w chmurze wpisują się w te zagadnienia. Na koniec spróbujemy odpowiedzieć na pytanie, jak zacząć używać technologii chmurowych, aby przyniosły one wymierne korzyści biznesowe?

Spotkanie trzecie: Integracja danych i raportowanie w chmurze obliczeniowej Windows Azure

Page 2: Integracja danych i raportowanie w chmurze obliczeniowej Windows Azure - transkrypt webinarium IDG

2.

Webinarium microsoftProwadzący: Paweł Potasiński, Microsoft

Z drugiej strony możemy powiedzieć, że same w sobie dane nie mają większej wartości. Są po prostu brzydkie. Klienci bardzo często pytają o to, w jaki sposób mogą poradzić sobie z dużą ilo-ścią nieuporządkowanych danych, nad którymi nie panują. W wielu przypadkach są to dane pochodzące z zewnątrz, spoza organizacji. Szacuje się, ze ilość tych informacji sięga nawet 85% wszystkich danych. Z perspektywy ich analizy, jest to bardzo duża ilość.

Kilka lat temu nie mówiono jeszcze, że chmura obliczeniowa może być podstawą do tworzenia rozwiązań z zakresu analizy danych. Spróbujmy odpowiedzieć, jak to jest dzisiaj?

Chcielibyśmy zaznaczyć, że każdy użytkownik, niezależnie czy będzie to analityk lub kierownik, w różnych sytuacjach, na spotkaniach, na prezentacjach, powinien mieć narzędzia, które pozwolą mu te informacje po pierwsze analizować, a po drugie prezentować innym, w sposób atrakcyjny wizualnie, zrozumiały i ułatwiający przekaz. Z punktu widzenia użytkownika, nieistotne jest to, w jaki sposób i gdzie te dane będą przechowywane. Platforma technologiczna po-winna być w jak największym stopniu odsunięta od użytkowników.

Duża ilość nieuporządko-wanych danych

Chmura w analizie danych

Narzędzia analizy

Wreszcie, ilość tych danych jest nie tylko duża, ale i rośnie w zastraszającym tempie. Mówi się o tym, że obecnie, w okresie 2-3 miesięcy, na świecie przybywa taka ilość informacji jak przez kilka wieków wstecz. Największym problemem, z którym się borykamy, jest więc coraz większa ilość danych.

Faktem jest, że nie tak dawno, o chmurze jeszcze nikt nie wspominał lub dopiero zaczynało się o niej mówić. Rozwiązania firmy ITMAGINATION skupiały się wokół przetwarzania danych stricte poprzez systemy budowane przez działy IT. Cykl tworzenia takiego systemu był dość długi.

Dzisiaj użytkownicy i firmy chcą mieć dane dostępne jak najszybciej, a przy tym samodzielnie móc je w różny sposób je modelować i pobierać z różnych źródeł. W kontekście Big data warto podkre-ślić, że nie tylko wolumen, ale również różnorodność źródeł, nawet jeśli mowa o prostych skoro-szytach Excel, jest już na tyle duża, że potrzebujemy dodatkowych rozwiązań, które będą wspierać procesy ich przetwarzania i analizy.

Microsoft ma bogatą ofertę rozwiązań do analizy danych dostarczanych w modelu on premise. W skład tej grupy produktów wchodzi SQL Server wraz z narzędziami analitycznymi Business Intelligence. Nowe rozwiązania chmurowe w sposób spójny integrują się z dotychczas stosowanymi systemami. To przesunięcie technologii ma niejako charakter wyniesienia tradycyjnych aplikacji i serwerów do chmury. Z drugiej strony narzędzia te udostępniane są klientom w formie usług sprzedawanych w modelu Software as a Service (SaaS).

Spotkanie trzecie: Integracja danych i raportowanie w chmurze obliczeniowej Windows Azure

Page 3: Integracja danych i raportowanie w chmurze obliczeniowej Windows Azure - transkrypt webinarium IDG

Korzystając z platformy Windows Azure możemy w łatwy sposób przenosić, kopiować czy replikować bazy danych Microsoft SQL Server uruchomione lokalnie (on premise) do chmury.

Porozmawiajmy na temat wyzwań związanych z analizą dużych zbio-rów danych. Dzisiaj firmy stają przed koniecznością szybkiej analizy informacji, które napływają z różnych, zmieniających się źródeł.

Integracja systemów

Wyzwania analizy

3.

Z perspektywy programisty i użytkownika końcowego ważne jest, że proces dostępu do tych danych jest w pełni przezroczysty. Nie ma znaczenia, czy maszyna z bazą danych działa w lokalnym centrum danych, czy też jest to zasób dzierżawiony w chmurze publicznej.

Z jednej strony mamy infrastrukturę utrzymywaną w lokalnym lub wynajmowanym centrum danych, a z drugiej szeroko rozumianą chmurę, do której możemy przenosić wszystkie swoje dane, aplikacje i serwery. Oba te byty, czyli infrastruktura lokalna (on premise) i chmura, wzajemnie się przenikają. Wyobraźmy sobie scenariusz, w którym firma zaczyna migrować pewne zasoby do chmury. Przykła-dowo, kopie danych są przesuwane do zewnętrznej lokalizacji, aby oddzielić je od systemu transakcyj-nego. I odwrotnie: mając pewne rozwiązanie chmurowe, może się okazać że z jakichś powodów (np. organizacyjnych) zechcemy przenieść je do lokalnego centrum danych. Każdy z tych scenariuszy jest możliwy do wykonania.

Integracja systemów działa więc w obie strony, jest bardzo prosta do przeprowadzenia i przezroczysta dla wszystkich odbiorców danych. Oprogramowanie Microsoft wspiera procesy migracji między środo-wiskiem lokalnym i chmurą.

W jednym z przykładów integracji, który zaprezentujemy w dalszej części tekstu, zostaną pokazane dane w arkuszu Excel, które będą pochodzić z repliki danych, znajdującej się w chmurze.

Problemem jest więc przetwarzanie danych, które mają odmienną formę i pochodzą z nieznanych wcześniej źródeł. W każdym z tych przypadków konieczna jest zmiana samych źródeł, które – co ważne odnotowania – zmieniają się wraz z otoczeniem.

Z tego względu coraz większą popularnością na rynku cieszą się rozwiązania samoobsługowych systemów analitycznych (self-service BI). Wskazują na to najnowsze analizy trendów prezentowane m.in. przez Gartnera. Microsoft doskonale wpisuje się w te trendy ze swoimi rozwiązaniami, dostar-czając m.in. rozwiązanie Power BI, który szerzej omówimy w dalszej części tekstu.

Webinarium microsoftProwadzący: Paweł Potasiński, Microsoft

Spotkanie trzecie: Integracja danych i raportowanie w chmurze obliczeniowej Windows Azure

Page 4: Integracja danych i raportowanie w chmurze obliczeniowej Windows Azure - transkrypt webinarium IDG

O systemach self-service BI mówimy głównie w kontekście użyt-kowników biznesowych. Dzięki tego typu narzędziom pracownicy mogą samodzielnie analizować duże ilości danych. W tym miejscu nasuwa się pytanie o rolę działu IT w zakresie dostarczania i prze-twarzania danych w przedsiębiorstwie.

Wszystkie przykłady zaprezentowane w niniejszym tekście są w mniejszym lub większym stopniu oparte o rozwiązanie Power BI. Zanim jednak przejdziemy do kwestii technicznych, spróbujmy od-powiedzieć na pytanie, w jaki sposób dzisiaj przetwarzamy i anali-zujemy dane.

Z jednej strony rola działu IT w zasadzie pozostaje ta sama. Informatycy nadal są odpowiedzialni za dostarczanie i utrzymanie zasobów IT, niezależnie od tego, czy będzie to infrastruktura lokalna, czy w chmurze.

Rola IT w biznesie

Power BI

Podsumowanie części I

4.

IT pełni rolę moderatora – usługodawcy, który dostarcza ustrukturyzowane dane np. w postaci hurtowni danych. Mamy więc tutaj tradycyjne podejście do agregacji i udostępniania użytkownikom końcowym danych, które pochodzą z systemów informatycznych przedsiębiorstwa.

Dział IT nadal pozostaje potrzebny, jednak wszystkie te dane, które dzisiaj są agregowane przez informatyków, np. cele sprzedażowe dostarczane w formie dokumentów Excel, będą mogły być przygotowywane przez użytkowników końcowych. Podejście to pozwala skrócić czas potrzebny na pozyskanie informacji z wielu dni do minut, właśnie dzięki temu, że to użytkownik generuje sam potrzebnemu zestawienia.

Część zadań związanych z pozyskiwaniem, przetwarzaniem i analizą danych będzie mogła być jed-nak wykonywana przez użytkowników końcowych. Dzięki temu podejściu, niektóre zadania uda się wykonać szybciej. Do minimum ograniczona zostaje potrzeba komunikacji pomiędzy działem IT, a użytkownikami biznesowymi. W tym kontekście dział IT otwiera przed pracownikami przedsię-biorstwa nowe możliwości, natomiast sam proces zarządzania i utrzymania systemów informatycz-nych pozostaje bez zmian.

Zanim zaczniemy pracować z danymi musimy je pobrać ze źródeł wewnętrznych (np. system ERP, dokumenty Excel), bądź też źródeł zewnętrznych (np. sieci społecznościowe). Problem w tym, że posiadając te dane, nie możemy zagwarantować ich wysokiej jakości. Wynika to z faktu, że w wielu przypadkach są one wprowadzane przez ludzi (ryzyko pomyłek) lub pochodzą z niezna-nych nam systemów.

Webinarium microsoftProwadzący: Paweł Potasiński, Microsoft

Spotkanie trzecie: Integracja danych i raportowanie w chmurze obliczeniowej Windows Azure

Page 5: Integracja danych i raportowanie w chmurze obliczeniowej Windows Azure - transkrypt webinarium IDG

5.

Webinarium microsoftProwadzący: Paweł Potasiński, Microsoft

Ważnym krokiem jest więc proces oczyszczania danych. Na tym etapie wymagane jest, aby używana przez nas platforma BI wspie-rała te zadania. Jak się później przekonamy, w oprogramowaniu Power BI mamy do tego odpowiednie narzędzia.

Zobaczmy, jak przekłada się to na komponenty Power BI. Do pobie-rania i oczyszczania danych możemy użyć narzędzia Power Query. Power BI stanowi element usługi Office 365. Jest to jeden z dodat-ków (add-ons), które można dodać do subskrypcji narzędzi i usług biurowych dostarczanych w chmurze Microsoft.

Oczyszczanie danych i raportowanie

Elementy Power BI

Kolejny krok polega na łączeniu danych pochodzących z różnych źródeł, spinając je w przyjętym modelu analitycznym. Połączone dane warto wzbogacić o informacje referencyjne pochodzące z zewnątrz np. z chmury.

Zebrane i przygotowane dane musimy lepiej zrozumieć (poczuć je), aby móc w kolejnym kroku zbu-dować proste, wiarygodne oraz czytelne dla użytkowników biznesowych wizualizacje. Pamiętajmy, że odbiorcą tych danych może być również osoba zarządzająca przedsiębiorstwem, która ma bardzo mało czasu. Narzędzie, które oddajemy w ręce użytkownika musi być więc intuicyjne w obsłudze. Zestawienia i wizualizacje możemy udostępnić w portalu intranetowym, aby zapewnić wygodny dostęp do nich pozostałym osobom.

Zwróćmy uwagę, że platforma analityczna firmy Microsoft pozwala wykonać te same czynności na wiele sposobów. Pokazujemy ścieżkę bazującą na oprogramowaniu Power BI, która nie wyklucza możliwości użycia klasycznych narzędzi do analizy danych np. PowerPivot obecnego na rynku już ponad 5-6 lat.

Najlepszym narzędziem do eksploracji danych pozostaje bez wątpienia dobrze znany wszystkim pro-gram jakim jest Microsoft Excel. W temacie naszej publikacji cały czas poruszamy się w obrębie Excela wzbogaconego o pewne dodatki. Pół żartem można dodać, że część danych będzie pochodziła z na-rzędzia, które w dalszej części wykorzystamy do analizy tych danych przy użyciu rozwiązań Power BI. Wynika to z faktu, że w wielu scenariuszach chcemy podłączyć się pod istniejący proces i go ulepszyć, a niekoniecznie zamieniać.

Jeśli chodzi o wizualizację danych do dyspozycji mamy stosunkowo nowe narzędzie Power View, dostęp-ne również dla urządzeń mobilnych. Power Map umożliwia prezentację danych i wykresów na trójwy-miarowej mapie Ziemi. Gwarantuje niespotykane wrażenia wizualne. Z kolei współdzielenie danych, zestawień i raportów odbywa się z wykorzystaniem platformy SharePoint w chmurze Windows Azure.

Spotkanie trzecie: Integracja danych i raportowanie w chmurze obliczeniowej Windows Azure

Page 6: Integracja danych i raportowanie w chmurze obliczeniowej Windows Azure - transkrypt webinarium IDG

6.

Webinarium microsoftProwadzący: Paweł Potasiński, Microsoft

W trakcie omawiania pierwszego scenariusza spróbujemy pokazać kawałek Power BI w ujęciu praktycznym. Konrad wcieli się w rolę menedżera sprzedaży w firmie z branży FMCG. Przedsiębiorstwo to dostarcza klientom detalicznym szeroki asortyment wody mineralnej.

System analityczny ma pomóc w mierzeniu wydajności pracowni-ków. Zadaniem kierownika jest śledzenie, jak wizyty przedstawicieli handlowych u klientów przekładają się na sprzedaż (efektywność).

Scenariusz 1: Menedżer sprzedaży

Wydajność pracowników

Z perspektywy menedżera sprzedaży, Konrad spotyka się z kilkoma problemami, które chciał-by rozwiązać za pomocą narzędzia BI. Pierwszym z nich jest brak rzetelnych informacji na temat sprzedaży. System analityczny ma zapewnić mu podstawowe dane i wskaźniki sprzedaży w różnych przekrojach – z podziałem na regiony, przedstawicieli handlowych czy produkty. Konrad chciałby mieć również większą kontrolę nad sposobem prezentacji tych danych. Odpowiedzią na problemy Konrada jest program Excel, który integruje wszystkie komponenty Power BI.

Zacznijmy od przedstawienia rozwiązania, czyli pokazania tego co trzeba zrobić, aby uzyskać pożą-dany efekt końcowy. W tym celu przygotowaliśmy zestaw interaktywnych raportów Power View, któ-re pozwalają za pomocą kilku kliknięć zmieniać zakres i sposób prezentacji danych. Na przykład, za pomocą jednego kliknięcia wybieramy region sprzedaży, aby zawęzić (przefiltrować) zakres wy-świetlanych danych do wskazanego obszaru. Tak pozyskane dane pozwoliły nam wzmocnić działa-nia w regionie w celu zwiększenia wyników sprzedaży.

W tym celu przygotowaliśmy raport, który pokazuje liczbę wizyt w zadanym okresie (tutaj: jest to rok) oraz poziom realizacji planów sprzedaży, rozumianą tutaj przez wartość sprzedaży brutto. Na wykresie można zauważyć, że w ciągu ostatnich kilku okresów, liczba wizyt u klientów była zna-cząca, a mimo to wartość sprzedaży pozostała na tym samym poziomie. Trend ten jest szczególnie widoczny pod koniec roku, kiedy dynamika sprzedaży nie była już tak duża, jak na początku okresu. Drugim wnioskiem, który można wyciągnąć z analizy jest to, że rynek już nasycił się po wprowadze-niu nowego produktu. Powodem mniejszej dynamiki sprzedaży może być również fakt, że sprzedaż wody mineralnej jest sezonowa, ze szczytem w okresie letnim.

Aby to potwierdzić, wybierzmy jeden kluczowy produkt (Wodospad smaku), a następnie przeanali-zujmy jego sprzedaż. Wyraźnie widać, że w miesiącach letnich sprzedaż jest najwyższa. Mamy więc do czynienia z klasyczną sezonowością sprzedaży dla wybranego asortymentu.

Model ten warto rozszerzyć o elementy systemu Big data, dołączając do danych sprzedażowych informacje o średniej temperaturze miesięcznej lub dniowej w miejscach, gdzie woda (główny produkt firmy) jest sprzedawana. Narzędzia Microsoft umożliwiają wykorzystanie danych, które są udostępniane publicznie, tutaj: danych meteorologicznych.

Spotkanie trzecie: Integracja danych i raportowanie w chmurze obliczeniowej Windows Azure

Page 7: Integracja danych i raportowanie w chmurze obliczeniowej Windows Azure - transkrypt webinarium IDG

7.

Tworzenie raportów analitycznych jest bardzo proste, kiedy mamy zdefiniowany model danych. Kryje się za tym kompletna infrastruktu-ra, która umożliwia funkcjonowanie całego systemu analitycznego.

W kwestii licencjonowania mamy do wyboru dwie opcje. Możemy samodzielnie zarządzać licencjami na oprogramowanie zainstalowane w maszynie wirtualnej lub też wynająć zasoby w chmurze Windows Azure z prawem do używania wskazanych aplikacji Microsoft.

Analityka w chmuzre

Licencjonowanie i koszty chmury

Nie chcemy, aby system analityczny dodatkowo obciążał system produkcyjny (on-premise). W tym celu, za pomocą wbudowanych narzędzi SQL Server, wykonaliśmy replikę maszyny wirtualnej bazy danych do chmury Windows Azure. W rezultacie otrzymaliśmy coś na wzór hurtowni danych, która przechowuje te same informacje, co system źródłowy (baza operacyjna), ale jest używana wyłącz-nie na potrzeby raportowania oraz pobierania danych (odpytywania) za pomocą programu Excel czy innych narzędzi analitycznych. Tak wydzielona „hurtownia danych” może posłużyć nam także do zbudowania bazy analitycznej.

Zbudowanie infrastruktury, która pozwoli nam odpiąć się od systemu produkcyjnego jest niezwykle proste. Stworzenie maszyny wirtualnej lub klastra Hadoop w Windows Azure sprowadza się do kil-ku kliknięć myszą. W galerii Azure znajdziemy gotowe do użycia maszyny wirtualne Windows i SQL Server, co pozwala ograniczyć czas potrzebny na instalację tych systemów od podstaw.

Drugi model oznacza nieco wyższy koszt wynajęcia maszyny wirtualnej, z drugiej - daje nam więk-szą swobodę w zamawianiu serwerów, szczególnie jeśli potrzebujemy ich na krótki okres. W tym przypadku nie musimy zajmować się kwestią licencjonowania oprogramowania.

Chmura Windows Azure pozwala wynajmować zasoby na tak długo, jak ich potrzebujemy. Istnie-je możliwość uruchomienia dodatkowych maszyn wirtualnych np. w przypadku nagłego wzrostu zapytań do bazy czy prowadzenia projektów integracji danych, tak aby zwiększyć wydajność całego systemu i odciążyć serwery produkcyjne. Maszyna wirtualna może zostać wyłączona, kiedy nie ma dalszej potrzeby jej używania. Od tego momentu klient nie płaci za niewykorzystywane zasoby. Nie utrzymuje również niepotrzebnych licencji, które w przypadku wdrożenia on-premise, pozostały by bezużyteczne.

Mamy więc raporty i system monitorujący. Ważne jest (i dotyczy to wszystkich komponentów Azure), że wszystkie czynności w chmurze możemy wykonywać z poziomu graficznego interfejsu (GUI). Do dyspozycji mamy również Windows PowerShell, jeśli chcemy te procesy automatyzować.

Webinarium microsoftProwadzący: Paweł Potasiński, Microsoft

Spotkanie trzecie: Integracja danych i raportowanie w chmurze obliczeniowej Windows Azure

Page 8: Integracja danych i raportowanie w chmurze obliczeniowej Windows Azure - transkrypt webinarium IDG

8.

Wróćmy do narzędzia Power Pivot. Mamy wykres z danymi sprze-dażowymi (ilość produktów sprzedawanych w danym dniu miesią-ca), do którego chcemy dołączyć dodatkowe informacje o kategorii produktu lub jego producencie. Czynność ta jest bardzo prosta, jeśli umiemy posługiwać się tabelami przestawnymi, czyli znane nam są takie pojęcia jak wymiar, kalkulacja itd.

Power Pivot

Model danych został zaprojektowany tak, aby prezentować relacje biznesowe. Dane wyświetlane w Power Pivot wyglądają tak samo, jak w tabelach przestawnych. Praca z Power Pivot nie różni się więc znacząco od korzystania z arkusza Excel.

W demonstracji chcielibyśmy zwrócić uwagę na jeszcze jedną kwestię. Power Pivot umożliwia wizu-alizację danych na mapach. Narzędzie to pozwala na dodawanie hierarchii, dzięki czemu dane geo-graficzne mogą być prezentowane w formie graficznej, w ujęciu kraju, regionu czy miasta. Informacja o lokalizacji kojarzona jest z danymi sprzedażowymi na podstawie adresu klienta lub koordynat GPS. Oprogramowanie Microsoft dostarczane jest z dokładną mapą Polski w formie komponentu Power View.

Warstwa raportowa jest tym elementem modelu danych, którą można tworzyć bardzo prosto. Przykładowo, za pomocą jednego kliknięcia myszą, można dodać kolejny poziom hierarchii w analizo-wanych danych.

Na potrzeby tej publikacji przygotowaliśmy dwie proste demon-stracje. Załóżmy, że firma produkcyjna wprowadza na rynek nowy produkt. Chcemy zobaczyć, jak rozszerzanie dystrybucji na cały kraj przekłada się na wzrost sprzedaży. Zaczynamy od Warszawy, w któ-rej przedsiębiorstwo ma swoją siedzibę. Na wykresie zobaczymy jak rozkłada się ta sprzedaż na obszarze całego kraju. Nie będziemy tutaj omawiać interfejsu programu, bo jest on bardzo prosty. W tym miejscu wspomnijmy jak wygląda wiązanie danych sprzedażowych z informacjami geograficznymi.

Power Map

Nowy produkt na rynek

Na rynku dostępny jest również produkt Project GeoFlow (Power Map), który umożliwia prezenta-cję danych na mapach wraz z upływem czasu. Narzędzie to wykorzystamy do przygotowania inte-raktywnej wizualizacji pokazującej np. jak zmienia się pokrycie produktami na obszarze kraju lub regionu. Power Map pozwala przedstawić te zmiany w atrakcyjnej formie „opowiadania o danych”.

W narzędziu mamy szerokie spektrum możliwości mapowania tych danych. Odbywa się to na pod-stawie atrybutów takich jak adres, miejscowość, kraj, kod pocztowy, a nawet szerokość geograficz-na. Wiele firm, zamiast na koordynatach GPS, opiera się po prostu na adresach.

Webinarium microsoftProwadzący: Paweł Potasiński, Microsoft

Spotkanie trzecie: Integracja danych i raportowanie w chmurze obliczeniowej Windows Azure

Page 9: Integracja danych i raportowanie w chmurze obliczeniowej Windows Azure - transkrypt webinarium IDG

9.

Webinarium microsoftProwadzący: Paweł Potasiński, Microsoft

Przygotowana animacja prezentuje zmianę obszaru dystrybucji produktu na przestrzeni kolejnych miesięcy. Wraz z rozwojem sieci dystrybucji widok mapy przechodzi płynnie z obszaru Warszawy na pozostałe regiony kraju. Animacja może być w dowolnym momencie zatrzymywana, a wyświetlane mapy skalowane, obracane, przybliżane. Oprogramowanie pozwala na dodawanie adnotacji. Istnieje możliwość zapisania animacji w formie pliku wideo.

Power Map dostępny jest dla komputerów biurkowych (desktop). Narzędzie to wykorzystuje moc współczesnych komputerów do renderowania trójwymiarowych map. Z kolei mapy Power View są dwuwymiarowe i można uzyskiwać do nich dostęp przez przeglądarkę internetową. W przypadku Power Map wygenerowane animacje możemy zapisać w formie nagrania wideo i odtwarzać je rów-nież na urządzeniach mobilnych.

Wspomnieliśmy wcześniej o możliwości umieszczania różnych da-nych, poza Power Map, na portalu internetowym. Sam portal można uruchomić mając subskrypcję na usługę Office 365 wraz z kompo-nentem Power BI. Wystarczy wgrać pliki raportów do portalu, aby móc je w trybie interaktywnym przeglądać i analizować z poziomu przeglądarki internetowej.

Dużo się mówi o tym, że portal Power BI oferuje dużo więcej funkcji, niż tylko współdzielenie raportów i praca z danymi w oknie przeglą-darki. Jedną z nich jest rozwiązanie Q&A.

Publikowanie raportów

Q&A i zapytania w języku naturalnym

Funkcja ta pozwala samodzielnie zadać pytanie dotyczące danych w sposób bardzo ogólny. Inny-mi słowy, tylko w przybliżeniu wiemy, o co chcemy zapytać, a z drugiej strony nie mamy czasu, ani umiejętności w budowaniu i modyfikacji tabel przestawnych. Power BI umożliwia eksploracje danych w sposób dynamiczny, który będzie zrozumiały także dla osób zarządczych.

W kontekście tłumaczenia języka mówionego (w tej chwili angielskiego) na rozumienie danych w systemie Power BI Q&A największe znaczenie ma sam model danych, a nie sposób w jaki zorga-nizujemy raporty. Wrzucając model Power Pivot na serwer do narzędzia Power BI dostaniemy pew-ne wyniki, natomiast mamy też dostęp do narzędzi i dokumentacji, które pozwolą usprawnić model danych w taki sposób, aby zapytania kierowane do Q&A były w większym stopniu zrozumiałe.

W tym celu stosuje się synonimy. Przykładem może być tutaj wprowadzenie synonimów dla nazw, kategorii itd. w modelu danych dla polskiego producenta wody mineralnej, przygotowanego z użyciem narzędzia Power BI w języku angielskim (polska wersja pojawi się pewnie w niedługim czasie). Power BI umożliwia śledzenie zadawanych pytań. Analitycy widzą więc, o jakie informacje pytają pracownicy i jakich danych używają.

Spotkanie trzecie: Integracja danych i raportowanie w chmurze obliczeniowej Windows Azure

Page 10: Integracja danych i raportowanie w chmurze obliczeniowej Windows Azure - transkrypt webinarium IDG

10.

Zwróćmy uwagę, że narzędzia analityczne rozwijane są bardzo dynamicznie. Kolejne wersje Power Query wydawane są niemal co miesiąc. Najnowsza wersja tego narzędzia przynosi m.in. obsługę nowego źródła danych - SAP Business Objects. Cykl wydawniczy narzędzi Power BI, które w rzeczywistości są bardziej usługami niż typowymi produktami, został skrócony z 18 miesięcy do mniej niż miesiąca. Usługi te rozwijane są w trybie ciągłym.

W pierwszym scenariuszu przedstawiono technologię Power Pivot służącą do wielowymiarowego modelowania danych. Analiza ta doty-czyła dużej ilości (ponad 2 miliony rekordów) danych sprzedażowych.

Silnik Power Pivot działa w pamięci RAM (in memory) i umożliwia pracę z danymi pochodzącymi z różnych źródeł. Narzędzie Power View umożliwia wizualizację tych danych przez tworzenie ani-mowanych wykresów i zestawień. Wizualizacje te tworzone są w czasie rzeczywistymi (online), tak więc zmiana układu lub zakresu danych wpływa natychmiast na to, co widzimy na ekranie. Z kolei Power Map umożliwia prezentację zebranych informacji na mapach.

Pierwszym jego zadaniem jest zarządzanie celami sprzedaży. W wielu firmach system stawiania celów (targety) oparty jest wyłącznie o arkusze kalkulacyjne Excel. Problemem, z którym się spo-tykamy, jest konieczność weryfikacji danych sprzedażowych, pochodzących z systemu informatycz-nego przedsiębiorstwa, z celami sprzedażowymi, zapisanymi właśnie w plikach Excel. Dodatkowo, kierownik widzi cele sprzedaży przypisane dla pracownika, bez planów odnoszących się do po-szczególnych produktów. Co z tym możemy zrobić?

Z perspektywy menedżera sprzedaży patrzyliśmy na firmę global-nie, zwracając uwagę na wyniki sprzedaży według produktu, regio-nu itd. W drugim scenariuszu wcielimy się w kierownika regionu, którego zadania i problemy są nieco odmienne. Kierownik danego obszaru ma pod sobą pracowników, których musi rozliczyć z pracy w terenie (salesforce).

Rozwój narzędzi Power BI

Podsumowanie scenariusza

Scenariusz 2: Kierownik regionu

Webinarium microsoftProwadzący: Paweł Potasiński, Microsoft

Spotkanie trzecie: Integracja danych i raportowanie w chmurze obliczeniowej Windows Azure

Page 11: Integracja danych i raportowanie w chmurze obliczeniowej Windows Azure - transkrypt webinarium IDG

11.

W publikacji tej chcemy pokazać możliwość wykorzystania usługi SharePoint Online do agregowania informacji o planach i wynikach sprzedaży. Kierownicy regionów wgrywają tutaj pliki, jeśli cel zo-stanie osiągnięty. W rezultacie mamy zestaw 20-30 arkuszy Excel utworzonych przez poszczególnych kierowników regionu. Dane te można w prosty sposób dołożyć do przedstawionego w poprzednim scenariuszu modelu sprzedaży. Sprawdźmy, jak to zrobić.

Przypomnijmy, że raport z wykonania sprzedaży został umieszczo-ny w portalu SharePoint przez kierowników regionu. W tym celu wykorzystywane jest oprogramowanie Power Query. Jest to narzę-dzie klasy ETL służące do czyszczenia i integracji danych. Zwróćmy uwagę, że Power Query jest integralną częścią Power BI, w odróż-nieniu od Power Pivot, który jest dodatkiem do Excela w wersji 2010 i 2013. Obróbka danych z wykorzystaniem Power Query wykonywa-na jest przez użytkownika. W przeciwieństwie od innych systemów ETL, Power Query nie jest narzędziem serwerowym.

Agregacja danych w SharePoint

Power Query

Pierwsze, co przychodzi nam na myśl to zastosowanie złożonego procesu ETL. Zadanie to ma być wykonywane przez użytkowników końcowych, a nie programistów i analityków zatrudnionych w działach IT. Na ekranie widzimy wygenerowany raport, który porównuje cele sprzedażowe (targety) z wynikami sprzedaży. Dane te są wizualizowane z wykorzystaniem wskaźników KPI, semaforów, grafik i kolorów. Co ważne, cele zostały rozbite po produktach. Zwróćmy uwagę, że cała wizualiza-cja została przygotowana wyłącznie z programie Excel w formie tabeli przestawnej.

Wróćmy do naszego przykładu. Za pomocą Power Query umieściliśmy w witrynie SharePoint jeden z plików z wynikami sprzedaży. Power Query ma swój język operacji, jednak jeśli jesteśmy użytkow-nikami biznesowymi, wszystkie operacje wykonywane w tym narzędziu możemy wykonać za pomo-cą myszy.

Power Query pozwala obrabiać załadowane dane. Na początek z tabeli danych usuwamy zbędny na-główek. Wprowadzone przez kierowników dane mają postać tabeli przestawnej. Przetwarzanie tych danych przez narzędzia analityczne jest niewygodne, dlatego za pomocą Power Query zamienimy je na znormalizowane dane tabelaryczne. W Power Query czynność ta wymaga jednego kliknięcia w przeciwieństwie do wielu linijek kodu SQL, które należałoby napisać korzystając z innego narzędzia.

Jako ciekawostkę dodajmy, że w oknie Power Query widoczny jest skrypt, który powstaje w trakcie wykonania operacji przekształcania danych. Zapisywane są kolejne kroki związane z ich modyfika-cją, tak więc sam skrypt, jeśli zachodzi taka potrzeba, można przy odrobinie umiejętności zoptyma-lizować i w jeszcze większym stopniu dostosować do własnych wymagań.

Webinarium microsoftProwadzący: Paweł Potasiński, Microsoft

Spotkanie trzecie: Integracja danych i raportowanie w chmurze obliczeniowej Windows Azure

Page 12: Integracja danych i raportowanie w chmurze obliczeniowej Windows Azure - transkrypt webinarium IDG

Spróbujmy odpowiedzieć na pytanie, jak to się dzieje, że mając z góry ustalony cel sprzedażowy (target) możemy rozbić go na pro-dukty? W ujęciu biznesowym czynność ta wykonywana jest według kluczy podziałowych ustalonych na podstawie danych historycznych. To wszystko dzieje się w Power Pivot.

Alokacja sprzedaży na produkty

Uruchamiamy edytor Power Pivot. Mamy tutaj tabele, czyli surowe dane o planowanej sprzedaży, które zostały wcześniej zaimportowane przez Power Query. Nie znajdziemy tu jednak informacji o produktach.

Obok mamy proste kalkulacje w języku DAX, którego składnia została zaprojektowana tak, aby być jak najbardziej zbliżona do formuł Microsoft Excel, ale jednocześnie zaoferować funkcjonalność podobną do języka MDX. Mamy więc pojedynczy wiersz kodu (formułę), która liczy nam współczynnik udziału produktu w całości sprzedaży. Mechanizm ten można zastosować również w scenariuszu, w którym cele sprzedażowe narzucone są z góry.

Wiele rzeczy, które pracownicy firmy wykonują teraz w Excelu, możemy zamodelować przy użyciu Power Query. W jednym pliku istnieje możliwość integracji danych z programu Excel, Power View oraz Power Map.

Zaprezentowaliśmy wizualizację wyświetloną w oknie programu Excel. Z powodzeniem może być ona dostępna również w sieci. Niezależnie od tego, jakie technologie analizy danych zastosujemy (Excel, Power BI) dane, raporty i zestawienia przenoszone są do portalu internetowego. Za każdym razem, dzięki Excel Services, wizualizacje te wyświetlane są dokładnie w takiej samej formie w jakiej zostały przygotowane i udostępnione.

12.

Webinarium microsoftProwadzący: Paweł Potasiński, Microsoft

W celu scalenia danych pochodzących z różnych źródeł (wielu plików) wykorzystano mechanizmy automatyzacji zadań Power Query. Każdy z plików został załadowany i przetworzony w pętli. Zapyta-nie Power Query może zostać udostępnione innym osobom. Jest to zadaniem „data stewarda”, czyli osoby, która w przyszłości będzie nadzorowała zapytania użytkowników.

Dane i raporty przechowywane są w chmurze Azure. Dostęp do tych obiektów możliwy jest po zalo-gowaniu się do usługi Office 365. Power Query umożliwia bezpośrednie logowanie do konta przed-siębiorstwa w chmurze.

Spotkanie trzecie: Integracja danych i raportowanie w chmurze obliczeniowej Windows Azure

Page 13: Integracja danych i raportowanie w chmurze obliczeniowej Windows Azure - transkrypt webinarium IDG

Power Query jest narzędziem, które umożliwia łatwiejsze i bardziej efektywne wykonywanie zadań, które dotychczas były realizowane wyłącznie w programie Excel. Chodzi tutaj głównie o pobieranie da-nych z kilku źródeł oraz ich przetwarzanie i agregowanie w formie tabel przestawnych.

W trzecim scenariuszu biznesowym spróbujemy postawić się w roli szefa marketingu, który chce dowiedzieć się, w jaki sposób zarzą-dzana przez niego marka jest postrzegana w internecie, w sieciach społecznościowych oraz widziana w wynikach wyszukiwarek. Wszyscy doskonale wiemy, że tego typu informacje są potrzebne w prowadzeniu działań marketingowych. Chcemy wiedzieć, jak postrzegają nas klienci oraz użytkownicy – teraz oraz w przeszłości (dane historyczne).

Podsumowanie scenariusza

Scenariusz 3: Szef marketingu

W sytuacji kiedy mamy do czynienia z analitycznymi rozwiązaniami klasy korporacyjnej, czyli hur-townią danych z warstwą gotowych raportów i narzędzi BI, wdrożenie podobnych scenariuszy bizne-sowych wymagałoby interakcji między użytkownikiem biznesowym, a działem IT.

W wielu przypadkach działy IT nie są w stanie odpowiednio szybko reagować na zgłoszenia napły-wające od użytkowników. Jeśli modyfikacja danych i raportów, np. przez dołożenie planów sprze-daży, nie mogłaby być szybko zrealizowana, wielu pracowników zdecydowałoby się na zrzut danych z systemu BI i dalszą samodzielną obróbkę tych informacji. Tak przygotowane zestawienia trudno byłoby jednak dalej dystrybuować.

Dane wygenerowane przez Power Pivot można publikować na SQL Server w bardzo prosty spo-sób. Ponownie da się tutaj zauważyć pełną integrację między Power Pivot, w którym tworzymy modele, a SQL Server. Ma to sens w przypadku dużej ilości danych, które mogą zostać wyniesione do bazy analitycznej.

Faktem jest, że tych danych nie można pobrać. Z jednej strony mamy więc problem z ich dostępno-ścią. Po drugie – danych o firmie i marce może być tak dużo oraz mogą być one w takiej formie, że ciężko będzie je przetwarzać i analizować. Problem ten jest tak trudny do rozwiązania, że de facto dział IT przy użyciu klasycznych narzędzi nie jest tego w stanie wykonać. Nie do końca bowiem wiadomo nawet, jak do prostych modeli powinniśmy „włożyć” te dane.

13.

Webinarium microsoftProwadzący: Paweł Potasiński, Microsoft

Spotkanie trzecie: Integracja danych i raportowanie w chmurze obliczeniowej Windows Azure

Page 14: Integracja danych i raportowanie w chmurze obliczeniowej Windows Azure - transkrypt webinarium IDG

Analiza sieci społecznościowych (social analytics) to jeden z najgorętszych tematów w obszarze Big data. Scenariusz, który pokażemy jest bardzo prosty, ale pokazuje kierunek w jakim mo-żemy pójść stając przed zadaniem analizy dużej ilości nieustruk-turyzowanych lub słabo ustrukturyzowanych danych.

W tym momencie spróbujmy zastanowić się, w jaki sposób doszli-śmy do tych wniosków. W pierwszym kroku zebraliśmy potrzebne dane za pomocą otwartego narzędzia Flume. Za chwilę zauważy-my, że Microsoft, udostępniając swoją platformę Big Data o nazwie HDInsight oparł się wyłącznie na otwartych rozwiązaniach Open Source. Dla Microsoft nie jest to nowość. W Windows Azure znaj-dziemy maszyny wirtualne z oprogramowaniem Oracle czy obrazy dystrybucji Linuksa itd.

Analiza sieci społecznościowych

Dane wejściowe

Zaczniemy od pokazania wyniku, aby w kolejnej części tekstu opowiedzieć, jak do niego doszliśmy. Na slajdzie widzimy grafikę prezentującą postrzeganie marki, rozumiane jako liczbę wystąpień (faktów) na temat firmy np. wpisy w serwisie Twitter.

Na początek informacja o tym, jak powstaje taki zbiór danych. Informacje pobierane są za pomocą interfejsu programistycznego (API) udostępnionego przez sieć społecznościową, choć należy jasno powiedzieć, ze nie wszystkie serwisy tego typu pozwalają na ekstrakcję dużej ilości danych. Na ryn-ku znajdziemy również dostawców, którzy komercyjnie pomagają w pozyskiwaniu takich informacji.

Wróćmy do naszego przykładu. Analiza jest dość prosta, bowiem ilość informacji zawartych w pojedynczym wpisie na Twitterze jest niewielka. W zaprezentowanym przykładzie można zauwa-żyć, który kraj jest do naszej firmy najbardziej negatywnie nastawiony. Tutaj dochodzimy do kon-kluzji, iż w obszarze social analytics raczej chodzi o wyłapywanie negatywnych opinii, które mają znacznie mocniejszy przekaz, niż te pozytywne.

Dane wejściowe używane do analizy nie są w pełni ustrukturyzowane. Opisowo mówiąc, dane te nie są zupełnie bez struktury, natomiast tabele SQL nie do końca nadają się do przechowywania informacji pozyskiwanych z internetu i sieci społecznościowych. To co widzimy na prezentacji to wpisy Twittera składające się z dużej ilości tekstu i metadanych. Warto odnotować, że mocną stroną Hadoop HDInsight jest właśnie praca z tekstem.

W tym scenariuszu interesuje nas wyłącznie tekst zawarty we wpisie Twittera. Mamy słownik kilkuset słów angielskich o wydźwięku negatywnym, neutralnym i pozytywnym, które umożliwiają skategoryzowanie treści pojawiających się na Twitterze.

14.

Webinarium microsoftProwadzący: Paweł Potasiński, Microsoft

Spotkanie trzecie: Integracja danych i raportowanie w chmurze obliczeniowej Windows Azure

Page 15: Integracja danych i raportowanie w chmurze obliczeniowej Windows Azure - transkrypt webinarium IDG

Tym co odróżnia HDInsight od konkurencyjnych rozwiązań jest szyb-kość i łatwość uruchamiania oraz używania systemów analitycznych w chmurze Microsoft. W tym celu kupujemy subskrypcje Windows Azure z usługą HDInsight.

Jest to możliwe, bowiem postawienie klastra HDInsight trwa ok.15 minut. Cała ta operacja wymaga wskazania jedynie kilku informacji o tworzonym klastrze np. ilość potrzebnych węzłów. Dla osób znających Hadoop, Microsoft udostępnia kilka wersji HDInsight.

HDInsight

Uruchamianie klastra HDInsight

W HDInsight wyraźnie rozdzielono obszary związane z przechowywaniem oraz przetwarzaniem informacji.

Dane przechowywane są w magazynie (storage) Windows Azure. Kiedy załadujemy do chmury wszystkie potrzebne pliki i obiekty (mogą to być gigabajty lub nawet terabajty danych) dopiero wte-dy powołujemy do życia klaster HDInsight.

Klaster ten jest nam niezbędny wyłącznie do tego, aby te dane przetwarzać. Podobnie jak w przy-padku maszyn wirtualnych, gdzie czas życia maszyny z perspektywy kosztowej ma znacznie, zada-nia w chmurze związane z przetwarzaniem danych rozliczane są wyłącznie za czas (godziny) korzy-stania z klastra HDInsight.

Nie ukrywajmy faktu, że rozwiązania te nie są dostarczane za darmo. Hadoop składa się z wie-lu rozproszonych węzłów, które oferują potężną moc obliczeniową. Konkluzja nasuwa się jedna - trwałe dane przechowujemy w relatywnie tanim magazynie w chmurze, podczas gdy instancje obliczeniowe wynajmujemy wyłącznie na czas przetwarzania tych danych.

Technologicznie HDInsight jest bardzo zbieżny produktami dostarczanymi przez firmę Hortonworks (jeden z liderów rozwiązań Hadoop), która jest partnerem Microsoftu w zakresie przetwarzania dużych ilości danych. HDInsight stanowi więc kolejne miejsce, gdzie zauważyć można przecięcie technologii Microsoft z oprogramowaniem Open Source.

Microsoft udostępnia HDInsight Emulator (wcześniejsza nazwa HDInsight Server), który umożliwia wypróbowanie usługi bez generowanie kosztów w swoich subskrypcjach Azure. Oprogramowanie to można zainstalować na lokalnym serwerze, aby zasymulować działanie klastra Hadoop.

15.

Webinarium microsoftProwadzący: Paweł Potasiński, Microsoft

Spotkanie trzecie: Integracja danych i raportowanie w chmurze obliczeniowej Windows Azure

Page 16: Integracja danych i raportowanie w chmurze obliczeniowej Windows Azure - transkrypt webinarium IDG

Proces nadawania struktury danym, które są przetwarzane od-bywa się w klastrze Hadoop. Celem jest nałożenie struktury, któ-rej efektem niekiedy jest uzyskanie danych tabelarycznych, choć niekoniecznie dane te muszą mieć taką postać. Do dyspozycji mamy narzędzie Hive umożliwiające nałożenie na dane pewnej struktury, która pozwala na odwoływanie się do nich w języku pseudo-SQL (komendy CREATE TABLE, SELECT, CREATE VIEW itd.)

W tym momencie nasuwa się pytanie, jak HDInsight ma się do hur-towni danych i kiedy warto wykorzystać każde z tych rozwiązań? W wielu obszarach oba te rozwiązania są do siebie podobne. I tu, i tu mamy dużą ilość danych. Z perspektywy analitycznej ważny jest jednak rodzaj tych danych.

Przetwarzanie danych w Hadoop

HDInsight, a hurtownia danych

Wróćmy do naszego pliku Excel. W środku mamy dane Power Pivot, połączone sterownikiem ODBC z serwerem. Sterownik ten jest darmowy i może zostać pobrany ze strony Microsoft. Inne opcje podłączenia się do Hadoop/HDInsight to m.in. Power Query. Narzędzie to umożliwia pracę z danymi pochodzącymi z innych źródeł, w tym danymi przechowywanymi w magazynie Windows Azure.

W scenariuszu biznesowym można zbudować arkusze, które korzystają bezpośrednio z danych zgromadzonych w HDInsght. Dzięki takim narzędziom jak Power Query czy Power Pivot będzie ist-niała możliwość odpytania o te dane w języku naturalnym (angielskim).

Jako ciekawostkę dodajmy, że jednym z dostępnych w Power Query źródeł danych jest Facebook. To propozycja dla osób, które potrzebują pobrać relatywnie niewielką ilość danych, tutaj profili użytkowników w serwisie społecznościowych.

Jeśli mamy hurtownie, która przez wiele lat jest rozwijana i zarządzana oraz zasilana z wewnętrz-nych źródeł danych (np. ERP, CRM itd.), to zamiast zmieniać ten system (absolutnie nie o to chodzi), spróbujmy wzbogacić zgromadzone dane o informacje zewnętrzne np. wpisy z Twittera.

W dużym uproszczeniu można przyjąć, że warto wybrać HDInsight, jeśli chcemy analizować dane pochodzące z internetu. W przypadku przetwarzania danych wewnętrznych pierwszym wyborem praw-dopodobnie będzie klasyczna hurtownia danych - data warehouse, kostki OLAP i inne tego typu rozwią-zania. Dane te mogą być również integrowane z wykorzystaniem narzędzi self-service np. Power BI lub Excel. Wynika z tego, że integracja ta nie musi się odbywać na poziomie SQL Server. Można to zrobić ad-hoc wykorzystując np. Power Query, które pozwala na pobieranie danych z wielu źródeł: hurtowni danych, HDInsight, Twittera czy Facebooka, spinając całość w formie wizualizacji Power View.

Q&A, czyli narzędzie do odpytywania danych w języku naturalnym, doskonale sprawdza się w przy-padku informacji pochodzących z internetu (tekstowych).

16.

Webinarium microsoftProwadzący: Paweł Potasiński, Microsoft

Spotkanie trzecie: Integracja danych i raportowanie w chmurze obliczeniowej Windows Azure

Page 17: Integracja danych i raportowanie w chmurze obliczeniowej Windows Azure - transkrypt webinarium IDG

HDInsight to kolejna usługa dostarczana w chmurze Windows Azure. Rozwiązanie to zostało zbudowane na bazie otwartych narzędzi Hadoop/Hortonworks. HDInsight jest w pełni zintegrowany z pozo-stałymi narzędziami w ofercie Microsoft.

Pierwsze pytanie, jakie powstaje w głowach potencjalnych klientów brzmi – ile to kosztuje? I czy jesteśmy w stanie zaprojektować sce-nariusz, który będzie konkurencyjny cenowo w stosunku do rozwią-zań obecnie stosowanych w lokalnych centrach danych.

Podsumowanie scenariusza

Koszty wdrożenia

Do informacji zgromadzonych w chmurze możemy się dostać za pomocą aplikacji do modelowania i wizualizacji danych. I co ważne, widać tutaj wyraźny podział w obszarze przechowywania i prze-twarzania danych. Raz zgromadzone dane mogą być składowane w chmurze bardzo długo (relatywnie niski koszt przechowywania), podczas gdy klastry obliczeniowe powołujemy do życia tylko w momencie przetwarzania tych danych.

Aby lepiej zilustrować kwestie kosztów posłużymy się przykładem jednego z klientów, który w pewnym momencie musiał podjąć decyzję związaną z budowaniem nowej hurtowni danych z silnym nastawieniem na przetwarzanie danych w pamięci (in memory).

Wybór padł na technologię SQL Server, przy czym rozważano różne opcje wdrożenia takiej hurtow-ni w przedsiębiorstwie. Pierwszy wariant zakładał budowę lokalnej hurtowni danych (on premise), drugi - przechowywanie i przetwarzanie danych w chmurze Windows Azure.

W przykładzie mowa o kilkudziesięciu gigabajtach danych, które należało przetwarzać. Na zrzu-cie zilustrowano koszty implementacji takiego systemu. Po pierwsze mamy koszty subskrypcji Windows Azure. Na potrzeby analizy założyliśmy, że klient prowadzi swoją działalność na terenie Polski, że maszyna wirtualna wykorzystywana do przetwarzania danych nie musi działać cały czas (1-2 godziny dziennie), a dostęp do nich jest potrzebny w godzinach pracy. Klientowi została zapro-ponowana maszyna wirtualna A7 (najbardziej wydajna opcja to maszyna A8) z oprogramowaniem Microsoft SQL Server Enterprise. Do kosztów wynajmu infrastruktury w chmurze należy doliczyć przestrzeń dyskową, transfer danych, zestawienie sieci, itd.

Płatny jest transfer z chmury Azure do sieci lokalnej przedsiębiorstwa. Za transfer do Azure nie są naliczane opłaty. Warto o tym przypomnieć z uwagi na fakt, że z hurtowni pobieramy zagregowane dane (mała ilość). Nie płacimy więc za ładowanie danych do chmury.

Koszt wynajmu infrastruktury z oprogramowaniem dla takiej hurtowni danych wynosi ok. 1000 euro miesięcznie, przy założeniu 20% upustu w przypadku półrocznej subskrypcji Windows Azure. Dla porównania, koszty zakupu sprzętu i licencji (bez części kosztów utrzymania) wynosi ok. 45 000 euro. Wydatki te należy ponieść jednorazowo na początku inwestycji. Rachunek zysków wydaje się być prosty.

17.

Webinarium microsoftProwadzący: Paweł Potasiński, Microsoft

Spotkanie trzecie: Integracja danych i raportowanie w chmurze obliczeniowej Windows Azure

Page 18: Integracja danych i raportowanie w chmurze obliczeniowej Windows Azure - transkrypt webinarium IDG

Na koniec spróbujmy powiedzieć kilka słów o tym, jak zacząć z Power BI oraz Windows Azure. Swoją przygodę z narzędziami analitycznymi warto rozpocząć zapoznania się z zawartością strony Power BI.com, prześledzeniem blogów branżowych poświęconych rozwiązaniom Business Intelligence (np. blog Chrisa Webb’a === http://cwebbbi.wordpress.com/===) oraz innych stron, wokół któ-rych skupia się społeczność SQL Server i Power BI.

Pisaliśmy o Windows Azure, w szczególności o maszynach wirtu-alnych dostarczanych w modelu Infrastructure as a Service (IaaS), które zastępują lub uzupełniają zasoby infrastruktury lokalnej przedsiębiorstwa.

Początki nie muszą być trudne

Podsumowanie eSeminarium Azure

W omówionych scenariuszach biznesowych nie wspominaliśmy o usłudze Windows Azure SQL Database. Jest to baza danych, na której można budować federacje złożone z kilku serwerów. Usługę tę warto wykorzystać, jeśli na poziomie aplikacji jesteśmy w stanie zaimplementować mechanizmy partycjonowania danych (dzielenia na kawałki) między serwery.

W ostatnim scenariuszu opowiedzieliśmy o rozwiązaniu HDInsight, czyli usłudze Hadoop w chmurze Windows Azure. Wiele miejsca poświęciliśmy narzędziom Power BI, które umożliwia modelowanie, prezentację i wizualizację danych, Power Query jako aplikacji ETL dla użytkownika końcowego i portalu Q&A, który odpowiada na zapytania kierowane w języku naturalnym.

Microsoft udostępnia wersje próbne rozwiązań zaprezentowanych w niniejszym tekście. Do pobra-nia są m.in. narzędzia Power BI, możemy również zarejestrować próbną subskrypcję usług Office 365 i Windows Azure.

18.

Webinarium microsoftSpotkanie trzecie: Integracja danych i raportowanie w chmurze obliczeniowej Windows Azure

Prowadzący: Paweł Potasiński, Microsoft