ANALIZA I STRATEGIA BIG DATA W ORGANIZACJACH · Dziaáania data scientist odno nie do big data...

13
41 ANALIZA I STRATEGIA BIG DATA W ORGANIZACJACH MARIA MACH-KRÓL Streszczenie W obliczu rosnącej wykáadniczo iloĞci danych, a takĪe coraz wiĊkszych wyzwaĔ stawianych przez otoczenie biznesowe – jak globalizacja, konkurencja czy zmiennoĞü – organizacje coraz czĊĞciej muszą, oprócz analizowania danych ustrukturyzowanych, braü pod uwagĊ równieĪ wnioski páynące z analiz tzw. big data. Jednak są to dane na tyle specyficzne i róĪniące siĊ od danych „klasycznych”, jakie znaleĨü moĪna w bazach i hurtowniach danych, Īe konieczne jest nowe podejĞcie zarówno do implementacji big data, jak i ich analizowania. Gáównym celem artykuáu jest uporządkowanie pojĊü związanych z big data, próba zarysowania wyzwaĔ, jakie stawia organizacjom ten typ danych, a takĪe wskazanie, jaką strategiĊ powinny obraü podmioty, chcące efektywnie analizowaü big data. Sáowa kluczowe: big data, drąĪenie i analiza danych, strategia korzystania z big data Wprowadzenie Dane okreĞlane przymiotnikiem „big” pochodzą ze Ĩródeá nieustrukturyzowanych, takich jak strumieĔ klikniĊü w www, sieci spoáecznoĞciowe (Twitter, blogi, Facebook), nagrania wideo ze sklepów, nagrania rozmów w call center itp., informacje w czasie rzeczywistym z czujników, RFID i innych urządzeĔ identyfikujących. PojĊcie big data jest na tyle nowe, Īe – w przeciwieĔstwie do pojĊcia Business Intelligence – nie istnieją jeszcze jego powszechnie przyjmowane definicje. Przede wszystkim naleĪy podkreĞliü, Īe termin big data odnosi siĊ raczej do pewnego zjawiska, niĪ do konkretnych, namacalnych rozwiązaĔ technologicznych. Dlatego zamiast definiowaü to zjawisko, próbuje siĊ je opisywaü, podawaü jego charakterystyki. Najpowszechniej przyjmuje siĊ, Īe big data cechuje tzw. 3V: Volume (wolumen danych), Velocity (prĊdkoĞü, z jaką dane napáywają do organi- zacji) i Variety (zróĪnicowanie tych danych). Dokáadne objaĞnienia tych charakterystyk są nastĊpujące [1, s. 312]: - Volume (wolumen) – odnosi siĊ do iloĞci danych, które mogą posáuĪyü do wypracowania nowych idei, bądĨ nowego spojrzenia na kwestie związane z organizacją, jednak wymagają odpowiedniej infrastruktury informatycznej, aby nimi skutecznie zarządzaü; - Velocity (prĊdkoĞü) – wskazuje na to, Īe dane napáywają do organizacji w czasie rzeczy- wistym lub do niego zbliĪonym, co wymaga odpowiednio szybkiego czasu reakcji; - Variety (zróĪnicowanie) – podkreĞla heterogeniczną naturĊ danych, ich brak strukturyzacji, które sprawiają, Īe trudne (o ile nie niemoĪliwe) jest umieszczenie tych danych w trady- cyjnych bazach czy hurtowniach. Podsumowanie charakterystyk pojĊcia big data przedstawia rysunek 1.

Transcript of ANALIZA I STRATEGIA BIG DATA W ORGANIZACJACH · Dziaáania data scientist odno nie do big data...

41

ANALIZA I STRATEGIA BIG DATA W ORGANIZACJACH

MARIA MACH-KRÓL

Streszczenie W obliczu rosn cej wyk adniczo ilo ci danych, a tak e coraz wi kszych wyzwa

stawianych przez otoczenie biznesowe – jak globalizacja, konkurencja czy zmienno – organizacje coraz cz ciej musz , oprócz analizowania danych ustrukturyzowanych, bra pod uwag równie wnioski p yn ce z analiz tzw. big data. Jednak s to dane na tyle specyficzne i ró ni ce si od danych „klasycznych”, jakie znale mo na w bazach i hurtowniach danych, e konieczne jest nowe podej cie zarówno do implementacji big data, jak i ich analizowania. G ównym celem artyku u jest uporz dkowanie poj zwi zanych z big data, próba zarysowania wyzwa , jakie stawia organizacjom ten typ danych, a tak e wskazanie, jak strategi powinny obra podmioty, chc ce efektywnie analizowa big data.

S owa kluczowe: big data, dr enie i analiza danych, strategia korzystania z big data

Wprowadzenie

Dane okre lane przymiotnikiem „big” pochodz ze róde nieustrukturyzowanych, takich jak strumie klikni w www, sieci spo eczno ciowe (Twitter, blogi, Facebook), nagrania wideo ze sklepów, nagrania rozmów w call center itp., informacje w czasie rzeczywistym z czujników, RFID i innych urz dze identyfikuj cych. Poj cie big data jest na tyle nowe, e – w przeciwie stwie do poj cia Business Intelligence – nie istniej jeszcze jego powszechnie przyjmowane definicje. Przede wszystkim nale y podkre li , e termin big data odnosi si raczej do pewnego zjawiska, ni do konkretnych, namacalnych rozwi za technologicznych. Dlatego zamiast definiowa to zjawisko, próbuje si je opisywa , podawa jego charakterystyki. Najpowszechniej przyjmuje si , e big data cechuje tzw. 3V: Volume (wolumen danych), Velocity (pr dko , z jak dane nap ywaj do organi-zacji) i Variety (zró nicowanie tych danych). Dok adne obja nienia tych charakterystyk s nast puj ce [1, s. 312]:

- Volume (wolumen) – odnosi si do ilo ci danych, które mog pos u y do wypracowania nowych idei, b d nowego spojrzenia na kwestie zwi zane z organizacj , jednak wymagaj odpowiedniej infrastruktury informatycznej, aby nimi skutecznie zarz dza ;

- Velocity (pr dko ) – wskazuje na to, e dane nap ywaj do organizacji w czasie rzeczy-wistym lub do niego zbli onym, co wymaga odpowiednio szybkiego czasu reakcji;

- Variety (zró nicowanie) – podkre la heterogeniczn natur danych, ich brak strukturyzacji, które sprawiaj , e trudne (o ile nie niemo liwe) jest umieszczenie tych danych w trady-cyjnych bazach czy hurtowniach.

Podsumowanie charakterystyk poj cia big data przedstawia rysunek 1.

Maria Mach-Król Analiza i strategia big data w organizacjach

42

Rysunek 1. 3V w big data

ród o: opracowanie w asne na podstawie [2] i [3].

Nale y doda , e w ostatnim czasie pojawi a si koncepcja big data, charakteryzuj ca to zjawi-sko przez 4V – czwartym „V” jest Veracity, czyli wiarygodno danych – ta cecha paradoksalnie odnosi si do niepewno ci danych: w badaniach IBM okaza o si , e 1 na 3 managerów nie ufa informacjom, na podstawie których podejmuje decyzje, za 27% respondentów nie by o pewnych, na ile ich dane i informacje s dok adne [4].

Pojawienie si zjawiska big data spowodowa o zmian podej cia do takich poj , jak SaaS (So-ftware as a Service), PaaS (Platform as a Service) i IaaS (Infrastructure as a Service), czyli przewarto ciowanie przetwarzania w chmurze. Obecne podej cie do cloud computing w kontek cie big data podsumowuje tabela 1.

Tabela 2. Big data a przetwarzanie w chmurze

Volume Variety Velocity SaaS semantyka wizualizacja czas rzeczywisty PaaS przetwarzanie rozproszone brak schematu Integracja „w locie” IaaS sk adowanie skalowalne sk adnica federacyjna zasoby na danie

ród o: [5].

Jak powiedziano, brakuje powszechnie uznawanych definicji big data. Jak pisze Horrigan, big data to dane niepodlegaj ce próbkowaniu, zwi zane z tworzeniem baz na podstawie róde elektro-nicznych, których g ównym celem nie jest wnioskowanie statystyczne [6]. Z kolei Rodriguez zauwa a, e big data ró ni si od du ych zbiorów danych tym, e dane s generowane na skal

Studies & Proceedings of Polish Association for Knowledge Management Nr 74, 2015

43

masow poprzez niezliczone interakcje online mi dzy lud mi, transakcje mi dzy lud mi a syste-mami, oraz urz dzenia wyposa one w ró nego rodzaju sensory [7]. Najlepiej problemy definicyjne zwi zane z big data podsumowuje Arbesman, który stwierdza, e podstawowym mitem odnosz cym si do tego poj cia jest, jakoby big data mia o jasn , klarown definicj [8]. Jedyne, co jest wiadome na pewno to fakt, e big data to dane wysoce nieustrukturyzowane, sytuuj ce si na lewym ko cu continuum strukturyzacji danych, przedstawionego na rysunku 2.

Rysunek 2. Continuum strukturyzacji danych

ród o: [9, s. 12].

Zjawisko okre lane mianem „big data” ró ni si – jako ród o danych – od dotychczas stoso-wanych róde , takich jak bazy czy hurtownie danych. Najwa niejsze cechy zwi zane z nowym rodzajem danych mo na podsumowa nast puj co [10]:

a) organizacje musz zacz postrzega dane jako strumienie (flows), a nie zbiory (stocks), copoci ga za sob konieczno wdro enia tzw. analityki strumieniowej (streaming analytics);

b) g ówn rol zaczynaj odgrywa tzw. data scientists, w miejsce analityków danych, czyliosoby, które rozumiej procesy analityczne, ale równie s doskonale obeznane z rozwi -zaniami IT, a cz sto maj tak e umiej tno ci w zakresie fizyki czy biologii obliczeniowejlub socjologii zorientowanej na media spo eczno ciowe;

c) analityka musi przenie si z poziomu dzia u IT na poziom biznesu i jego funkcji opera-cyjnych, poniewa big data wymaga odmiennego podej cia do technologii i procesów.

Wymienione cechy powoduj konieczno zastosowania nowych narz dzi informatycznych, które umo liwi jak najpe niejsze wykorzystanie nowych danych. Autorzy pracy [11] wprowadzaj nawet poj cie „nauki o danych” (Data Science) na okre lenie sposobu analizowania big data. Defi-niuj to poj cie jako „zbiór podstawowych zasad, które wspomagaj i reguluj pozyskiwanie informacji i wiedzy z danych” i wi je z zasadami dr enia danych. Big data jest dla wspó cze-snych organizacji zarówno naturalnym zasobem, cyfrow rezerw (digital inventory), jak i bardziej szczegó owym spojrzeniem na przesz o [12].

Maria Mach-Król Analiza i strategia big data w organizacjach

44

Charakterystyki zarówno big data jak i procesu analizy takich danych powoduj , e przed or-ganizacjami staj nowe wyzwania technologiczne i organizacyjne, którym po wi cono kolejny punkt.

1. Wyzwania zwi zane z big data

Zauwa aj c specyficzn natur big data (okre lan przez 3V, a niekiedy 4 V, o czym wspo-mniano w punkcie poprzednim), zauwa a si równie wyzwania stoj ce przed organizacjami, które chc w pe ni wykorzystywa mo liwo ci nowego zjawiska. Mo na te wyzwania scharakteryzowa nast puj co [13] [14]:

a) szybko – organizacje nie tylko musz znale potrzebne dane, ale musz robi to szybko, ze wzgl du na ich tempo pojawiania si ;

b) zrozumienie danych – konieczne jest odpowiednie do wiadczenie analityczne i wiedza z analizowanej dziedziny, pozwalaj ce umie ci dane w kontek cie;

c) jako danych – dane musz by aktualne, dostarczone na czas i dok adne; d) wizualizacja wyników – niezb dna, aby umo liwi zrozumienie olbrzymiej ilo ci danych

i ich analiz; e) obs uga odchyle – odchylenia stanowi zazwyczaj 1–5% danych, co w przypadku big data

przek ada si na ich olbrzymi ilo ; f) trudno ci w integracji danych i zarz dzaniu nimi – spowodowane przede wszystkim hete-

rogeniczno ci danych; g) specyficzne umiej tno ci informatyczne niezb dne do uruchomienia systemu i obs ugi big

data; h) nowe wyzwania zwi zane z bezpiecze stwem i dost pno ci danych – olbrzymie ilo ci

danych zbieranych przez przedsi biorstwa wymagaj zapewnienia ich bezpiecze stwa, ochrony przed niepowo anym dost pem, a tak e specyficznych systemów, które poradz sobie z takimi ilo ciami danych, nie ulegaj c awariom;

i) nowe umiej tno ci analityczne i biznesowe, które pozwol dokona analiz big data i po-wi za je ze strategiami biznesowymi – umiej tno ci specyficzne dla data scientists;

j) zapewnienie odpowiedniej wydajno ci przetwarzania, która b dzie wspó gra z szybko ci nap ywu danych i sprosta oczekiwaniom zwi zanym czasem obs ugi zapyta – zbli onym do czasu rzeczywistego.

Jak wida , wi kszo wyzwa zwi zanych z big data jest takich samych, jak typowe wyzwania zwi zane z dr eniem danych, co trafnie zauwa yli autorzy pracy [11]. Organizacje mog radzi sobie z wszystkimi wyzwaniami na ró ne sposoby, stosuj c ró norodne narz dzia programowe.

Studies & Proceedings of Polish Association for Knowledge Management Nr 74, 2015

45

2. Cykl analizy big data

Dane pochodz ce z analiz big data mog mie olbrzymi warto materialn , zw aszcza w po-czeniu z innymi danymi, np. pochodz cymi z wewn trz organizacji [16, s. 79–84]. Do klasycznych

narz dzi analizy big data zalicza si przede wszystkim grid computing, przetwarzanie w bazie da-nych (in-database processing) i analityk w pami ci (in-memory analytics) [17]. Aby jednak analizy odnosz ce si do big data by y prowadzone prawid owo i aby organizacja mog a z nich odnie jak najwi ksze korzy ci, konieczna jest wspó praca nie tylko analityków danych, lecz wielu uczestni-ków organizacji, takich jak: u ytkownik biznesowy, administrator hurtowni danych, data scientist, analityk BI. Proces ich wspó pracy tworzy tzw. cykl analizy (big data), przedstawiony na rysunku 3. Ka dy z wymienionych u ytkowników odgrywa nieco inn rol i ma nieco inne potrzeby anali-tyczne. S one nast puj ce (za [18, s. 40–42]):

1) u ytkownik biznesowy – w tym analityk biznesowy – odpowiada za prawid owe zdefinio-wanie kluczowych procesów biznesowych, ustalenie metryk, za okre lenie i analiz kluczowych wska ników wydajno ci (KPI), które pozwol na kontrol tych procesów. Ten u ytkownik zatem formu uje wymagania analityczne odno nie do danych;

2) administrator hurtowni danych definiuje, rozwija i zarz dza platform danych, czyli hur-towni danych, sk adnicami danych i magazynami danych operacyjnych, a tak e – w kontek cie big data – takimi narz dziami, jak np. Hadoop, przetwarzanie w pami ci, czy federacja danych;

Rysunek 3. Cykl analizy big data i jego powi zanie z kluczowymi procesami biznesowymi

ród o: [18, s. 40].

3) data scientist dr y dane organizacji, które w przypadku big data mog by zarówno ustruk-turyzowane jak i (w wi kszo ci) pozbawione struktury, oraz pochodzi ze róde zarówno wewn trznych jak i zewn trznych. G ównym zadaniem data scientist jest zatem budowanie odpowiednich modeli analitycznych;

Maria Mach-Król Analiza i strategia big data w organizacjach

46

4) analityk BI odpowiada za identyfikacj , zarz dzanie i publikacj kluczowych mierników i kluczowych wska ników wydajno ci. Opracowuje raporty i tablice rozdzielcze (dashbo-ards), staraj c si , aby wyniki analiz big data by y publikowane w czasie zbli onym do rzeczywistego;

5) ponownie u ytkownik biznesowy – który wykorzystuje w pracy przygotowane przez po-zosta ych uczestników cyklu raporty, analizy czy tablice rozdzielcze.

Podobnie opisuj cykl analiz big data autorzy [19, s. 56]. Natomiast nieco inaczej na big data patrzy Marko Grobelnik [3], który wi e ich analizy z a -

cuchem warto ci w przedsi biorstwie. Jest on przedstawiony na rysunku 4. Szczególn rol w omawianym cyklu analitycznym odgrywa data scientist, poniewa to ten

pracownik zbiera i przede wszystkim analizuje big data. Jego dzia ania podsumowuje rysunek 5.

Rysunek 4. a cuch warto ci big data

ród o: [3].

Studies & Proceedings of Polish Association for Knowledge Management Nr 74, 2015

47

Rysunek 5. Cykl dzia a „data scientist”

ród o: [18, s. 42].

Dzia ania data scientist odno nie do big data przypominaj proces dr enia danych (data mi-ning), sk adaj si bowiem z podobnych etapów. S to (za [18, s. 42–46]):

a) odkrywanie – data scientist rozpoczyna od dog bnego zrozumienia procesów bizne-sowych, uchwycenia najwa niejszych potrzeb informacyjnych i dotarcia do odpowiednich róde danych;

b) przygotowanie danych, czyli opracowanie rodowiska analitycznego, zebranie i oczyszczenie danych, odpowiednie opracowanie odchyle oraz dokonanie odpowied-nich przekszta ce danych;

c) zaplanowanie modelu analitycznego – ustalenie zmiennych obja niaj cych i obja nia-nych oraz dobór odpowiedniej techniki budowy modelu;

d) budowa modelu analitycznego – przygotowanie zbiorów treningowych i testowych, opracowanie, testowanie i poprawa modelu b d modeli;

e) prezentacja wyników – opracowanie wizualne uzyskanych z modelu analitycznego wyników. Szczególnie jest to wa ne w przypadku big data, które ze wzgl du na swoj obj to wymagaj specyficznych technik i narz dzi wizualizacji (por. punkt 6 opra-cowania);

f) operacjonalizacja – na tym etapie data scientist przedstawia wnioski z analiz, reko-mendacje, raporty, a tak e implementuje modele analityczne w rodowisku biznesowym. Opracowane mierniki analityczne wbudowuje w istniej ce w przedsi -biorstwie systemy raportuj ce, tablice rozdzielcze i kokpity mened erskie.

Szczegó owe informacje na temat opisanego procesu mo na znale np. w ksi ce [20]. Pod-sumowanie zada zwi zanych z zaawansowanymi analizami big data oraz redefinicj roli systemów klasy BI w nowym rodowisku zawiera praca [21].

Maria Mach-Król Analiza i strategia big data w organizacjach

48

3. Strategia big data

Strategia wdra ania big data jest zwi zana z modelem dojrza o ci organizacji do big data. Takie modele zaproponowali np. Schmarzo [18], TDWI [22] czy Radcliffe Advisory Services Ltd. [23]. Celem opracowania takiej strategii jest zapewnienie gotowo ci organizacji do skorzystania z big data. Dokument strategii obejmuje etapy powtarzalnego procesu i ramy dla wdra ania big data w organizacji [18, s. 65]. Taki dokument musi by (ibidem):

- zwi z y, - przejrzysty i zrozumia y, - w a ciwy (relewantny) dla uczestników biznesu. Dokument strategii big data sk ada si w ogólno ci z kilku sekcji, przedstawionych na rysunku

6.

Rysunek 6. Ogólna struktura dokumentu strategii big data

ród o: [18, s. 66].

W sekcji „Business strategy” nale y przedstawi (jako tytu dokumentu) strategi biznesow , jasno okre laj c zakres dzia a , na które b dzie ukierunkowane wdra anie big data. W sekcji „Bu-siness initiatives” umieszcza si inicjatywy biznesowe, sk adaj ce si na strategi biznesow . Jak pisze Schmarzo, inicjatywa biznesowa to „projekt obejmuj cy przekrojowe funkcjonalno ci, trwa-j cy od 9 do 12 miesi cy, maj cy jasno okre lone cele finansowe lub biznesowe” (ibidem, s. 66). Stopie realizacji tych celów pos u y jako miara oceny inicjatywy biznesowej. Sekcja „Outcomes and Critical Success Factors” okre la wyniki (outcomes), czyli idealny b d po dany stan ko -cowy, oraz krytyczne czynniki sukcesu (CSF), czyli co musi zosta zrobione, aby osi gn po dane

Studies & Proceedings of Polish Association for Knowledge Management Nr 74, 2015

49

wyniki. W sekcji „Tasks” dokumentuje si zadania, które nale y wykona w ramach inicjatyw biz-nesowych. Przeci tnie okre la si od 8 do 12 zada . Ostatnia sekcja – „Data sources” zawiera kluczowe ród a danych potrzebnych do wsparcia strategii i inicjatyw biznesowych (ibidem, s. 66–67). Przyk adowy dokument strategii big data, odnosz cy si do poprawienia relacji (zacie nienia wi zów) mi dzy organizacj a jej klientami, przedstawia rysunek 7.

Rysunek 7. Przyk adowy dokument strategii big data

ród o: [18, s. 67].

Zadania sk adaj ce si na strategi big data uzale nione s od zapisów w sekcji „Outcomes & CSF”. S one zwi zane z identyfikacj (ibidem, s. 69–70):

- kluczowych wska ników wydajno ci (KPI), które pos u do zmierzenia efektów wdro e-nia strategii,

- pyta biznesowych, jakie nale y zada , wraz z towarzysz cymi im metrykami, wymiarami, hierarchiami,

- biznesowych, procesu decyzyjnego, wymaga u ytkownika, - algorytmów analitycznych i wymaga odno nie do modelowania (predykcja, przewidywa-

nie, optymalizacja, rekomendacja),

Maria Mach-Król Analiza i strategia big data w organizacjach

50

- danych wspieraj cych ( ród a, granulacja1, cz stotliwo aktualizacji, metody dost pu itp.).

Z kolei John Haddad jako strategi big data proponuje nast puj ce kroki [24]: 1) Identyfikacja celów biznesowych, 2) Przekszta cenie big data w dane operacyjne (za pomoc powtarzalnych metod i procesów), 3) Budowa „ruroci gu” z danymi (big data pipeline), na który sk adaj si

a. Pozyskiwanie i sk adowanie danych, b. Oczyszczanie i wzbogacanie danych, c. Eksploracja danych, d. Rozpowszechnianie danych i zarz dzanie nimi.

Kroki proponowane przez J. Haddada stanowi zatem po czenie strategii w uj ciu Schmarzo z klasycznymi etapami dr enia danych. S one na tyle ogólnikowe, e trudno mówi o dopracowa-nej strategii wdra ania rozwi za big data.

Przekrojowe podej cie do strategii big data zaprezentowali [25]. Przedstawia je rysunek 8.

Rysunek 8. Ramy big data

ród o: [25].

Autorzy cytowanej pracy analizuj strategi big data w dwóch wymiarach: celów biznesowych (business objective) i typu danych (data type).

Pierwszy wymiar charakteryzuje si tym, e organizacje rozwijaj ce strategi wdra ania big data pos uguj si pomiarami i/lub eksperymentami. Wiedz , czego szukaj i jakie powinny by (a jakie s ) warto ci miar. W trakcie eksperymentów organizacje weryfikuj hipotezy badawcze.

1 Szerzej o problemie granulacji wiedzy z ró nych róde pisz autorzy ksi ki [26].

Studies & Proceedings of Polish Association for Knowledge Management Nr 74, 2015

51

Drugi wymiar obejmuje typ danych. Organizacje na co dzie gromadz dane transakcyjne, na-tomiast wdra aj c strategi big data zaczynaj korzysta równie z danych pochodz cych z mediów spo eczno ciowych. Pierwszy typ danych jest ustrukturyzowany, drugi za nie.

Po czenie obu wymiarów daje cztery kwadraty, reprezentuj ce cztery ró ne strategie: zarz -dzanie wydajno ci , eksploracja danych, analityka spo eczno ciowa i nauka o decyzjach.

Strategia nastawiona na zarz dzanie wydajno ci polega na zrozumieniu big data znajduj cych si w bazach danych organizacji, przy u yciu analiz wielowymiarowych. Strategia eksploracji da-nych wykorzystuje na danych transakcyjnych tradycyjne techniki data mining, czyli np. analiz skupie , klasyfikacj , modele predykcyjne, analiz regu asocjacyjnych itp.

Strategia analityki spo eczno ciowej nastawiona jest na dane nieustrukturyzowane, pochodz ce z takich róde , jak Facebook, Twitter, blogi czy fora dyskusyjne. Pozwala ona mierzy trzy g ówne kategorie: wiadomo (marki – awareness), zaanga owanie (engagement) i skuteczno marke-tingu szeptanego (word-of-mouth marketing), czyli zasi g ca kowity (reach). wiadomo mo na mierzy np. liczb wy wietle pliku wideo, liczb ledz cych zawarto strony lub cz onków spo-eczno ci internetowej. Zaanga owanie mierzone bywa np. cz stotliwo ci umieszczania na stronie

organizacji tre ci generowanych przez u ytkowników. Zasi g ca kowity definiowany jest jako od-setek grupy celowej, który w czasie trwania kampanii reklamowej zetkn si z komunikatem reklamowym przynajmniej jednokrotnie. Mo na go zmierzy np. liczb udost pnie tekstu zamie-szonego przez organizacj na Twitterze (tzw. retweet) lub liczb tzw. lajków na Facebooku. Wreszcie strategia nauki o decyzjach (decision science) obejmuje analiz takich danych nieustruk-turyzowanych, jak wygenerowane przez konsumentów pomys y na nowe produkty czy recenzje produktów, aby ulepszy proces podejmowania decyzji w organizacji. Tu w a nie najwi ksz rol odgrywa big data.

Nale y zauwa y , e jedynie dwie ostatnie z opisanych strategii mo na okre li mianem stra-tegii big data. Strategia pierwsza zasadniczo nie ma nic wspólnego z big data, odnosz c si do danych ustrukturyzowanych np. w tradycyjnych bazach danych transakcyjnych. Strategia druga na-tomiast odnosi si do klasycznego dr enia danych, wykonywanego w du ych repozytoriach takich jak np. hurtownie danych. Jednak klasyczne algorytmy data mining nie sprawdzaj si w przypadku big data, ze wzgl du na olbrzymie ich rozmiary – o czym by a mowa w punkcie 2 – Wyzwania big data.

4. Podsumowanie

Niniejszy artyku mia na celu syntetyczne przedstawienie zarówno mo liwo ci jak i wyzwa , z jakimi stykaj si organizacje biznesowe, chc ce wykorzystywa w bie cej dzia alno ci dane okre lane jako „big data”. Wskazano na charakterystyk takich danych, problemy zwi zane z ich analiz i zrozumieniem, a tak e podkre lono, e drog do efektywnego wykorzystania big data po-winna by odpowiednia strategia ich wdra ania. Pokazano przekrojowe podej cia do takiej strategii, zasygnalizowano równie konieczno zatrudniania osób o nowych kompetencjach – takich pra-cowników, jak np. data scientist.

Kolejn kwesti zwi zan z big data, jak b dzie nale a o przeanalizowa , jest kwestia doboru narz dzi informatycznych, które pozwol jak najpe niej wykorzysta mo liwo ci p yn ce z analiz big data. B dzie to tematem kolejnych bada .

Maria Mach-Król Analiza i strategia big data w organizacjach

52

Bibliografia

[1] N. Williams, N. P. Ferdinand and R. Croft, "Project management maturity in the age of Big Data," International Journal of Managing Projects in Business, vol. 7, no. 2, pp. 311–317, 2014.

[2] P. Russom, "Big Data Analytics," TDWI Best Practices Report, 2011. [3] M. Grobelnik, "Big Data Tutorial," 8 May 2012. [Online]. Available:

http://www.slideshare.net/markogrobelnik/big-data-tutorial-marko-grobelnik-25-may-2012. [Accessed 29 06 2014].

[4] IBM, "Big Data at the Speed of Business," 2014. [Online]. Available: http://www-01.ibm.com/software/data/bigdata/. [Accessed 02 07 2014].

[5] T. Shan, "Big Data Cloudified," 6 June 2013. [Online]. Available: http://cloudonomic.blogspot.com/. [Accessed 29 6 2014].

[6] M. Horrigan, "Big Data: A Perspective from the BLS," Amstat News, pp. 25–27, January 2013. [7] R. Rodriguez, "Big Data and Better Data," Amstat News, pp. 3–4, June 2012. [8] S. Arbesman, "Five Myths about Big Data," Washington Post, 16 08 2013. [9] A. Gaffar, E. Darwish and A. Tridane, "Structuring Heterogeneous Big Data for Scalability

and Accuracy," International Journal of Digital Information and Wireless Communications, vol. 4, no. 1, pp. 10–23, 2014.

[10] T. Davenport, P. Barth and R. Bean, "How 'Big Data' is Different," MIT Sloan Management Review, vol. 54, no. 1, pp. 21–24, 2012.

[11] F. Provost and T. Fawcett, "Data science and its relationship to big data and data-driven decision making," Big Data, vol. 1, no. 1, pp. 51–59, 2013.

[12] D. Conway and D. Klabjan, "Innovation Patterns of Big Data," in Big Data and Business Analytics, J. Liebowitz, Ed., Boca Raton, CRC Press, Taylor & Francis Group, LLC, 2013, pp. 131–146.

[13] SAS, "Five big data challenges and how to overcome them with visual analytics," SAS Institute, Cary, NC, 2013.

[14] M. Hoskins, "Big Data 2.0: Cataclysm or Catalyst?," Big Data, vol. 2, no. 1, pp. 5–6, 2014. [15] J. Betser and D. Belanger, "Architecting the Enterprise via Big Data Analytics," in Big Data

and Business Analytics, J. Liebowitz, Ed., Boca Raton, CRC Press, Taylor & Francis Group, LLC, 2013, pp. 1–20.

[16] O. Trajman, "The Intrinsic Value of Data," in Big Data and Business Analytics, J. Liebowitz, Ed., Boca Raton, CRC Press, Taylor & Francis Group, LLC, 2013, pp. 69–86.

[17] P. Kent, R. Kulkarni and U. Sglavo, "Finding Big Value in Big Data: Unlocking the Power of High Performance Analytics," in Big Data and Business Analytics, J. Liebowitz, Ed., Boca Raton, CRC Press, Taylor & Francis Group, LLC, 2013, pp. 87–102.

[18] B. Schmarzo, Big Data: Understanding How Data Powers Big Business, Indianapolis: John Wiley & Sons, 2013.

[19] C. Bizer, P. Boncz, M. Brodie and O. Erling, "The Meaningful Use of Big Data: Four Perspectives – Four Challenges," SIGMOD Record, vol. 40, no. 4, pp. 56–60, 2011.

[20] M. Kantardzic, Data Mining: Concepts, Models, Methods, and Algorithms, 2nd Edition, Hoboken, New Jersey: Wiley-IEEE Press, 2011.

Studies & Proceedings of Polish Association for Knowledge Management Nr 74, 2015

53

[21] D. Zhao, "Frontiers of Big Data Analytics: Patterns and Cases in Online Marketing," in Big Data and Business Analytics, J. Liebowitz, Ed., Boca Raton, CRC Press, Taylor & Francis Group, LLC, 2013, pp. 43–68.

[22] F. Halper and K. Krishnan, "TDWI Big Data Maturity Model Guide," 2013–2014. [Online]. Available: http://tdwi.org/whitepapers/2013/10/tdwi-big-data-maturity-model-guide/asset. aspx? tc =assetpg. [Accessed 02 07 2014].

[23] J. Radcliffe, "Leverage a Big Data Maturity Model to Build Your Big Data Roadmap," Radcliffe Advisory Services Ltd, Guildford, 2014.

[24] J. Haddad, "How to construct a big data strategy," Techradar.pro, 14 May 2014. [25] S. Parise, B. Iyer and D. Vesset, "Four Strategies to Capture and Create Value from Big Data,"

Ivey Business Journal, July/August 2012.

BIG DATA IN ORGANIZATIONS – POSSIBILITIES AND CHALLENGES

Summary The amount of data is growing exponentially, and organizations face also chal-

lenges from the environment – namely globalization, competition and changeability. Thus organizations have to consider not only structured data, but also to analyze the unstructured, so-called big data. The latter is so specific and differs so much from "classical" data in databases and data warehouses, that it is necessary to develop a new approach to big data implementation and analysis. The main aim of the paper is ordering of notions connected with big data, discussing of challenges of big data, as well as pointing out an effective strategy for organizations aiming at analyzing big data.

Keywords: big data, data mining and analysis, big data strategy

Maria Mach-Król Katedra Informatyki Ekonomicznej Wydzia Ekonomii Uniwersytet Ekonomiczny w Katowicach ul. Bogucicka 3, 40-226 Katowice e-mail: [email protected]