Big Datamariuszrafalo.pl/sgh/bd/BD 01 - Wprowadzenie.pdf · 2019-10-05 · Wprowadzenie do tematyki...

29
Big Data

Transcript of Big Datamariuszrafalo.pl/sgh/bd/BD 01 - Wprowadzenie.pdf · 2019-10-05 · Wprowadzenie do tematyki...

Page 1: Big Datamariuszrafalo.pl/sgh/bd/BD 01 - Wprowadzenie.pdf · 2019-10-05 · Wprowadzenie do tematyki Big Data. Architektura Big data. Wybrane komponenty. 2 Przetwarzanie rozproszone:

Big Data

Page 2: Big Datamariuszrafalo.pl/sgh/bd/BD 01 - Wprowadzenie.pdf · 2019-10-05 · Wprowadzenie do tematyki Big Data. Architektura Big data. Wybrane komponenty. 2 Przetwarzanie rozproszone:

OrganizacyjnieProwadzący:

dr Mariusz Rafało [email protected]://mariuszrafalo.pl (hasło: BIG)

Zaliczenie:Praca na zajęciachEgzaminProjekt/esej zaliczeniowy

Page 3: Big Datamariuszrafalo.pl/sgh/bd/BD 01 - Wprowadzenie.pdf · 2019-10-05 · Wprowadzenie do tematyki Big Data. Architektura Big data. Wybrane komponenty. 2 Przetwarzanie rozproszone:

Plan zajęć

# TEMATYKA ZAJĘĆ

1Wprowadzenie do tematyki Big Data. Architektura Big data. Wybrane komponenty.

2 Przetwarzanie rozproszone: koncepcja, przykłady i zastosowania

3 Wybrane komponenty ekosystemu Big Data (technologie)

4 Analizowanie danych pozbawionych struktury

5Analityka na platformie Big Data. Integracja ekosystemu Big Data z hurtownią danych.

6 Analizowanie danych w czasie rzeczywistym

7 Wybrane zagadnienia związane z etyką i prywatnością danych

Page 4: Big Datamariuszrafalo.pl/sgh/bd/BD 01 - Wprowadzenie.pdf · 2019-10-05 · Wprowadzenie do tematyki Big Data. Architektura Big data. Wybrane komponenty. 2 Przetwarzanie rozproszone:

Literatura1. Provost, F. & Fawcett, T., Data Science for Business: What you need to

know about data mining and data-analytic thinking, O'Reilly & Associates

2. Schutt, R. & O'Neil, C., Doing data science, O'Reilly

3. Minelli, M. Big Data, big analytics: emerging business intelligence andanalytic trends for today’s businesses, John Wiley & Sons, Inc.

4. Prajapati, V., Big Data Analytics with R and Hadoop, Packt Publishing Ltd.

5. Databricks, A Gentle Introduction to Apache Spark, Databricks

Page 5: Big Datamariuszrafalo.pl/sgh/bd/BD 01 - Wprowadzenie.pdf · 2019-10-05 · Wprowadzenie do tematyki Big Data. Architektura Big data. Wybrane komponenty. 2 Przetwarzanie rozproszone:

WPROWADZENIE

Page 6: Big Datamariuszrafalo.pl/sgh/bd/BD 01 - Wprowadzenie.pdf · 2019-10-05 · Wprowadzenie do tematyki Big Data. Architektura Big data. Wybrane komponenty. 2 Przetwarzanie rozproszone:

Definicja Big Data

• Big Data definiowane jest jako składowanie zbiorów danych o tak dużej złożoności i ilości danych, że jest to niemożliwe przy zastosowaniu podejścia tradycyjnego (np. opartego na hurtowni danych)

• Zagadnienie obejmuje identyfikację, pobieranie, składowanie, przeszukiwanie, współdzielenie, analizę i wizualizację danych

6

wikipedia.org

Page 7: Big Datamariuszrafalo.pl/sgh/bd/BD 01 - Wprowadzenie.pdf · 2019-10-05 · Wprowadzenie do tematyki Big Data. Architektura Big data. Wybrane komponenty. 2 Przetwarzanie rozproszone:

Paradygmat Big Data

7

Element Paradygmat klasyczny Paradygmat Big Data

Ilość danych Kolejne przyrosty danych cyklicznie ładowane do hurtowni danych

Analizowanie danych w czasie rzeczywistym, zapisywanie wyłącznie informacji kluczowych

Szybkość danych Cykliczne pobieranie wyłącznie istotnych danych. Wysoki (względnie) poziom latencji (opóźnienia) danych

Nasłuch strumienia danych, w momencie pojawienia się określonych sytuacji, natychmiastowe podjęcie działania

Różnorodność danych Umieszczanie danych w bazie danych o określonej strukturze

Strukturyzowanie danych, które pozwalają na określenie kontekstu danych o nieustrukturyzowanej postaci

Page 8: Big Datamariuszrafalo.pl/sgh/bd/BD 01 - Wprowadzenie.pdf · 2019-10-05 · Wprowadzenie do tematyki Big Data. Architektura Big data. Wybrane komponenty. 2 Przetwarzanie rozproszone:

Big Data: 3V’s

• Wolumen danych (Volume)

• Zróżnicowanie danych (Variety)

• Szybkość zmian danych (Velocity)

8

Page 9: Big Datamariuszrafalo.pl/sgh/bd/BD 01 - Wprowadzenie.pdf · 2019-10-05 · Wprowadzenie do tematyki Big Data. Architektura Big data. Wybrane komponenty. 2 Przetwarzanie rozproszone:

Wolumen danych (Volume)

http://www.signiant.com9

Page 10: Big Datamariuszrafalo.pl/sgh/bd/BD 01 - Wprowadzenie.pdf · 2019-10-05 · Wprowadzenie do tematyki Big Data. Architektura Big data. Wybrane komponenty. 2 Przetwarzanie rozproszone:

Zróżnicowanie danych (Variety)

• Relacyjne bazy danych

• Tekst, html

• XML

• Strumienie danych

• Dane dotyczące powiązań

• Zdjęcia, filmy, muzyka

10

Page 11: Big Datamariuszrafalo.pl/sgh/bd/BD 01 - Wprowadzenie.pdf · 2019-10-05 · Wprowadzenie do tematyki Big Data. Architektura Big data. Wybrane komponenty. 2 Przetwarzanie rozproszone:

Szybkość danych (Velocity)

11

http://vceestartups.com

Page 12: Big Datamariuszrafalo.pl/sgh/bd/BD 01 - Wprowadzenie.pdf · 2019-10-05 · Wprowadzenie do tematyki Big Data. Architektura Big data. Wybrane komponenty. 2 Przetwarzanie rozproszone:

wartość

czas

Zdarzenie biznesowe

Dane zebrane

Informacja dostarczona

Działania podjęte

Big Data – kolejne V: Value (wartość)

12

Page 13: Big Datamariuszrafalo.pl/sgh/bd/BD 01 - Wprowadzenie.pdf · 2019-10-05 · Wprowadzenie do tematyki Big Data. Architektura Big data. Wybrane komponenty. 2 Przetwarzanie rozproszone:

Big Data – kolejne V: Veracity (wiarygodność)

• Big data, ze względu na rodzaj danych oraz ich skalę, obarczony jest szeregiem problemów:• Błędy danych

• Przekłamania

• Szum informacyjny

• Anomalie w danych

• W takich uwarunkowaniach istotne jest zarządzanie wiarygodnością danych dla ich użytkowników

13

Page 14: Big Datamariuszrafalo.pl/sgh/bd/BD 01 - Wprowadzenie.pdf · 2019-10-05 · Wprowadzenie do tematyki Big Data. Architektura Big data. Wybrane komponenty. 2 Przetwarzanie rozproszone:

Architektura Big Data

Page 15: Big Datamariuszrafalo.pl/sgh/bd/BD 01 - Wprowadzenie.pdf · 2019-10-05 · Wprowadzenie do tematyki Big Data. Architektura Big data. Wybrane komponenty. 2 Przetwarzanie rozproszone:

HDFS

• HDFS (Hadoop Distributed File System) to rozproszony system plików, umieszczony na wielu serwerach (węzłach – node)

• HDFS cechuje się wysokim poziomem tolerancji na awarie sprzętowe (fault tolerant)

• HDFS opiera się na nisko-kosztowych serwerach

• HDFS powstał na potrzeby projektu wyszukiwarki Nutch, dla firmy Yahoo

15

Page 16: Big Datamariuszrafalo.pl/sgh/bd/BD 01 - Wprowadzenie.pdf · 2019-10-05 · Wprowadzenie do tematyki Big Data. Architektura Big data. Wybrane komponenty. 2 Przetwarzanie rozproszone:

Architektura rozproszona

Name NodeSecondary Name

Node

Data Node Data Node Data Node

▪ Rozproszony system plików▪ Automatyczny rebalancing▪ Możliwość usuwania/wyłączania

węzłów w trakcie pracy▪ Brak systemu zabezpieczeń

16

Klaster big data

Page 17: Big Datamariuszrafalo.pl/sgh/bd/BD 01 - Wprowadzenie.pdf · 2019-10-05 · Wprowadzenie do tematyki Big Data. Architektura Big data. Wybrane komponenty. 2 Przetwarzanie rozproszone:

Name node

• Przechowuje metadane plików; także dane dotyczące lokalizacji poszczególnych plików składowanych na HDFS

• name node jest kluczowym elementem architektury fizycznej – w klastrze zawsze jest jeden name node

• Zarządzania rozkładem plików podczas przyłączania nowych data nodeoraz w przypadku wystąpienia awarii

17

Page 18: Big Datamariuszrafalo.pl/sgh/bd/BD 01 - Wprowadzenie.pdf · 2019-10-05 · Wprowadzenie do tematyki Big Data. Architektura Big data. Wybrane komponenty. 2 Przetwarzanie rozproszone:

Secondary name node

• Przechowuje logi replikowane w określonym czasie z name node

• Zadaniem secondary name node jest redukcja czasu zarządzania metadanymi klastra oraz czasu restartu klastra

• secondary name node stanowi zapisuje stany danych(checkpoint) w systemie HDFS; służy to wsparciu wydajności pracy name node

• secondary name node nie służy zapewnieniu wysokiej dostępności klastra (HA)

18

Page 19: Big Datamariuszrafalo.pl/sgh/bd/BD 01 - Wprowadzenie.pdf · 2019-10-05 · Wprowadzenie do tematyki Big Data. Architektura Big data. Wybrane komponenty. 2 Przetwarzanie rozproszone:

Data node

• Składuje dane na systemie HDFS

• Przekazuje informacje od name node, dotyczące swojego statusu oraz posiadanych plików

• Może pracować w trybie replikacji danych (także RAID)

• Wykonuje zadania obliczeniowe zlecane poprzez MapReduce lub Yarn

19

Page 20: Big Datamariuszrafalo.pl/sgh/bd/BD 01 - Wprowadzenie.pdf · 2019-10-05 · Wprowadzenie do tematyki Big Data. Architektura Big data. Wybrane komponenty. 2 Przetwarzanie rozproszone:

Architektura fizyczna

20Źródło: pacificbigdata.com

Page 21: Big Datamariuszrafalo.pl/sgh/bd/BD 01 - Wprowadzenie.pdf · 2019-10-05 · Wprowadzenie do tematyki Big Data. Architektura Big data. Wybrane komponenty. 2 Przetwarzanie rozproszone:

Architektura fizyczna

21Źródło: pacificbigdata.com

Page 22: Big Datamariuszrafalo.pl/sgh/bd/BD 01 - Wprowadzenie.pdf · 2019-10-05 · Wprowadzenie do tematyki Big Data. Architektura Big data. Wybrane komponenty. 2 Przetwarzanie rozproszone:

Apache Hadoop: zasady zapisu/odczytu

Źródło: hadoop.apache.org22

Page 23: Big Datamariuszrafalo.pl/sgh/bd/BD 01 - Wprowadzenie.pdf · 2019-10-05 · Wprowadzenie do tematyki Big Data. Architektura Big data. Wybrane komponenty. 2 Przetwarzanie rozproszone:

Kiedy nie stosować Hadoop

• Low latency and real time

• Dane posiadają strukturę

• Wolumen nie jest bardzo duży

• Dużo zapisów (więcej niż odczytów)

• Jeśli algorytm nie daje się dekomponować na równoległe kroki23

Page 24: Big Datamariuszrafalo.pl/sgh/bd/BD 01 - Wprowadzenie.pdf · 2019-10-05 · Wprowadzenie do tematyki Big Data. Architektura Big data. Wybrane komponenty. 2 Przetwarzanie rozproszone:

Nowoczesne architektury

Page 25: Big Datamariuszrafalo.pl/sgh/bd/BD 01 - Wprowadzenie.pdf · 2019-10-05 · Wprowadzenie do tematyki Big Data. Architektura Big data. Wybrane komponenty. 2 Przetwarzanie rozproszone:

Data Lake• Repozytorium służące składowaniu i przetwarzaniu danych o bardzo dużej skali i

zróżnicowaniu

• Możliwość podłączania zróżnicowanych źródeł danych, zarówno posiadających strukturę jak i pozbawionych struktury; danych wsadowych oraz strumieni

• Dane nie są składowane w sposób uporządkowany jak w przypadku hurtowni danych czy data martów. Jest to często federacja technologii, baz danych i strumieni danych

• Architektura powstała jako odpowiedź na wady „klasycznych” hurtowni danych:

• HD odpowiadają tylko na pytania, które były znane wcześniej

• Hurtownie danych i data marty posiadają dane o określonej szczegółowości. Nie można jej zwiększyć

• HD opierają się na zdefiniowanych źródłach danych

25

Page 26: Big Datamariuszrafalo.pl/sgh/bd/BD 01 - Wprowadzenie.pdf · 2019-10-05 · Wprowadzenie do tematyki Big Data. Architektura Big data. Wybrane komponenty. 2 Przetwarzanie rozproszone:

Architektura lambda

location

mobile apps

databases

sensors

cloud

science

Batch layer

Real-time layer

Real-time data repository

Enterprise data repository

Data enrichment

Serving layer

26

Page 27: Big Datamariuszrafalo.pl/sgh/bd/BD 01 - Wprowadzenie.pdf · 2019-10-05 · Wprowadzenie do tematyki Big Data. Architektura Big data. Wybrane komponenty. 2 Przetwarzanie rozproszone:

Architektura kappa

Historical data storage

Dane historyczne

Dane słownikowe

Real-time enginelocation

mobile apps

databases

sensors

cloud

science

Real-time layer Serving layer

27

Page 28: Big Datamariuszrafalo.pl/sgh/bd/BD 01 - Wprowadzenie.pdf · 2019-10-05 · Wprowadzenie do tematyki Big Data. Architektura Big data. Wybrane komponenty. 2 Przetwarzanie rozproszone:

Databricks

https://community.cloud.databricks.com

Page 29: Big Datamariuszrafalo.pl/sgh/bd/BD 01 - Wprowadzenie.pdf · 2019-10-05 · Wprowadzenie do tematyki Big Data. Architektura Big data. Wybrane komponenty. 2 Przetwarzanie rozproszone:

Dziękuję za uwagę