Wprowadzenie do technologii Big Data

Radosław Stankiewicz

HackerBD & DS FTW!Technical Lead Trainer

Src: computing.co.uk , https://www.flickr.com/photos/barron/15483113 , tech.co

Agenda

Wstęp -> Map Reduce -> Pig -> Hive -> HBase

Wprowadzenie

V O LUME6

Variety

A|123|10$ B|555|20$ Y|333|15$

{ 'typ'='A', 'id'=123, 'kwota'='10$'

Velocity

Real Time

Streaming Interactive analytics

Przechowywanie danychpliki (analiza batch i interaktywna) NoSQL (random access) Indeksy

pliki płaskie, csv(rowid,col,czas)->value:Accumulo, HBaseCassandra

MongoDBSolrElastic Search

formaty kolumnowe Bazy grafowe

Klasyfikacja problemu• Baza danych ulic Warszawy, Dane w formacie JSON,

optymalizacja odbioru śmieci jednego z usługodawców.

• Zdarzenia z bazy transakcyjnej i kart kredytowych w celu lepszego wykrywania fraudów

• System wyszukujący dobre oferty samochodów z wielu serwisów - web crawling, parsowanie danych, analiza trendów cen samochodów

• Centralne repozytorium skanów umów, TB danych, codziennie przybywa kilkaset nowych dokumentów

BI/BigData/EDH

Geneza

• za dużo danych

• pady serwerów

• wolne relacyjne bazy danych

Ekosystem Hadoop

19 źródło: Hortonworks

Wprowadzenie do MapReduce na przykładzie

platformy Hadoop

Architektura

22 źródło: Hortonworks

Inspirowany GFS(po prawej)

Główne cechy: • Fault tolerant • Commodity, low cost hardware • Batch processing • High throughput, not low latency • Write Once, Read Many

HDFS - Namenode, Datanode

HDFS - replikacja

Datanodes

Namenode

● User Commands o dfs o fsck

● Administration Commands o datanode o dfsadmin o namenode

dfs: appendToFile cat chgrp chmod chown copyFromLocal copyToLocal count cp du dus expunge get getfacl getfattr getmerge ls lsr mkdir moveFromLocal moveToLocal mv put rm rmr setfacl setfattr setrep stat tail test text touchz

hdfs dfs -put localfile1 localfile2 /user/tmp/hadoopdir hdfs dfs -getmerge /user/hadoop/output/ localfile

komendy

Uprawnienia

POSIX - Knox - Ranger

Architektura YARN

Map Reduce Framework

Mapper

#!/usr/bin/env python import sys for line in sys.stdin: words = line.strip().split() for word in words: print '%s\t%s' % (word, 1)

line = “Ala ma kota”

Ala 1 ma 1 kota 1

Reducer#!/usr/bin/env python import sys current_word = None current_count = 0 word = None for line in sys.stdin: line = line.strip() word, count = line.split('\t', 1) count = int(count) if current_word == word: current_count += count else: if current_word: print '%s,%s' % (current_word, current_count) current_count = count current_word = word if current_word == word: print '%s,%s' % (current_word, current_count)

ala 1 ala 1 bela 1 dela 1

ala,2 bela,1 dela,1

Uruchomienie streaming

cat input.txt | ./mapper.py | sort | ./reducer.py

bin/yarn jar [..]/hadoop-*streaming*.jar \ -file mapper.py -mapper ./mapper.py -file reducer.py -reducer ./reducer.py \-input /tmp/wordcount/input -output /tmp/wordcount/output

Map Reduce w Java(input) <k1, v1> -> map -> <k2, v2> -> combine -> <k2, v2> -> reduce -> <k3, v3> (output) 1) Mapper 2) Reducer 3) run public class WordCount extends Configured implements Tool { public static class TokenizerMapper{...} public static class IntSumReducer{...} public int run(...){...}

Mapper<KEYIN,VALUEIN,KEYOUT,VALUEOUT>

public static class TokenizerMapper extends Mapper<LongWritable, Text, Text, IntWritable>{ private final static IntWritable one = new IntWritable(1); private Text word = new Text(); public void map(LongWritable key, Text value, Context context ) throws IOException, InterruptedException { StringTokenizer itr = new StringTokenizer(value.toString()); while (itr.hasMoreTokens()) { word.set(itr.nextToken()); context.write(word, one); } } public void setup(...) {...} public void cleanup(...) {...} public void run(...) {...} }

value = “Ala ma kota”

Ala,1 ma,1 kota,1

Reducer<KEYIN,VALUEIN,KEYOUT,VALUEOUT>

public static class IntSumReducer extends Reducer<Text,IntWritable,Text,IntWritable> { private IntWritable result = new IntWritable(); public void reduce(Text key, Iterable<IntWritable> values, Context context ) throws IOException, InterruptedException { int sum = 0; for (IntWritable val : values) { sum += val.get(); } result.set(sum); context.write(key, result); } public void setup(...) {...} public void cleanup(...) {...} public void run(...) {...} }

kota,(1,1,1,1)

kota,4

Mainpublic int run(String[] args) throws Exception { Configuration conf = new Configuration(); Job job = Job.getInstance(conf, "word count"); job.setJarByClass(WordCount.class); job.setMapperClass(TokenizerMapper.class); job.setCombinerClass(IntSumReducer.class); job.setReducerClass(IntSumReducer.class); job.setOutputKeyClass(Text.class); job.setOutputValueClass(IntWritable.class); FileInputFormat.addInputPath(job, new Path(args[0])); FileOutputFormat.setOutputPath(job, new Path(args[1])); System.exit(job.waitForCompletion(true) ? 0 : 1); } public static void main(String[] args) throws Exception { int res = ToolRunner.run(new Configuration(), new WordCount(),args); System.exit(res); }

yarn jar wc.jar WordCount /tmp/wordcount/input /tmp/wordcount/output

Co dalej?• Map Reduce w Javie

• Testowanie MRUnit

• Joins

• Avro

• Custom Key, Value

• Złączanie wielu zadań

• Custom Input, Output

http://bit.ly/1PTjH92

Warsztat

Wprowadzenie do przetwarzania danych na

przykładzie Pig

Architektura Pig

Tryb Pracy

Interaktywny lub Wsadowy

Tryb Pracy

Lokalny lub Rozproszony

Tryb Pracy

Map Reduce lub Tez

Typy danych

int long float double

chararray datetime boolean

bytearray biginteger bigdecimal

Złożone typy

tuple bag map

Podstawy Pig Latin - wielkość liter

• A = LOAD 'data' USING PigStorage() AS (f1:int, f2:int, f3:int);B = GROUP A BY f1;C = FOREACH B GENERATE COUNT ($0);DUMP C;

• Nazwy zmiennych A, B, and C (tzw. aliasy) są case sensitive.• Wielkość liter jest też istotna dla:

• nazwy pól f1, f2, i f3• nazwy zmiennych A, B, C• nazwy funkcji PigStorage, COUNT

• Z wyjątkiem: LOAD, USING, AS, GROUP, BY, FOREACH, GENERATE, oraz DUMP

assert, and, any, all, arrange, as, asc, AVG, bag, BinStorage, by, bytearray, BIGINTEGER, BIGDECIMAL, cache, CASE, cat, cd, chararray, cogroup, CONCAT, copyFromLocal, copyToLocal, COUNT, cp, cross, datetime, %declare, %default, define, dense, desc, describe, DIFF, distinct, double, du, dump, e, E, eval, exec, explain, f, F, filter, flatten, float, foreach, full, generate, group, help, if, illustrate, import, inner, input, int, into, is, join, kill, l, L, left, limit, load, long, ls, map, matches, MAX, MIN, mkdir, mv, not, null, onschema, or, order, outer, output, parallel, pig, PigDump, PigStorage, pwd, quit, register, returns, right, rm, rmf, rollup, run, sample, set, ship, SIZE, split, stderr, stdin, stdout, store, stream, SUM, TextLoader, TOKENIZE, through, tuple, union, using, void

Słowa kluczowe

Pierwsze kroki

data = LOAD 'input' AS (query:CHARARRAY);

A = LOAD 'data' USING PigStorage('\t') AS (f1:int, f2:int, f3:int);

STORE A INTO '/tmp/result' USING PigStorage(';')

Pierwsze kroki

SAMPLEDESCRIBE

DUMPEXPLAIN

ILLUSTRATE

Kolejne kroki - operacje na danych

A = LOAD 'student' USING PigStorage() AS (name:chararray, age:int, semestre:int, scholarship:float);

B = FILTER A BY age > 20;

B = FILTER A BY age > 20; C = LIMIT B 5;

D = FOREACH C GENERATE name, scholarship*semestre as funds

E = GROUP A by age

E = GROUP A by age F = FOREACH E GENERATE group as age, AVG(A.scholarship)

Wydajność

Tez, Projekcje, Filtrowanie, Join

Co dalej?

UDF, PigUnit, Integracje

Warsztat

Wprowadzenie do analizy danych na przykładzie

Architektura

Unikalne cechy Hive

Zapytania SQL na plikach płaskich, np. CSV

Unikalne cechy Hive

Znaczne przyspieszenie analizy - nie potrzeba pisać Map Reduce Optymalizacja, wykonywanie części operacji w pamięci zamiast MR

Unikalne cechy Hive

Nieograniczone formy integracji - MongoDB, Elastic Search, HBase

Unikalne cechy Hive

Integracja narzędzi BI oraz DWH z Hive poprzez JDBC

Hive CLITryb Interaktywny

hive Tryb Wsadowy:

hive -e ‘select foo from bar’ hive -f ‘/path/to/my/script.q’ hive -f ‘hdfs://namenode:port/path/to/my/script.q’

więcej opcji: hive --help

Typy danychINT, TINYINT, SMALLINT, BIGINTBOOLEANDECIMALFLOAT, DOUBLESTRINGBINARYTIMESTAMPARRAY, MAP, STRUCT, UNIONDATECHARVARCHAR

Składnia zapytańSELECT, INSERT, UPDATE

GROUP BY

LEFT, RIGHT, FULL INNER, FULL OUTER JOIN

OVER, RANK

(NOT) IN, HAVING

(NOT) EXISTS

Data Definition Language

• CREATE DATABASE/SCHEMA, TABLE, VIEW, FUNCTION, INDEX • DROP DATABASE/SCHEMA, TABLE, VIEW, INDEX • TRUNCATE TABLE • ALTER DATABASE/SCHEMA, TABLE, VIEW • MSCK REPAIR TABLE (or ALTER TABLE RECOVER PARTITIONS) • SHOW DATABASES/SCHEMAS, TABLES, TBLPROPERTIES, PARTITIONS, FUNCTIONS, INDEX[ES], COLUMNS, CREATE TABLE

• DESCRIBE DATABASE/SCHEMA, table_name, view_name

Tabele

CREATE TABLE page_view(viewTime INT, userid BIGINT, page_url STRING, referrer_url STRING, ip STRING COMMENT 'IP Address of the User') COMMENT 'This is the page view table' PARTITIONED BY(dt STRING, country STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\001' STORED AS TEXTFILE;

Pierwsze kroki w Hive

CREATE TABLE tablename1 (foo INT, bar STRING) PARTITIONED BY (ds STRING); LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename1;

INSERT INTO TABLE tablename1 PARTITION (ds='2014') select_statement1 FROM from_statement;

Pierwsze kroki w Hive

UPDATE tablename SET column = value [, column = value ...] [WHERE expression]

DELETE FROM tablename [WHERE expression]

Inne formaty plików? SerDe

127.0.0.1 - frank [10/Oct/2000:13:55:36 -0700] "GET /apache_pb.gif HTTP/1.0" 200 2326 "http://www.example.com/

start.html" "Mozilla/4.08 [en] (Win98; I ;Nav)"

CREATE TABLE apachelog (

host STRING, identity STRING, user STRING, time STRING, request STRING, status STRING,

size STRING, referer STRING, agent STRING)

ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.RegexSerDe'

WITH SERDEPROPERTIES (

"input.regex" = "([^]*) ([^]*) ([^]*) (-|\\[^\\]*\\]) ([^ \"]*|\"[^\"]*\") (-|[0-9]*) (-|[0-9]*)(?:

([^ \"]*|\".*\") ([^ \"]*|\".*\"))?"

STORED AS TEXTFILE;

Inne formaty plików? SerDe

CREATE TABLE table (

foo STRING, bar STRING)

STORED AS TEXTFILE; ← lub SEQUENCEFILE, ORC, AVRO lub PARQUET

Zalety, wady, porównanieHive Pig

deklaratywny proceduralny

tabele tymczasowe pipeline

polegamy na optymalizatorze bardziej ingerujemy w implementacje

UDF, Transform UDF, streaming

sterowniki sql data pipeline splits

Stinger

http://hortonworks.com/labs/stinger/78

Tips & Trickshive.vectorized.execution.enabled=true

hive.execution.engine=tez

John Lund Stone Getty Images79

Co dalej?

• Integracje z Solr, Elastic, MongoDB

• UDF

• multi table inserts

• JDBC

Warsztat

źródło:HikingArtist81

Wprowadzenie do NoSQL na podstawie

No SQL

• Not Only SQL

• Nierelacyjne

• Większość bez ACID

geekandpoke

Kiedy NoSQL

Skalowalność, Elastyczność

Przegląd baz nierelacyjnych

CAP theorem

Co to jest?• Key Value

• Column Family

• Wide Column

• Random access

• No SQL

• Liniowo skalowalny87

HBase Table (concept)adres (column family) wygląd (column

family)

rowkey miasto ulica kolor oczu

rowkey1 Warszawa Rubinowa Niebieskie

rowkey2 Kraków Poznańska

rowkey3 Pcim Brązowe

HBase Table …

rowkey

adres (column family) wygląd (column family)

miasto ulica kolor oczu

value timestamp value timestamp value timestamp

rowkey1 Warszawa 133334732

Rubinowa 133337743

Zielone 1344343424

Kasprowicza 144434453

rowkey2 Kraków 123333344 Poznańska 133333

rowkey3 Pcim 133333334 Brązowe 1343433444

HBase Table …….

{ rowkey1: {

adres: {

miasto:{

1333334732:Warszawa

ulica:{

1333337743: Kasprowicza,

1444434453: Rubinowa

}, [ other rowkeys..]

HBase Key Value

• (rowid,columnid,timestamp)->value

• (rowkey1,miasto,13334444)->Warszawa

High Level Architecture

Tabela

Architektura HBase

http://www.toadworld.com/platforms/nosql/w/wiki/356.hbase-storage.aspx94

API• shell

• thrift

• java client

• rest

• hive

• phoenix96

HBase Shell

hbase shell create 'testtable', {NAME=>'CF1'}, {NAME=>'CF2', VERSIONS=>2} put 'testtable', 'row1', 'CF1:col1', 'val1’ put 'testtable', 'row2', 'CF2:col7', 'val2' get 'testtable', 'row1' scan 'testtable', { STARTROW => 'row2', STOPROW => 'rowX'} scan 'testtable', {COLUMNS=>['CF1:']} scan 'testtable' , {COLUMNS=>['CF1:'], VERSIONS => 3} disable 'testtable' drop 'testtable'

Python Api na przykładzie HappyBase

1) Zainstaluj Happybase pip install happybase 2) Uruchom python 3) Dive into the code: import happybase connection = happybase.Connection('somehost', table_prefix='myproject') print connection.tables() table = connection.table('XYZ') row = table.row('row-key') print row['cf1:col1'] for key, data in table.scan(row_start='aaa', row_stop='xyz'): print key, data

table.put('row-key', {'cf:col1': 'value1', 'cf:col2': ‚value2'}) table.delete(‚row-key')

więcej: http://happybase.readthedocs.org/en/latest/index.html

CREATE [EXTERNAL] TABLE foo(rowkey STRING, a STRING, b STRING) STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' WITH SERDEPROPERTIES ('hbase.columns.mapping' = ':key,f:c1,f:c2') TBLPROPERTIES ('hbase.table.name' = 'bar');

f - column family c1, c2 - kolumny

Warsztat

źródło:HikingArtist100

Warsztatadres (column family) wygląd (column family)

rowkey miasto kod pocztowy ulica kolor włosów kolor oczu wzrost

95060200998 Warszawa 05-077 01-949

Jaspisowa Sokratesa blond Zielone

170 180 192

86010100222 Kraków Poznańska blond rudy 190

83010233331 Pcim brąz Brązowe 195

Monitorowanie i zarządzanie klastrem na

przykładzie Ambari

CLI• Yarn Administration Commands

• resourcemanager nodemanager proxyserver rmadmin daemonlog• HDFS

• User Commands • dfs • fsck

• Administration Commands • datanode dfsadmin namenode

• HBase • start-hbase.sh, stop-hbase.sh

• HCatalog, HiveServer, • Kafka, Storm, Tez, Spark, Oozie i inne • monitoring, konfiguracja, aktualizacja

Ambari

• zarządzanie klastrem

• konsola monitoringu

• instalacja nowych węzłów

• konfiguracja

• wygaszanie serwerów

Ambari

Now what?107

Chcesz wiedzieć więcej?Szkolenia pozwalają na indywidualną pracę z każdym uczestnikiem

• pracujemy w grupach 4-8 osobowych

• program może być dostosowany do oczekiwań grupy

• rozwiązujemy i odpowiadamy na indywidualne pytania uczestników

• mamy dużo więcej czasu :)

Szkolenie dedykowane dla Ciebie

Jesteś architektem lub team leaderem?

• na przekrojowym szkoleniu 5-dniowym omawiamy i ćwiczymy cały ekosystem Hadoopa

• na szkoleniu dedykowanym dla architektów dyskutujemy o projektowaniu systemów BigData

Jesteś analitykiem?

• na dedykowanym szkoleniu przećwiczysz w szczegółach Pig i Hive i rozwiążesz przykładowe problemy analityczne

Szkolenie dedykowane dla Ciebie

Jesteś programistą?

• szkolenie 3-dniowe pozwala w szczegółach zapoznać się z programowaniem zaawansowanych aspektów MapReduce w Javie i programowaniem w podejściu strumieniowym

Interesuje Cię całość zagadnienia BigData?

• Przetwarzanie Big Data z użyciem Apache Spark

• Bazy danych NoSQL - Cassandra

• Bazy danych NoSQL - MongoDB

Szkolenia

źródła

• HikingArtist.com - rysunki

• hortonworks.com - architektura HDP

• apache.org - grafiki Pig, Hive, Hadoop

dziękujępytania?

Wprowadzenie do technologii Big DataRadosław Stankiewicz - radoslaw@zagwozdka.com

www.sages.com.pl

Wprowadzenie do technologii Big Data

Data & Analytics

Transcript of Wprowadzenie do technologii Big Data

Big data w praktyce

Big data szczecin

t^d%W - Stowarzyszenie Cognitis · kładem zastosowania nowych technologii w doradztwie jest np. wykorzystanie dronów, big data i data analyticsdo przeprowadzania analiz biznesowych.

Wprowadzenie do technologii Big Data / Intro to Big Data Ecosystem

Maciej Kijak Portfolio Big

V BIG DATA: Think BIG CEE Congress

Wprowadzenie do technologii Business Intelligence i ... · • Skupiona wokół technologii hurtowni danych, będących ... bazy danych systemy starej generacji ... odczyt źródłowych

Więcej informacji: €¦ · y Wprowadzenie do technologii AI y Wprowadzenie do transformacji cyfrowej, y Wykorzystanie AI w biznesie – przegląd obszarów i rozwiązań y Wstęp

Wdrożenia Big Data - Seminarium

Big idea mastermind polska

Big City Life

Na rozdrożu Big Data - Amadeus Data -Raport.pdf · 6 Na rozdrożu Big Data: zwrot w kierunku inteligentniejszych doświadczeń z podróżowania W świecie Big Data nowością są

Raport Big

Big Data Genomics Pipelines - Processing and Analysing Big Data · 2016-04-28 · Big Data Genomics Pipelines Processing and Analysing Big Data mgr inż. Marek Wiewiórka 1 dr inż.

Wprowadzenie do technologii informacyjnej. · wyposażenia stanowiska pracy w odpowiedniej odległości od siebie. elem jest zapobieganie przyjmowaniu wymuszonych pozycji. Biurko

Rozwiązania wspierające ITforumti.pl/18Forum/prezentacje/Formas_L.pdf · ROZWIĄZANIA BIG-IP SERIA ARX BIG-IP Local Traffic Manager (LTM Virtual Edition (VE) BIG-IP Application

Big Data w Logistyce

Big Form katalog upominki

POLITECHNIKA POZNAŃSKA INSTYTUT TECHNOLOGII … · 2019-09-11 · Data Science & Big Data). Tak więc, idea Przemysł 4.0 jest próbą wprowadzenia do sfery wytwórczej wie-lu nowoczesnych

Co matematyka może dać bankowi? - math.us.edu.pl · Nowoczesne trendy w biznesie – nowe problemy banku Big Data Predictive analitycs 7 . Big Data 8 . Big Data – bardzo nowoczesne