Artur Senk, OKE Poland, Big Data na zakupach

Post on 15-Jun-2015

268 views 1 download

description

Nasze wieloTORowe doświadczenia w technologicznym safari: Python, Anaconda, RabbitMQ i pożerające wszystko Celery… Czyli Big Data i social commerce na przykładzie aplikacji MioSpot.

Transcript of Artur Senk, OKE Poland, Big Data na zakupach

Big Data na zakupach

Artur Senk, OKE Poland

Tech.3camp.pl01.10.2014

Rok założenia: 1996 r.

Zatrudnienie: 50 osób

Siedziba: Gdańsk

Technologie telewizyjne (.NET)

oraz…

- start: kwiecień 2013

Net - Trends

Przewidywanie trendówna podstawie danych zebranych

z Internetu i danych statystycznych

NET-TRENDS: CIAŁO

Big Data

Data Mining

Trendy

Crawlery

Scrapery

Net-Trends

MIOSPOT: GŁOWA

Zakupy

Alerty

Aplikacje mobilne

Celebryci

Social Network

Big Data Shopping

Czy robienie zakupów może być jeszcze

bardziej, bardziej, wiele bardziejprzyjemne?

TARGET USERSCZEGO PRAGNĄ…?

… NAPRAWDĘ CHCECIE WIEDZIEĆ?

MioSpotBridges the gap between Retailers and People. Active system that brings buyers and sellers together.

© istockphoto.com

MioSpotSocial Commerce

Bringing Celebs,Friends and Fans together.miospot.com

PRODUKTY, CELEBRYCI I ZNAJOMI

ODKRYWAJ PRODUKTY

OBSERWUJ INNYCH

- wiele bibliotek do przetwarzania danych

- czytelność kodu (readability)

- szybkość tworzenia nowych funkcjonalności

Środowisko: Python (3.3)

- Django – framework Pythona

- Gunicorn – Python WSGI HTTP Server

- nginx – HTTP (static) oraz (genialne!) proxy

- PostgreSQL (9.3) – znana i dopracowana baza

- Solr – full-text search server napisany w Javie

Środowisko: główne elementy

- Git (własny serwer z GitLab), git-flow, tagi

- Jenkins + Selenium – CI, after-commit jobs

- Fabric – szybki deploy

- Anaconda – kompletna dystrybucja Pythona

Środowisko: dodatki

RSS Feeds artykuły

zdjęcia

ŹRÓDŁA DANYCH

Net-Trends

- TOR – wirtualny routing na poziomie TCP, ukrywanie IP serwerów pobierających

- Celery –kolejki zadań – rozproszone i skalowalne

Pobieranie danych #1

- ElasticSearch - search engine, ELK stack:ElasticSearch + Logstash + Kibana

- Redis – zaawansowany key-valuecache/store, wyniki tasków

Pobieranie danych #2

- prawie 10TB danych (spakowanych!)

- bazy danych po kilkaset GB

- 1 000 000 000 rekordów w tabeli

Trochę statystyk

TAR + XZ -> 40-krotna kompresja

Big Data + Big Dev = Data

Dziękuję za uwagę.

Dzięki!