Przykłady narzędzi wspomagających analizę danych

Post on 08-Apr-2022

21 views 0 download

Transcript of Przykłady narzędzi wspomagających analizę danych

Przykłady narzędzi wspomagających analizę danych

R oraz RStudio

Środowisko programistyczne analiz statystycznych (open-source)

Dane: GUS

R oraz RStudio Tworzenie skryptu i dokumentacji HTML jednocześnie

RapidMiner Community Edition

Przetwarzanie danych i data mining

Przykład: Practical text mining

QGIS

Aplikacja do analizy informacji przestrzennej (open source)

Kartodiagram - dane: Instytut Transportu Samochodowego – Obserwatorium BRD

Znajdź najbliższe placówki medyczne w pobliżu al. Trzech Wieszczów w Krakowie

Serwer danych przestrzennych

Publikacja danych Obserwatorium Bezpieczeństwa Ruchu Drogowego

Dane: Instytut Transportu Samochodowego Projekt współfinansowany przez Unię Europejską ze środków EFRR w ramach Programu Infrastruktura i Środowisko

Serwer danych przestrzennych

Agregacja danych podczas nawigacji mapy

Dane: Instytut Transportu Samochodowego Projekt współfinansowany przez Unię Europejską ze środków EFRR w ramach Programu Infrastruktura i Środowisko

Serwer danych przestrzennych

Agregacja danych podczas nawigacji mapy

Dane: Instytut Transportu Samochodowego Projekt współfinansowany przez Unię Europejską ze środków EFRR w ramach Programu Infrastruktura i Środowisko

Analiza danych w chmurze

Amazon Web Services

Tworzenie klastra obliczeniowego

Zapis do chmury AWS S3

Analiza danych w chmurze

Amazon Web Services

Tworzenie klastra obliczeniowego

Wybór wielkości, mocy

i zasobów klastra

Analiza danych w chmurze

Amazon Web Services

Tworzenie klastra obliczeniowego

Publiczny adres DNS klastra umożliwia

połączenie SSH do systemu Linux

Analiza danych w chmurze

Amazon Web Services – HIVE (sql-like)

Plik płaski 2 GB, klaster small – 10 węzłów obliczeniowych

czas przetworzenia: ~9 minut

Plik płaski 0,5TB, klaster small – 20 węzłów obliczeniowych

czas przetworzenia: ~4 godziny

Funkcje agregacyjne (SUM, AVG, MIN,

MAX, COUNT) i analityczne (OVER

PARTITION BY, RANK, CUM_DIST, …)

CREATE EXTERNAL TABLE dane (nazwa_stacji_pomiarowej string, pomiar int, data_pomiaru)

ROW FORMAT DELIMITED FIELDS TERMINATED BY ';'

LINES TERMINATED BY '\n'

LOCATION 's3n://mys3.aws.amazon.com/dane_testowe';

SELECT nazwa_stacji_pomiarowej, AVG(pomiar), count(*) liczba_pomiarow

FROM dane

WHERE data_pomiaru='2011-06-01'

GROUP BY nazwa_stacji_pomiarowej;

Rozwiązania komercyjne typu „appliance”

IBM Pure Data for Analytics (dawniej Netezza)

Oracle Exadata Database Machine

Cechy:

• Dedykowane urządzenie

• Rozwiązanie kompletne (hardware + software)

• Szybka instalacja

• Łatwe zarządzanie

Appliance IBM Netezza

Narzędzia open source – przykłady

Analiza danych i przetwarzanie numeryczne

Serwery danych przestrzennych

www.r-project.orgwww.rstudio.comwww.knime.orgwww.cs.waikato.ac.nz/ml/wekaorange.biolab.sirapidminer.com

www.predictiveanalyticstoday.com/top-15-free-data-mining-software

GNU Octave

Dziękuję za uwagę

arkadiusz.zagrodnik@comarch.pl

Comarch ♦ al. Jana Pawła II 39a ♦ 31-864 Kraków ♦ Phone +48 (12) 64 61 000 ♦ E-Mail: info@comarch.pl ♦ www.comarch.com