Zastosowanie narzędzi wspomagania informatycznego kontroli ...
Przykłady narzędzi wspomagających analizę danych
Transcript of Przykłady narzędzi wspomagających analizę danych
Przykłady narzędzi wspomagających analizę danych
R oraz RStudio
Środowisko programistyczne analiz statystycznych (open-source)
Dane: GUS
R oraz RStudio Tworzenie skryptu i dokumentacji HTML jednocześnie
RapidMiner Community Edition
Przetwarzanie danych i data mining
Przykład: Practical text mining
QGIS
Aplikacja do analizy informacji przestrzennej (open source)
Kartodiagram - dane: Instytut Transportu Samochodowego – Obserwatorium BRD
Znajdź najbliższe placówki medyczne w pobliżu al. Trzech Wieszczów w Krakowie
Serwer danych przestrzennych
Publikacja danych Obserwatorium Bezpieczeństwa Ruchu Drogowego
Dane: Instytut Transportu Samochodowego Projekt współfinansowany przez Unię Europejską ze środków EFRR w ramach Programu Infrastruktura i Środowisko
Serwer danych przestrzennych
Agregacja danych podczas nawigacji mapy
Dane: Instytut Transportu Samochodowego Projekt współfinansowany przez Unię Europejską ze środków EFRR w ramach Programu Infrastruktura i Środowisko
Serwer danych przestrzennych
Agregacja danych podczas nawigacji mapy
Dane: Instytut Transportu Samochodowego Projekt współfinansowany przez Unię Europejską ze środków EFRR w ramach Programu Infrastruktura i Środowisko
Analiza danych w chmurze
Amazon Web Services
Tworzenie klastra obliczeniowego
Zapis do chmury AWS S3
Analiza danych w chmurze
Amazon Web Services
Tworzenie klastra obliczeniowego
Wybór wielkości, mocy
i zasobów klastra
Analiza danych w chmurze
Amazon Web Services
Tworzenie klastra obliczeniowego
Publiczny adres DNS klastra umożliwia
połączenie SSH do systemu Linux
Analiza danych w chmurze
Amazon Web Services – HIVE (sql-like)
Plik płaski 2 GB, klaster small – 10 węzłów obliczeniowych
czas przetworzenia: ~9 minut
Plik płaski 0,5TB, klaster small – 20 węzłów obliczeniowych
czas przetworzenia: ~4 godziny
Funkcje agregacyjne (SUM, AVG, MIN,
MAX, COUNT) i analityczne (OVER
PARTITION BY, RANK, CUM_DIST, …)
CREATE EXTERNAL TABLE dane (nazwa_stacji_pomiarowej string, pomiar int, data_pomiaru)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ';'
LINES TERMINATED BY '\n'
LOCATION 's3n://mys3.aws.amazon.com/dane_testowe';
SELECT nazwa_stacji_pomiarowej, AVG(pomiar), count(*) liczba_pomiarow
FROM dane
WHERE data_pomiaru='2011-06-01'
GROUP BY nazwa_stacji_pomiarowej;
Rozwiązania komercyjne typu „appliance”
IBM Pure Data for Analytics (dawniej Netezza)
Oracle Exadata Database Machine
Cechy:
• Dedykowane urządzenie
• Rozwiązanie kompletne (hardware + software)
• Szybka instalacja
• Łatwe zarządzanie
Appliance IBM Netezza
Narzędzia open source – przykłady
Analiza danych i przetwarzanie numeryczne
Serwery danych przestrzennych
www.r-project.orgwww.rstudio.comwww.knime.orgwww.cs.waikato.ac.nz/ml/wekaorange.biolab.sirapidminer.com
www.predictiveanalyticstoday.com/top-15-free-data-mining-software
GNU Octave
Dziękuję za uwagę
Comarch ♦ al. Jana Pawła II 39a ♦ 31-864 Kraków ♦ Phone +48 (12) 64 61 000 ♦ E-Mail: [email protected] ♦ www.comarch.com