Michał Korzycki @ SFI

Post on 06-Apr-2017

713 views 3 download

Transcript of Michał Korzycki @ SFI

Michał Korzycki

Data Scientist - zawód przyszłościThe Sexiest Job of the 21st Century

Michał Korzycki Katedra Informatyki AGH

Data MiningWspółczesna Alchemia

Michał Korzycki Katedra Informatyki AGH

Data MiningWspółczesna Alchemia

Data scientist (pl. Mistrz Danych) – termin określający zawód osoby zajmującej się analizą danych nieuporządkowanych, w szczególności big data.

“Data Scientist: The Sexiest Job of the 21st Century”Harvard Business Review

Data Scientist

Skąd się biorą dane ? Co to jest data science ? Kto się tym zajmuje ? Kim jest Data Scientist ? Jakie narzędzia, technologie są ważne dla data science ? To czego muszę się jeszcze douczyć ? Jakie są perspektywy z taką specjalizacją ? Skąd czerpać wiedzę i inspirację ?

Data Scientist

Skąd się biorą dane ? Co to jest data science ? Kto się tym zajmuje ? Kim jest Data Scientist ? Jakie narzędzia, technologie są ważne dla data science ? To czego muszę się jeszcze douczyć ? Jakie są perspektywy z taką specjalizacją ? Skąd czerpać wiedzę i inspirację ?

Data Scientist

“There were 5 Exabytes of information created between the dawn of civilization through 2003, but that much information is nocreated every 2 days.”

Google’s CEO, Eric Schmidt, 2010 Google Atmosphere Convention

Data ...

1000 Bajtów = 1 Kilobajt 1000 Kilobajtów = 1 Megabajt 1000 Megabajtów = 1 Gigabajt 1000 Gigabajtów = 1 Terabajt 1000 Terabajtów = 1 Petabajt 1000 Petabajtów = 1 Eksabajt 1000 Exabajtów = 1 Zettabajt

“Digital Universe”: ilość danych stworzonych w 2010r. to 1.2 Zettabajtów

~ ok. 6.8 Eksabajtów na 2 dni

Data ...

Mądrość tłumów (Wisdom of the Crowds) Rekomendacje produktowe Analiza ryzyka Badania epidemiologiczne Bioinformatyka Dostosowywanie informacji w czasie rzeczywistym Dostosowanie leczenia do pacjenta Inteligentne miasta ... i wiele, wiele innych

Data ...

Skąd się biorą dane ? Co to jest data science ? Kto się tym zajmuje ? Kim jest Data Scientist ? Jakie narzędzia, technologie są ważne dla data science ? To czego muszę się jeszcze douczyć ? Jakie są perspektywy z taką specjalizacją ? Skąd czerpać wiedzę i inspirację ?

Data Scientist

Drew Conway Venn Diagram

http://tylervigen.com/view_correlation?id=1703

Margaryna w Data Science ...

Skąd się biorą dane ? Co to jest data science ? Kto się tym zajmuje ? Kim jest Data Scientist ? Jakie narzędzia, technologie są ważne dla data science ? To czego muszę się jeszcze douczyć ? Jakie są perspektywy z taką specjalizacją ? Skąd czerpać wiedzę i inspirację ?

Data Scientist

Specjalizacja

Researcher: 54.3% Computer Scientist: 52.3% BI Analyst: 36% Mathematician: 19% Educator: 18.3% Entrepreneur: 12.4%

http://info.crowdflower.com/2015-data-scientist-report

Data Scientist

Staż i doświadczenie

<1yr: 11% 1-2yrs: 13% 2-5yrs: 34% 5-10yrs: 26% 10+ yrs: 16%

http://info.crowdflower.com/2015-data-scientist-report

Data Scientist

Obowiązki

Predictive Analysis: 53.6% Mining Data for Patterns: 52.3% Interacting with Data: 49.7%

http://info.crowdflower.com/2015-data-scientist-report

Data Scientist

Top 3 tools

Excel: 55.6% R: 43.1% Tableau: 26.1%

http://info.crowdflower.com/2015-data-scientist-report

Data Scientist

#1 challenge Cleaning and Organizing Data: 66.7% Poor quality data: 52.3%

#2 Challenge Not enough data scientists: 80% Insufficient time: 40% Limited tools: 30% Limited ability: 30%

http://info.crowdflower.com/2015-data-scientist-report

Data Scientist

Skąd się biorą dane ? Co to jest data science ? Kto się tym zajmuje ? Kim jest Data Scientist ? Jakie narzędzia, technologie są ważne dla data science ? To czego muszę się jeszcze douczyć ? Jakie są perspektywy z taką specjalizacją ? Skąd czerpać wiedzę i inspirację ?

Data Scientist

Fundamentals Statistics Programming Machine Learning Text Mining / Natural Language Processing Data Visualization Big Data Data Ingestion Data Munging Toolbox

Swami Chandrasekaran

Data Scientist

Fundamentals Statistics Programming Machine Learning Text Mining / Natural Language Processing Data Visualization Big Data Data Ingestion Data Munging Toolbox

Swami Chandrasekaran

Data Scientist

Fundamentals Statistics Programming Machine Learning Text Mining / Natural Language Processing Data Visualization Big Data Data Ingestion Data Munging Toolbox

Swami Chandrasekaran

Data Scientist

Fundamentals Statistics Programming Machine Learning Text Mining / Natural Language Processing Data Visualization Big Data Data Ingestion Data Munging Toolbox

Swami Chandrasekaran

Data Scientist

Fundamentals Statistics Programming Machine Learning Text Mining / Natural Language Processing Data Visualization Big Data Data Ingestion Data Munging Toolbox

Swami Chandrasekaran

Data Scientist

Fundamentals Statistics Programming Machine Learning Text Mining / Natural Language Processing Data Visualization Big Data Data Ingestion Data Munging Toolbox

Swami Chandrasekaran

Data Scientist

Fundamentals Statistics Programming Machine Learning Text Mining / Natural Language Processing Data Visualization Big Data Data Ingestion Data Munging Toolbox

Swami Chandrasekaran

Data Scientist

Fundamentals Statistics Programming Machine Learning Text Mining / Natural Language Processing Data Visualization Big Data Data Ingestion Data Munging Toolbox

Swami Chandrasekaran

Data Scientist

Fundamentals Statistics Programming Machine Learning Text Mining / Natural Language Processing Data Visualization Big Data Data Ingestion Data Munging Toolbox

Swami Chandrasekaran

Data Scientist

Fundamentals Statistics Programming Machine Learning Text Mining / Natural Language Processing Data Visualization Big Data Data Ingestion Data Munging Toolbox

Swami Chandrasekaran

Data Scientist

Fundamentals Statistics Programming Machine Learning Text Mining / Natural Language Processing Data Visualization Big Data Data Ingestion Data Munging Toolbox

Swami Chandrasekaran

Data Scientist

Skąd się biorą dane ? Co to jest data science ? Kto się tym zajmuje ? Kim jest Data Scientist ? Jakie narzędzia, technologie są ważne dla data science ? To czego muszę się jeszcze douczyć ? Jakie są perspektywy z taką specjalizacją ? Skąd czerpać wiedzę i inspirację ?

Data Scientist

Data Science jobs pay an average of $118,000 per year

It is estimated that by 2018, US could have a shortage of 140,000+ people with advanced analytical skills & need 1.5M managers/analysts that can make decisions based on data analysis

The Global Information Technology Report 2012

Data Scientist

Lean Startup

Skąd się biorą dane ? Co to jest data science ? Kto się tym zajmuje ? Kim jest Data Scientist ? Jakie narzędzia, technologie są ważne dla data science ? To czego muszę się jeszcze douczyć ? Jakie są perspektywy z taką specjalizacją ? Skąd czerpać wiedzę i inspirację ?

Data Scientist

Python Fundamentals – Codecademy Machine Learning – Coursera / Stanford Data Analyst Nanodegree – Udacity http://www.kdnuggets.com/ https://www.kaggle.com/

Bądź “DataKind” - pomagaj innym z danymi Korzystaj z publicznie dostępnych baz z danymi Bierz udział w zawodach (Patrz: Kaggle)

Źródła wiedzy i inspiracji

Książki

Dziękuję !!!