Michał Korzycki @ SFI

37
Michał Korzycki Data Scientist - zawód przyszłości The Sexiest Job of the 21st Century

Transcript of Michał Korzycki @ SFI

Page 1: Michał Korzycki @ SFI

Michał Korzycki

Data Scientist - zawód przyszłościThe Sexiest Job of the 21st Century

Page 2: Michał Korzycki @ SFI

Michał Korzycki Katedra Informatyki AGH

Data MiningWspółczesna Alchemia

Page 3: Michał Korzycki @ SFI

Michał Korzycki Katedra Informatyki AGH

Data MiningWspółczesna Alchemia

Page 4: Michał Korzycki @ SFI

Data scientist (pl. Mistrz Danych) – termin określający zawód osoby zajmującej się analizą danych nieuporządkowanych, w szczególności big data.

“Data Scientist: The Sexiest Job of the 21st Century”Harvard Business Review

Data Scientist

Page 5: Michał Korzycki @ SFI

Skąd się biorą dane ? Co to jest data science ? Kto się tym zajmuje ? Kim jest Data Scientist ? Jakie narzędzia, technologie są ważne dla data science ? To czego muszę się jeszcze douczyć ? Jakie są perspektywy z taką specjalizacją ? Skąd czerpać wiedzę i inspirację ?

Data Scientist

Page 6: Michał Korzycki @ SFI

Skąd się biorą dane ? Co to jest data science ? Kto się tym zajmuje ? Kim jest Data Scientist ? Jakie narzędzia, technologie są ważne dla data science ? To czego muszę się jeszcze douczyć ? Jakie są perspektywy z taką specjalizacją ? Skąd czerpać wiedzę i inspirację ?

Data Scientist

Page 7: Michał Korzycki @ SFI

“There were 5 Exabytes of information created between the dawn of civilization through 2003, but that much information is nocreated every 2 days.”

Google’s CEO, Eric Schmidt, 2010 Google Atmosphere Convention

Data ...

Page 8: Michał Korzycki @ SFI

1000 Bajtów = 1 Kilobajt 1000 Kilobajtów = 1 Megabajt 1000 Megabajtów = 1 Gigabajt 1000 Gigabajtów = 1 Terabajt 1000 Terabajtów = 1 Petabajt 1000 Petabajtów = 1 Eksabajt 1000 Exabajtów = 1 Zettabajt

“Digital Universe”: ilość danych stworzonych w 2010r. to 1.2 Zettabajtów

~ ok. 6.8 Eksabajtów na 2 dni

Data ...

Page 9: Michał Korzycki @ SFI

Mądrość tłumów (Wisdom of the Crowds) Rekomendacje produktowe Analiza ryzyka Badania epidemiologiczne Bioinformatyka Dostosowywanie informacji w czasie rzeczywistym Dostosowanie leczenia do pacjenta Inteligentne miasta ... i wiele, wiele innych

Data ...

Page 10: Michał Korzycki @ SFI

Skąd się biorą dane ? Co to jest data science ? Kto się tym zajmuje ? Kim jest Data Scientist ? Jakie narzędzia, technologie są ważne dla data science ? To czego muszę się jeszcze douczyć ? Jakie są perspektywy z taką specjalizacją ? Skąd czerpać wiedzę i inspirację ?

Data Scientist

Page 11: Michał Korzycki @ SFI

Drew Conway Venn Diagram

Page 12: Michał Korzycki @ SFI

http://tylervigen.com/view_correlation?id=1703

Margaryna w Data Science ...

Page 13: Michał Korzycki @ SFI

Skąd się biorą dane ? Co to jest data science ? Kto się tym zajmuje ? Kim jest Data Scientist ? Jakie narzędzia, technologie są ważne dla data science ? To czego muszę się jeszcze douczyć ? Jakie są perspektywy z taką specjalizacją ? Skąd czerpać wiedzę i inspirację ?

Data Scientist

Page 14: Michał Korzycki @ SFI

Specjalizacja

Researcher: 54.3% Computer Scientist: 52.3% BI Analyst: 36% Mathematician: 19% Educator: 18.3% Entrepreneur: 12.4%

http://info.crowdflower.com/2015-data-scientist-report

Data Scientist

Page 15: Michał Korzycki @ SFI

Staż i doświadczenie

<1yr: 11% 1-2yrs: 13% 2-5yrs: 34% 5-10yrs: 26% 10+ yrs: 16%

http://info.crowdflower.com/2015-data-scientist-report

Data Scientist

Page 16: Michał Korzycki @ SFI

Obowiązki

Predictive Analysis: 53.6% Mining Data for Patterns: 52.3% Interacting with Data: 49.7%

http://info.crowdflower.com/2015-data-scientist-report

Data Scientist

Page 17: Michał Korzycki @ SFI

Top 3 tools

Excel: 55.6% R: 43.1% Tableau: 26.1%

http://info.crowdflower.com/2015-data-scientist-report

Data Scientist

Page 18: Michał Korzycki @ SFI

#1 challenge Cleaning and Organizing Data: 66.7% Poor quality data: 52.3%

#2 Challenge Not enough data scientists: 80% Insufficient time: 40% Limited tools: 30% Limited ability: 30%

http://info.crowdflower.com/2015-data-scientist-report

Data Scientist

Page 19: Michał Korzycki @ SFI

Skąd się biorą dane ? Co to jest data science ? Kto się tym zajmuje ? Kim jest Data Scientist ? Jakie narzędzia, technologie są ważne dla data science ? To czego muszę się jeszcze douczyć ? Jakie są perspektywy z taką specjalizacją ? Skąd czerpać wiedzę i inspirację ?

Data Scientist

Page 20: Michał Korzycki @ SFI

Fundamentals Statistics Programming Machine Learning Text Mining / Natural Language Processing Data Visualization Big Data Data Ingestion Data Munging Toolbox

Swami Chandrasekaran

Data Scientist

Page 21: Michał Korzycki @ SFI

Fundamentals Statistics Programming Machine Learning Text Mining / Natural Language Processing Data Visualization Big Data Data Ingestion Data Munging Toolbox

Swami Chandrasekaran

Data Scientist

Page 22: Michał Korzycki @ SFI

Fundamentals Statistics Programming Machine Learning Text Mining / Natural Language Processing Data Visualization Big Data Data Ingestion Data Munging Toolbox

Swami Chandrasekaran

Data Scientist

Page 23: Michał Korzycki @ SFI

Fundamentals Statistics Programming Machine Learning Text Mining / Natural Language Processing Data Visualization Big Data Data Ingestion Data Munging Toolbox

Swami Chandrasekaran

Data Scientist

Page 24: Michał Korzycki @ SFI

Fundamentals Statistics Programming Machine Learning Text Mining / Natural Language Processing Data Visualization Big Data Data Ingestion Data Munging Toolbox

Swami Chandrasekaran

Data Scientist

Page 25: Michał Korzycki @ SFI

Fundamentals Statistics Programming Machine Learning Text Mining / Natural Language Processing Data Visualization Big Data Data Ingestion Data Munging Toolbox

Swami Chandrasekaran

Data Scientist

Page 26: Michał Korzycki @ SFI

Fundamentals Statistics Programming Machine Learning Text Mining / Natural Language Processing Data Visualization Big Data Data Ingestion Data Munging Toolbox

Swami Chandrasekaran

Data Scientist

Page 27: Michał Korzycki @ SFI

Fundamentals Statistics Programming Machine Learning Text Mining / Natural Language Processing Data Visualization Big Data Data Ingestion Data Munging Toolbox

Swami Chandrasekaran

Data Scientist

Page 28: Michał Korzycki @ SFI

Fundamentals Statistics Programming Machine Learning Text Mining / Natural Language Processing Data Visualization Big Data Data Ingestion Data Munging Toolbox

Swami Chandrasekaran

Data Scientist

Page 29: Michał Korzycki @ SFI

Fundamentals Statistics Programming Machine Learning Text Mining / Natural Language Processing Data Visualization Big Data Data Ingestion Data Munging Toolbox

Swami Chandrasekaran

Data Scientist

Page 30: Michał Korzycki @ SFI

Fundamentals Statistics Programming Machine Learning Text Mining / Natural Language Processing Data Visualization Big Data Data Ingestion Data Munging Toolbox

Swami Chandrasekaran

Data Scientist

Page 31: Michał Korzycki @ SFI

Skąd się biorą dane ? Co to jest data science ? Kto się tym zajmuje ? Kim jest Data Scientist ? Jakie narzędzia, technologie są ważne dla data science ? To czego muszę się jeszcze douczyć ? Jakie są perspektywy z taką specjalizacją ? Skąd czerpać wiedzę i inspirację ?

Data Scientist

Page 32: Michał Korzycki @ SFI

Data Science jobs pay an average of $118,000 per year

It is estimated that by 2018, US could have a shortage of 140,000+ people with advanced analytical skills & need 1.5M managers/analysts that can make decisions based on data analysis

The Global Information Technology Report 2012

Data Scientist

Page 33: Michał Korzycki @ SFI

Lean Startup

Page 34: Michał Korzycki @ SFI

Skąd się biorą dane ? Co to jest data science ? Kto się tym zajmuje ? Kim jest Data Scientist ? Jakie narzędzia, technologie są ważne dla data science ? To czego muszę się jeszcze douczyć ? Jakie są perspektywy z taką specjalizacją ? Skąd czerpać wiedzę i inspirację ?

Data Scientist

Page 35: Michał Korzycki @ SFI

Python Fundamentals – Codecademy Machine Learning – Coursera / Stanford Data Analyst Nanodegree – Udacity http://www.kdnuggets.com/ https://www.kaggle.com/

Bądź “DataKind” - pomagaj innym z danymi Korzystaj z publicznie dostępnych baz z danymi Bierz udział w zawodach (Patrz: Kaggle)

Źródła wiedzy i inspiracji

Page 36: Michał Korzycki @ SFI

Książki

Page 37: Michał Korzycki @ SFI

Dziękuję !!!