Michał Korzycki
Data Scientist - zawód przyszłościThe Sexiest Job of the 21st Century
Michał Korzycki Katedra Informatyki AGH
Data MiningWspółczesna Alchemia
Michał Korzycki Katedra Informatyki AGH
Data MiningWspółczesna Alchemia
Data scientist (pl. Mistrz Danych) – termin określający zawód osoby zajmującej się analizą danych nieuporządkowanych, w szczególności big data.
“Data Scientist: The Sexiest Job of the 21st Century”Harvard Business Review
Data Scientist
Skąd się biorą dane ? Co to jest data science ? Kto się tym zajmuje ? Kim jest Data Scientist ? Jakie narzędzia, technologie są ważne dla data science ? To czego muszę się jeszcze douczyć ? Jakie są perspektywy z taką specjalizacją ? Skąd czerpać wiedzę i inspirację ?
Data Scientist
Skąd się biorą dane ? Co to jest data science ? Kto się tym zajmuje ? Kim jest Data Scientist ? Jakie narzędzia, technologie są ważne dla data science ? To czego muszę się jeszcze douczyć ? Jakie są perspektywy z taką specjalizacją ? Skąd czerpać wiedzę i inspirację ?
Data Scientist
“There were 5 Exabytes of information created between the dawn of civilization through 2003, but that much information is nocreated every 2 days.”
Google’s CEO, Eric Schmidt, 2010 Google Atmosphere Convention
Data ...
1000 Bajtów = 1 Kilobajt 1000 Kilobajtów = 1 Megabajt 1000 Megabajtów = 1 Gigabajt 1000 Gigabajtów = 1 Terabajt 1000 Terabajtów = 1 Petabajt 1000 Petabajtów = 1 Eksabajt 1000 Exabajtów = 1 Zettabajt
“Digital Universe”: ilość danych stworzonych w 2010r. to 1.2 Zettabajtów
~ ok. 6.8 Eksabajtów na 2 dni
Data ...
Mądrość tłumów (Wisdom of the Crowds) Rekomendacje produktowe Analiza ryzyka Badania epidemiologiczne Bioinformatyka Dostosowywanie informacji w czasie rzeczywistym Dostosowanie leczenia do pacjenta Inteligentne miasta ... i wiele, wiele innych
Data ...
Skąd się biorą dane ? Co to jest data science ? Kto się tym zajmuje ? Kim jest Data Scientist ? Jakie narzędzia, technologie są ważne dla data science ? To czego muszę się jeszcze douczyć ? Jakie są perspektywy z taką specjalizacją ? Skąd czerpać wiedzę i inspirację ?
Data Scientist
Drew Conway Venn Diagram
http://tylervigen.com/view_correlation?id=1703
Margaryna w Data Science ...
Skąd się biorą dane ? Co to jest data science ? Kto się tym zajmuje ? Kim jest Data Scientist ? Jakie narzędzia, technologie są ważne dla data science ? To czego muszę się jeszcze douczyć ? Jakie są perspektywy z taką specjalizacją ? Skąd czerpać wiedzę i inspirację ?
Data Scientist
Specjalizacja
Researcher: 54.3% Computer Scientist: 52.3% BI Analyst: 36% Mathematician: 19% Educator: 18.3% Entrepreneur: 12.4%
http://info.crowdflower.com/2015-data-scientist-report
Data Scientist
Staż i doświadczenie
<1yr: 11% 1-2yrs: 13% 2-5yrs: 34% 5-10yrs: 26% 10+ yrs: 16%
http://info.crowdflower.com/2015-data-scientist-report
Data Scientist
Obowiązki
Predictive Analysis: 53.6% Mining Data for Patterns: 52.3% Interacting with Data: 49.7%
http://info.crowdflower.com/2015-data-scientist-report
Data Scientist
Top 3 tools
Excel: 55.6% R: 43.1% Tableau: 26.1%
http://info.crowdflower.com/2015-data-scientist-report
Data Scientist
#1 challenge Cleaning and Organizing Data: 66.7% Poor quality data: 52.3%
#2 Challenge Not enough data scientists: 80% Insufficient time: 40% Limited tools: 30% Limited ability: 30%
http://info.crowdflower.com/2015-data-scientist-report
Data Scientist
Skąd się biorą dane ? Co to jest data science ? Kto się tym zajmuje ? Kim jest Data Scientist ? Jakie narzędzia, technologie są ważne dla data science ? To czego muszę się jeszcze douczyć ? Jakie są perspektywy z taką specjalizacją ? Skąd czerpać wiedzę i inspirację ?
Data Scientist
Fundamentals Statistics Programming Machine Learning Text Mining / Natural Language Processing Data Visualization Big Data Data Ingestion Data Munging Toolbox
Swami Chandrasekaran
Data Scientist
Fundamentals Statistics Programming Machine Learning Text Mining / Natural Language Processing Data Visualization Big Data Data Ingestion Data Munging Toolbox
Swami Chandrasekaran
Data Scientist
Fundamentals Statistics Programming Machine Learning Text Mining / Natural Language Processing Data Visualization Big Data Data Ingestion Data Munging Toolbox
Swami Chandrasekaran
Data Scientist
Fundamentals Statistics Programming Machine Learning Text Mining / Natural Language Processing Data Visualization Big Data Data Ingestion Data Munging Toolbox
Swami Chandrasekaran
Data Scientist
Fundamentals Statistics Programming Machine Learning Text Mining / Natural Language Processing Data Visualization Big Data Data Ingestion Data Munging Toolbox
Swami Chandrasekaran
Data Scientist
Fundamentals Statistics Programming Machine Learning Text Mining / Natural Language Processing Data Visualization Big Data Data Ingestion Data Munging Toolbox
Swami Chandrasekaran
Data Scientist
Fundamentals Statistics Programming Machine Learning Text Mining / Natural Language Processing Data Visualization Big Data Data Ingestion Data Munging Toolbox
Swami Chandrasekaran
Data Scientist
Fundamentals Statistics Programming Machine Learning Text Mining / Natural Language Processing Data Visualization Big Data Data Ingestion Data Munging Toolbox
Swami Chandrasekaran
Data Scientist
Fundamentals Statistics Programming Machine Learning Text Mining / Natural Language Processing Data Visualization Big Data Data Ingestion Data Munging Toolbox
Swami Chandrasekaran
Data Scientist
Fundamentals Statistics Programming Machine Learning Text Mining / Natural Language Processing Data Visualization Big Data Data Ingestion Data Munging Toolbox
Swami Chandrasekaran
Data Scientist
Fundamentals Statistics Programming Machine Learning Text Mining / Natural Language Processing Data Visualization Big Data Data Ingestion Data Munging Toolbox
Swami Chandrasekaran
Data Scientist
Skąd się biorą dane ? Co to jest data science ? Kto się tym zajmuje ? Kim jest Data Scientist ? Jakie narzędzia, technologie są ważne dla data science ? To czego muszę się jeszcze douczyć ? Jakie są perspektywy z taką specjalizacją ? Skąd czerpać wiedzę i inspirację ?
Data Scientist
Data Science jobs pay an average of $118,000 per year
It is estimated that by 2018, US could have a shortage of 140,000+ people with advanced analytical skills & need 1.5M managers/analysts that can make decisions based on data analysis
The Global Information Technology Report 2012
Data Scientist
Lean Startup
Skąd się biorą dane ? Co to jest data science ? Kto się tym zajmuje ? Kim jest Data Scientist ? Jakie narzędzia, technologie są ważne dla data science ? To czego muszę się jeszcze douczyć ? Jakie są perspektywy z taką specjalizacją ? Skąd czerpać wiedzę i inspirację ?
Data Scientist
Python Fundamentals – Codecademy Machine Learning – Coursera / Stanford Data Analyst Nanodegree – Udacity http://www.kdnuggets.com/ https://www.kaggle.com/
Bądź “DataKind” - pomagaj innym z danymi Korzystaj z publicznie dostępnych baz z danymi Bierz udział w zawodach (Patrz: Kaggle)
Źródła wiedzy i inspiracji
Książki
Dziękuję !!!