Big Data - historia i przyszłość
-
Upload
women-in-technology -
Category
Technology
-
view
211 -
download
2
Transcript of Big Data - historia i przyszłość
Big dataHistoria i przyszłość
Women in TechnologyKraków, 23 maja 2017
Michał Witkowski
Wprowadzenie
Big data (ang. Wielkie dane) Słabo zdefiniowany termin. W przybliżeniu: dane, których nie przechowasz inie przetworzysz nastandardowym komputerzestacjonarnym do ogólnychzastosowań.
Zdjęcie: Wikipedia.
Zmiany metod zapisu danych
• Kasety magnetofonowe• Dyski twarde• Dyskietki: ~ 1.5 MB• Płyty CD: ~750 MB• Płyty DVD: ~8.5 GB• Dyski SSD: > 1 TB
Pierwszy dysk twardy na PC (1956): 5 MB (RAMAC od IBM, ponad 1 tona)Dysk twardy na PC (2017): 1-2 TB
Źródło: computerhistory.org
Ludzie lądują na księżycuKomputer pokładowy w Apollo (1969):• 4 kB RAM• 74 kB HDD• 4.077MHz CPUiPhone 7:• 2 GB RAM• ~128 GB HDD• ~2.3 GHz CPUZdjęcie: Margaret Hamilton (lead software engineer dla Apollo), Źródło: NASA
Narodziny wielkich danych: Powstajeinternet• 1962: ARPANET• 1969: Pierwsza 4-komputerowa sieć
powstaje na Uniwersytecie Kalifornii(symboliczny początek internetu)• 1984-88: CERN używa protokołów
TCP/IP w swoich sieciach• 1989: powstaje World Wide Web.
Początek rewolucji cyfrowej• Dziś: ok. 3.2mld użytkowników,
około 1 zetabajtów (10^21, czyli 1 miliard TB) rocznie przesyłanychdanychŹródło: Wikipedia.org
Źródła danych: Email i komunikatory
• 1971 - pierwszy email w ARPANET (treść nieznana)• Dziś: ~2.5 mln maili wysyłanych co sekundę• Komunikatory internetowe• 1973 - Talkomatic• Lata ‘90: IRC• 2017: 1,2mld miesięcznych użytkowników Whatsapp, 300mln
miesięcznych użtykowników Skype
• Internet jest współcześnie domyślną platformą do komunikacjimiędzyludzkiej.
Uczenie maszynowe: Rozpoznawanieobrazów
• Algorytmy do rozpoznawania obiektów itwarzy
• 1870 – pierwszy skaner optyczny• 1962 – Optacon, pierwszy przenośny
czytnik druku dla niewidomych• 1989 – pierwsze próby komputerowego
rozpoznawania twarzy (np. Kohonen)• Dziś: np. Baidu, biometryka twarzy
używana jako przepustka do siedzibyfirmy.
• FB: 97.3% dokładności w rozpoznawaniutwarzy przez FB
• Wikipedia: 35 algorytmów do rozpoznawania wzorców na zdjęciach
Źródło: privacysurgeon.org
Uczenie maszynowe: Przetwarzanie językapisanego
• Wyszukiwarki internetowe(analiza treści i struktury strony):• 1990 – Archie• 1994 – Yahoo!• 1995 - AltaVista• 1998 – Google• 2009 – Bing
• Wyrażenia regularne• Wyzwania: Rozbiór gramatyczny
mowy, wieloznaczności, metafory• Chatboty
Uczenie maszynowe: Przetwarzanie mowy
• Problemy z rozumieniem mowy ludzkiej (patrz: nauka językaobcego)• Sygnał mowy nie ma interpunkcji i ortografii• Szumy z otoczenia• Dźwięki mowy brzmią i trwają różnie w różnych zlepkach• Różnice w wysokości głosu i sposobie wymowy głosek• Różne granice między dźwiękami w różnych językach• (…)• Np. Siri
Źródła danych: Udostępnianie zdjęć
• 1992: Les Horrible Cernettes, pierwsze zdjęcieudostępnione w sieci• 2002: Picasa• 2008: 9gag <3• 2010: Instagram• Zdjęcie kiedyś i dziś
Źródło: Wikipedia
Dostęp do danych: Pierwsza przeglądarkainternetowa
• 1993: Powstaje pierwszaprzeglądarka internetowa(Mosaic)• Internet trafia do
szerokiego użytku, postępuje coraz szybszawymiana danych
Zdjęcie: yahoo.com na Mosaic; donmouth.co.uk
Źródła danych: Przesyłanie wideo w internecie
• 1994 – Smart TV• 1997 – powstaje Netflix• Video-on-demand• 2005 - YouTube• Rozrywka przenosi się do
internetu• 2017 (honorowa wzmianka):
Netflix zapowiada produkcjęserialu Wiedźmin.Źródło: Netflix.com
Uczenie maszynowe: Deep Blue wygrywa z Kasparovem
• 1997, symboliczny moment: komputerpokonuje człowieka w dziedzinie, która dotąd była zarezerwowana dlaludzi.• Dziś: FIDE > 3300• FIDE Magnusa Carlsena: ~2800• Oznacza to, że średnio na 100 partii z
najlepszym algorytmem Carlsenprzegra 95 razy
Google:• 1998 – powstaje Google• 2003 – Google zaczyna
sprzedawać AdWords• 2005 – Google Maps• 2007 – oficjalny release Gmaila• 2008 – oficjalny release Androida• Dziś: ~3.5mld wyszukań dziennie
(78% rynku), czyli ~1.2mln w trakcie tego slajdu
Źródło: www.famouslogos.net
Facebook:• 2004 – powstaje Facebook• 2007 – Facebook wypuszcza
wersję mobilną• 2009 – powstaje przycisk ’like’• 2014 – w ciągu minuty: 3,2mln
postów, 150tys. wiadomości, 243tys. zdjęć• 2017 – Facebook ma ponad
1mld MAUŹródło: Facebook.com
Dostęp do danych: Przechowywaniedanych i obliczenia w chmurze
• 1999 – Salesforce, SaaS• 2006 – Amazon Web Services, PaaS• Przeniesienie danych poza urządzenia• Potężne zbiory danych, moc obliczeniowa i przechowywanie
danych jako zasób ekonomiczny
Smartfony
• 2007 - iPhone• Internet wszędzie i zawsze• Nowe urządzenie osobiste,
równie oczywiste co portfel• 2015: 1,86mld użytkowników
smartfonów• 2020 (prognoza): ~2,8mld
użytkowników
Źródło: apple.com
Uczenie maszynowePieniądze i algorytmy do gry na giełdzie
• Masz konto w banku? Twojepieniądze są zbioremzapisów w bazie danych.• Dane z transakcji• Algorithmic trading• 2010 - flash crash. W ciągu
30 minut z rynku zniknęło i wróciło ~1bln USD.
Źródło: cnn.com
Data scientist
• Analityk: Człowiek któregojedynym zadaniem jest praca z danymi, przetwarzanie ich, rozumienie i przekazywanietego rozumienia dalej• 2008 - Data scientist• Sexiest job of the 21st century?
Źródło: drewconway.com
Wirtualna i rozszerzona rzeczywistość
• 1957 – Sensorama• 1982 – powstaje termin
Wirtualna Rzeczywistość• 2012 – Oculus na
kickstarterze• 2013 – Google Glass• 2015 – Windows HoloLens• 2016 – Pokemon Go
Źródła danych: Internet of things
• Wszystko co może byćpołączone do sieci.• Domy, lodówki, cement w
mostach, sygnalizacje świetlne, respiratory, czujniki dymu, …• Generuje dane, dużo danych.• 2015: 15mld przedmiotów
podłączonych do sieci(komputery, smartfony, ale teżinne)• 2020 (prognoza): 30mld
przedmiotówŹródło: miquelsubirats.com
Uczenie maszynowe: Alpha Go wygrywa z Lee Sedol
• Ilość możliwych układów Go: ~10^360• Ilość możliwych układów w
szachach: ~10^123• 2016 – AlphaGo wygrywa z Fan
Hui, profesjonalnym graczem w Go (2. dan)• 2016 – AlphaGo wygrywa z Lee
Sedol, najlepszym graczem Go na świecie (4-1)
Studium przypadku: Dane o zachowaniuludzkim zmieniają marketing internetowy
• 1994 – spam (2003 – systemyantyspamowe)
• 1995 – marketing wyszukiwarkowy
• 2004 – marketing w sieciachspołecznościowych
• 2005 – analityka marketingowa
• 2012 – algorytm poprawnie odczytujegrupę docelową jako “kobieta w ciąży” u kobiety, która nie wiedziała, że jest w ciąży
• Personalizacja reklam, ciągła optymalizacjagrupy docelowej
• Internet = niespotykana wcześniejmożliwość doboru komunikatu do odbiorcyŹródło: Twitter
Komentarz użytkowników: “Sam się zaorał”
Przyszłość2015 – big data znika z hype cycle
Według Gartnera, za 5-10 latpowszechne na rynku staną się:• VR / AR• Urządzenia do ubierania (ang.
Wearables)• Autonomiczne pojazdy• Odpowiadanie na pytania w
języku naturalnym• Wirtualni doradcy• Przetwarzanie i naśladowanie
emocji przez komputery• Domy podłączone do internetu
Przyszłość: Co dalej z big data?
• Kwantyfikacja =/= obiektywizacja• Więcej danych =/= więcej wiedzy• Jeszcze więcej danych, ”Dark data”• Nie ma odwrotu tak długo jak istnieje internet• Przyszłość: Większy nacisk na interpretację i użyteczność danych• Przyszłość: Data science zautomatyzuje samą siebie
Przyszłość: Jak wielkie dane wpłyną napolitykę (i vice-versa)?
• Wzrost oddziaływania internetuna kampanie wyborcze ioddolne inicjatywy• Władza = postępująca kontrola
internetu.• Ryzyko: kolejny środek
masowego przekazu• Ryzyko: kolejne pole walki w
razie wojny
Źródło: fortune.com
Przyszłość: Co z internetem rzeczy?
• Będzie wszędzie, bo jest wygodny• Szpitale, elektrownie, domy, budowle, samochody• Coraz większe dane• Coraz większe możliwości wpływania na fizyczną rzeczywistość z
użyciem danych• Dylematy moralne (kto zginie w wypadku samochodowym?)• Problemy z bezpieczeństwem danych
Przyszłość: Co z prywatnością?
• Koniec prywatności?• 2016 – prawo do bycia zapomnianym• Internet to miejsce publiczne. KROPKA.• Domy podłączone do internetu = konieczność dbania o ich
bezpieczeństwo• Włamanie do sieci domowej = włamanie do domu?• Ciekawe problemy społeczne, ciekawe możliwości biznesowe
Przyszłość: Osobliwość AI
• Brak zaplecza filozoficznego do zaprojektowania osobliwości• Chiński pokój (ang. Chinese
room argument)
Źródło: MIT Press
Dziękuję za uwagę!
Pytania?
Email: [email protected]
LinkedIn: https://www.linkedin.com/in/michal-witkowski-63792487/