Jak „Big Data” rewolucjonizuje naukę oraz współpracę centrów badawczych z biznesem?

11
Jak „Big Data” rewolucjonizuje naukę oraz wspólpracę centrów badawczych z biznesem? dr Lukasz Bolikowski ICM, Uniwersytet Warszawski Big Data Summit, 26 listopada 2014

description

Presentation in Polish at Big Data Summit in Warsaw on 26th November 2014.

Transcript of Jak „Big Data” rewolucjonizuje naukę oraz współpracę centrów badawczych z biznesem?

Page 1: Jak „Big Data” rewolucjonizuje naukę oraz współpracę centrów badawczych z biznesem?

Jak „Big Data” rewolucjonizuje naukęoraz współpracę centrów badawczychz biznesem?

dr Łukasz BolikowskiICM, Uniwersytet Warszawski

Big Data Summit, 26 listopada 2014

Page 2: Jak „Big Data” rewolucjonizuje naukę oraz współpracę centrów badawczych z biznesem?

Czwarty paradygmat

Cztery paradygmaty w nauce (Jim Gray, 2007):

1 Empiryczny – opis zjawisk naturalnych(ostatnie tysiąclecia)

2 Teoretyczny – budowa modeli i uogólnień(ostatnie stulecia)

3 Obliczeniowy – symulacje złożonych zjawisk(ostatnie dekady)

4 Eksploracja danych – badania „data-intensive”(ostatnie lata)

Page 3: Jak „Big Data” rewolucjonizuje naukę oraz współpracę centrów badawczych z biznesem?

Duże dane w nauce

Duży rozmiar1000 Genomes Project – 200 TB danych genomicznychNASA Earth Exchange – 20 TB danych o Ziemi

Duże tempo zmianWielki Zderzacz Hadronów (CERN) – 1 PB/s (w szczycie)Sekwenatory DNA – setki GB tygodniowo

Duża różnorodnośćArchiwum prognozy pogody ICM – 1000+ rodzajów pól

Page 4: Jak „Big Data” rewolucjonizuje naukę oraz współpracę centrów badawczych z biznesem?

Przyczyny zmiany paradygmatu

Przejście od „analogowego” do „cyfrowego”dramatycznie zwiększyło podaż danych:

książki, komunikacja naukowadane medyczne

Pojawiły się technologie generujące duże dane:urządzenia mobilnesieci społecznościowesieci czujników (inteligentne miasta)

Naukowcy uświadomili sobie, że eksploracja dużychzbiorów danych może prowadzić do odkryć:

dane → informacja → wiedza

Page 5: Jak „Big Data” rewolucjonizuje naukę oraz współpracę centrów badawczych z biznesem?

Skutki zmiany paradygmatu

Potrzebujemy. . .

. . . nowych infrastruktur obliczeniowychduże klastry do badań opartych o danesystemy do publikacji i dzielenia się danymi

. . . nowych metod i algorytmów przetwarzaniaalgorytmy w modelu MapReduceszybkie rozwiązania in-memory

. . . nowych umiejętności i kompetencjiprzetwarzanie dużych danych, programowanieuczenie maszynowe, statystyka, matematykawizualizacja informacji, prezentacja wynikówciekawość, pasja, żyłka eksploratora

Page 6: Jak „Big Data” rewolucjonizuje naukę oraz współpracę centrów badawczych z biznesem?

ICM, Uniwersytet WarszawskiPoczątki – trzeci paradygmat

Założone 20 lat temu jako centrum superkomputeroweprowadzące symulacje złożonych zjawisk przy użyciumodeli matematycznych i superkomputerów.Prawdziwie interdyscyplinarny zespół 150+ naukowcówi programistów tworzących rozwiązania w obszarach takróżnych jak:transport lotniczy, bioinformatyka, modelowanie klimatu,medycyna wspomagana komputerowo, kosmologia, bib-lioteki cyfrowe, projektowanie leków, epidemiologia, rol-nictwo, fizyka wysokich energii, uczenie maszynowe,projektowanie materiałów, neurobiologia, analiza siecispołecznych, prognozowanie pogody, . . . i wiele innych.

Page 7: Jak „Big Data” rewolucjonizuje naukę oraz współpracę centrów badawczych z biznesem?

ICM, Uniwersytet WarszawskiPrzyszłość – czwarty paradygmat

ICM staje się centrum danych badawczych. W ramach pro-jektu OCEAN o początkowym budżecie 80 mln zł do końca2015 roku powstanie infrastruktura zdolna przetwarzaćdziesiątki PB danych oraz centrum kompetencji skupia-jące doświadczone zespoły „data scientists”.(text mining, analiza sieci społecznych, analiza obrazów, uczenie maszynowe)

Page 8: Jak „Big Data” rewolucjonizuje naukę oraz współpracę centrów badawczych z biznesem?

Wybrane projekty ICM UW oparte o analizę danych

1 Alzheimer’s Disease Big Data DREAM ChallengeCel: identyfikacja biomarkerów pozwalającychdiagnozować i leczyć chorobę AlzheimeraDane: obrazowe (m.in. MRI mózgu), genetyczne(m.in. SNP), oceny funkcji poznawczych

2 Szacowanie krzywych laktacji i obserwacji odstającychCel: przewidywanie użytkowości mlecznej krówDane: 80M+ rekordów opisujących krowy (np. geny,stado) i historię ich udojów (np. ilość i skład mleka)

3 SciVis Contest 2015Cel: wizualizacja ewolucji wszechświataDane: bilion (1012) obiektów (położenia i prędkości)× 100 klatek (oś czasu) = 3 PB danych(3 PB oznacza 9 m-cy kopiowania po Ethernecie, 1 tonę dysków HDD)

Page 9: Jak „Big Data” rewolucjonizuje naukę oraz współpracę centrów badawczych z biznesem?

Nauka a biznes

Biznes ma dane i pytania, cierpi na brak data scientists.Nauka ma kompetencje i infrastrukturę, szuka ciekawych wyzwań.Podobne zagadnienia, metody, metodologie:

rozumienie wartości (dużych) danych, potencjału w nich tkwiącegometody statystyczne, uczenie maszynowe, wizualizacja informacjiprzetwarzanie dużych danych przy użyciu Apache Hadoop/Sparkmetodologie prowadzenia projektów data-miningowych, np. CRISP-DM

Wniosek – pasujemy do siebie jak nigdy dotąd! Zapraszam do współpracy.

Page 10: Jak „Big Data” rewolucjonizuje naukę oraz współpracę centrów badawczych z biznesem?

Dziękuję za uwagę i zapraszam do kontaktu!

linkedin.com/in/bolikowski

twitter.com/bolikowski

[email protected]

+48 22 8749419

Page 11: Jak „Big Data” rewolucjonizuje naukę oraz współpracę centrów badawczych z biznesem?

Licencja

c© 2014 ICM, Uniwersytet Warszawski. Pewne prawa zastrzeżone. Prezentacja udostępniona na licencji CC BY-ND 3.0 PL. Wykorzystane zostałymateriały graficzne z następujących źródeł:

http://research.microsoft.com/en-us/collaboration/fourthparadigm/ (str. 2, cała książka na CC BY-SA 3.0, tu dozwolony użytek okładki)https://www.flickr.com/photos/petrifiedforestnps/13808113813 (str. 3, CC BY 2.0)https://www.flickr.com/photos/11304375@N07/2046228644 (str. 3, CC BY 2.0)https://www.flickr.com/photos/mollyali/2518828977 (str. 4, CC BY 2.0)https://www.flickr.com/photos/kewl/8475764430 (str. 6, CC BY 2.0)https://www.flickr.com/photos/iwannt/8596885627 (str. 6, CC BY 2.0)https://www.flickr.com/photos/canyonjam/111754387 (str. 8, CC BY 2.0)https://www.flickr.com/photos/usdagov/9042954477 (str. 8, CC BY 2.0)