Jak „Big Data” rewolucjonizuje naukę oraz współpracę centrów badawczych z biznesem?
-
Upload
lukasz-bolikowski -
Category
Science
-
view
162 -
download
0
description
Transcript of Jak „Big Data” rewolucjonizuje naukę oraz współpracę centrów badawczych z biznesem?
Jak „Big Data” rewolucjonizuje naukęoraz współpracę centrów badawczychz biznesem?
dr Łukasz BolikowskiICM, Uniwersytet Warszawski
Big Data Summit, 26 listopada 2014
Czwarty paradygmat
Cztery paradygmaty w nauce (Jim Gray, 2007):
1 Empiryczny – opis zjawisk naturalnych(ostatnie tysiąclecia)
2 Teoretyczny – budowa modeli i uogólnień(ostatnie stulecia)
3 Obliczeniowy – symulacje złożonych zjawisk(ostatnie dekady)
4 Eksploracja danych – badania „data-intensive”(ostatnie lata)
Duże dane w nauce
Duży rozmiar1000 Genomes Project – 200 TB danych genomicznychNASA Earth Exchange – 20 TB danych o Ziemi
Duże tempo zmianWielki Zderzacz Hadronów (CERN) – 1 PB/s (w szczycie)Sekwenatory DNA – setki GB tygodniowo
Duża różnorodnośćArchiwum prognozy pogody ICM – 1000+ rodzajów pól
Przyczyny zmiany paradygmatu
Przejście od „analogowego” do „cyfrowego”dramatycznie zwiększyło podaż danych:
książki, komunikacja naukowadane medyczne
Pojawiły się technologie generujące duże dane:urządzenia mobilnesieci społecznościowesieci czujników (inteligentne miasta)
Naukowcy uświadomili sobie, że eksploracja dużychzbiorów danych może prowadzić do odkryć:
dane → informacja → wiedza
Skutki zmiany paradygmatu
Potrzebujemy. . .
. . . nowych infrastruktur obliczeniowychduże klastry do badań opartych o danesystemy do publikacji i dzielenia się danymi
. . . nowych metod i algorytmów przetwarzaniaalgorytmy w modelu MapReduceszybkie rozwiązania in-memory
. . . nowych umiejętności i kompetencjiprzetwarzanie dużych danych, programowanieuczenie maszynowe, statystyka, matematykawizualizacja informacji, prezentacja wynikówciekawość, pasja, żyłka eksploratora
ICM, Uniwersytet WarszawskiPoczątki – trzeci paradygmat
Założone 20 lat temu jako centrum superkomputeroweprowadzące symulacje złożonych zjawisk przy użyciumodeli matematycznych i superkomputerów.Prawdziwie interdyscyplinarny zespół 150+ naukowcówi programistów tworzących rozwiązania w obszarach takróżnych jak:transport lotniczy, bioinformatyka, modelowanie klimatu,medycyna wspomagana komputerowo, kosmologia, bib-lioteki cyfrowe, projektowanie leków, epidemiologia, rol-nictwo, fizyka wysokich energii, uczenie maszynowe,projektowanie materiałów, neurobiologia, analiza siecispołecznych, prognozowanie pogody, . . . i wiele innych.
ICM, Uniwersytet WarszawskiPrzyszłość – czwarty paradygmat
ICM staje się centrum danych badawczych. W ramach pro-jektu OCEAN o początkowym budżecie 80 mln zł do końca2015 roku powstanie infrastruktura zdolna przetwarzaćdziesiątki PB danych oraz centrum kompetencji skupia-jące doświadczone zespoły „data scientists”.(text mining, analiza sieci społecznych, analiza obrazów, uczenie maszynowe)
Wybrane projekty ICM UW oparte o analizę danych
1 Alzheimer’s Disease Big Data DREAM ChallengeCel: identyfikacja biomarkerów pozwalającychdiagnozować i leczyć chorobę AlzheimeraDane: obrazowe (m.in. MRI mózgu), genetyczne(m.in. SNP), oceny funkcji poznawczych
2 Szacowanie krzywych laktacji i obserwacji odstającychCel: przewidywanie użytkowości mlecznej krówDane: 80M+ rekordów opisujących krowy (np. geny,stado) i historię ich udojów (np. ilość i skład mleka)
3 SciVis Contest 2015Cel: wizualizacja ewolucji wszechświataDane: bilion (1012) obiektów (położenia i prędkości)× 100 klatek (oś czasu) = 3 PB danych(3 PB oznacza 9 m-cy kopiowania po Ethernecie, 1 tonę dysków HDD)
Nauka a biznes
Biznes ma dane i pytania, cierpi na brak data scientists.Nauka ma kompetencje i infrastrukturę, szuka ciekawych wyzwań.Podobne zagadnienia, metody, metodologie:
rozumienie wartości (dużych) danych, potencjału w nich tkwiącegometody statystyczne, uczenie maszynowe, wizualizacja informacjiprzetwarzanie dużych danych przy użyciu Apache Hadoop/Sparkmetodologie prowadzenia projektów data-miningowych, np. CRISP-DM
Wniosek – pasujemy do siebie jak nigdy dotąd! Zapraszam do współpracy.
Dziękuję za uwagę i zapraszam do kontaktu!
linkedin.com/in/bolikowski
twitter.com/bolikowski
+48 22 8749419
Licencja
c© 2014 ICM, Uniwersytet Warszawski. Pewne prawa zastrzeżone. Prezentacja udostępniona na licencji CC BY-ND 3.0 PL. Wykorzystane zostałymateriały graficzne z następujących źródeł:
http://research.microsoft.com/en-us/collaboration/fourthparadigm/ (str. 2, cała książka na CC BY-SA 3.0, tu dozwolony użytek okładki)https://www.flickr.com/photos/petrifiedforestnps/13808113813 (str. 3, CC BY 2.0)https://www.flickr.com/photos/11304375@N07/2046228644 (str. 3, CC BY 2.0)https://www.flickr.com/photos/mollyali/2518828977 (str. 4, CC BY 2.0)https://www.flickr.com/photos/kewl/8475764430 (str. 6, CC BY 2.0)https://www.flickr.com/photos/iwannt/8596885627 (str. 6, CC BY 2.0)https://www.flickr.com/photos/canyonjam/111754387 (str. 8, CC BY 2.0)https://www.flickr.com/photos/usdagov/9042954477 (str. 8, CC BY 2.0)