Praktyczne wykorzystanie AI w OPI - Oracle · 2019. 11. 21. · Polityka rekrutacji Profil Poziom...

31
Praktyczne wykorzystanie AI w Ośrodku Przetwarzania Informacji – Państwowym Instytucie Badawczym WARSZAWA, 22.10.2019 dr Marek Kozłowski Laboratorium Inżynierii Lingwistycznej Krzysztof Wiliński Dział Zasobów Informacyjnych

Transcript of Praktyczne wykorzystanie AI w OPI - Oracle · 2019. 11. 21. · Polityka rekrutacji Profil Poziom...

Page 1: Praktyczne wykorzystanie AI w OPI - Oracle · 2019. 11. 21. · Polityka rekrutacji Profil Poziom kształcenia Jakość kształcenia 4 800. 20 ... IEEE Big Data Cup etc • Publikacje

Praktyczne wykorzystanie AI w

Ośrodku Przetwarzania

Informacji – Państwowym

Instytucie Badawczym

WARSZAWA, 22.10.2019

dr Marek Kozłowski

Laboratorium Inżynierii Lingwistycznej

Krzysztof Wiliński

Dział Zasobów Informacyjnych

Page 2: Praktyczne wykorzystanie AI w OPI - Oracle · 2019. 11. 21. · Polityka rekrutacji Profil Poziom kształcenia Jakość kształcenia 4 800. 20 ... IEEE Big Data Cup etc • Publikacje

2

Plan prezentacji

Ośrodek Przetwarzania Informacji - PIB.Kim jesteśmy. Co robimy.

2

1

3

4

Jakość danych i Sztuczna Inteligencja. POC.Geneza i cele projektu Data Quality.

Popularyzacja AI.Badania. Publikacje. Konkursy.

Rozwiązania chmurowe.Praktyczne wykorzystanie aplikacji i zasobów chmurowych.

Page 3: Praktyczne wykorzystanie AI w OPI - Oracle · 2019. 11. 21. · Polityka rekrutacji Profil Poziom kształcenia Jakość kształcenia 4 800. 20 ... IEEE Big Data Cup etc • Publikacje

3

Tworzenie systemów

informatycznych

Organizacja

procesów

finansowaniaOpracowywanie

informacji

Badania

interdyscyplinarne

Transfer

technologii

Zastosowania

metod AI

Zadania

1. Ośrodek Przetwarzania Informacji – Państwowy Instytut Badawczy

Page 4: Praktyczne wykorzystanie AI w OPI - Oracle · 2019. 11. 21. · Polityka rekrutacji Profil Poziom kształcenia Jakość kształcenia 4 800. 20 ... IEEE Big Data Cup etc • Publikacje

4

Wybrane systemy

W tym SYNABA

ORPPD

Page 5: Praktyczne wykorzystanie AI w OPI - Oracle · 2019. 11. 21. · Polityka rekrutacji Profil Poziom kształcenia Jakość kształcenia 4 800. 20 ... IEEE Big Data Cup etc • Publikacje

5

2. Jakość danych i Sztuczna Inteligencja. POC.

Wzrost zapotrzebowania na dane z utrzymywanych przez OPI-PIB systemów

Wzrost znaczenia czynnika czasu dla satysfakcji odbiorcy danych

Wzrost znaczenia jakości danych w procesach decyzyjnych

Wzrost dostępność technologii inteligentnego przetwarzania danych

Geneza

Page 6: Praktyczne wykorzystanie AI w OPI - Oracle · 2019. 11. 21. · Polityka rekrutacji Profil Poziom kształcenia Jakość kształcenia 4 800. 20 ... IEEE Big Data Cup etc • Publikacje

6

Statystyki raportów

y = 4.518x + 68.179

0

200

400

600

800

1000

1200

1400

1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8

2014 2015 2016 2017 2018 2019

Page 7: Praktyczne wykorzystanie AI w OPI - Oracle · 2019. 11. 21. · Polityka rekrutacji Profil Poziom kształcenia Jakość kształcenia 4 800. 20 ... IEEE Big Data Cup etc • Publikacje

7

Cechy dobrego raportu

Czas

Jakość danych

Zakres informacyjny

Terminowa dostawaczas prototypowania i

ekstrakcja

Wysoka jakośćwypadkowa jakości elementów

składowych danych wyjściowych

Trafnośćprecyzja agregacji, wymiarowania oraz informacji uzupełniających

Page 8: Praktyczne wykorzystanie AI w OPI - Oracle · 2019. 11. 21. · Polityka rekrutacji Profil Poziom kształcenia Jakość kształcenia 4 800. 20 ... IEEE Big Data Cup etc • Publikacje

8

Kategoria

Naukowa

Przykłady wykorzystania danych

Dane o zatrudnieniu,

zrealizowanych projektach, nagrodach.

Ocena parametryczna -

benchmark dorobku

naukowego

Dane o dorobku publikacyjnym (artykułach,

monografiach, rozdziałach)

Prestiż i środki finansowe

Page 9: Praktyczne wykorzystanie AI w OPI - Oracle · 2019. 11. 21. · Polityka rekrutacji Profil Poziom kształcenia Jakość kształcenia 4 800. 20 ... IEEE Big Data Cup etc • Publikacje

9

ZUS

Przykłady wykorzystania danych

Dane absolwentów:

kierunek studiów, uczelnia, ścieżka

edukacyjna

Mapa atrakcyjności

kierunków

Informacja o zatrudnieniu i

zarobkach

Page 10: Praktyczne wykorzystanie AI w OPI - Oracle · 2019. 11. 21. · Polityka rekrutacji Profil Poziom kształcenia Jakość kształcenia 4 800. 20 ... IEEE Big Data Cup etc • Publikacje

10

Ranking Perspektyw

Rankingi

Rzeczpospolitej

Przykłady wykorzystania danych

Statystyki pracowników naukowych, studentów,

absolwentów, kierunków studiów…

Atrakcyjność oferty edukacyjnej poszczególnych

uczelni

Dane o dorobku publikacyjnym (artykułach,

monografiach, rozdziałach)

Ranking uczelni. Ranking

kierunków.

Page 11: Praktyczne wykorzystanie AI w OPI - Oracle · 2019. 11. 21. · Polityka rekrutacji Profil Poziom kształcenia Jakość kształcenia 4 800. 20 ... IEEE Big Data Cup etc • Publikacje

11

Przykłady wykorzystania danych

Statystyki pracowników naukowych, studentów,

absolwentów, kierunków studiów…

Nadane stopnie naukowe, projekty badawcze, dane

historyczne…

Dane o dorobku publikacyjnym (artykułach,

monografiach, rozdziałach)

Raporty. Analizy. Dane.

Page 12: Praktyczne wykorzystanie AI w OPI - Oracle · 2019. 11. 21. · Polityka rekrutacji Profil Poziom kształcenia Jakość kształcenia 4 800. 20 ... IEEE Big Data Cup etc • Publikacje

12

Klastry danych

Istotne wizerunkowoDane wykorzystywana do zasilania algorytmów rankingowych

Pozostałe Wykorzystywane na potrzeby badań naukowych, syntetycznych opracowań zbiorczych o wysokim poziomie ogólności itp.

Istotne finansowoJakość i kompletność danych

wpływają bezpośrednio na strumienie zasileń

finansowych

Istotne sprawozdawczoWażne dla statystyki krajowej i

międzynarodowej

Page 13: Praktyczne wykorzystanie AI w OPI - Oracle · 2019. 11. 21. · Polityka rekrutacji Profil Poziom kształcenia Jakość kształcenia 4 800. 20 ... IEEE Big Data Cup etc • Publikacje

13

Procesy z obszaru Data Quality

Procesy egzogeniczne

Zgłoszenia od użytkowników

Konsultacje

Anomalie wykazywane na styku z innymi systemami

Dane GUS

Raporty referencyjne

Page 14: Praktyczne wykorzystanie AI w OPI - Oracle · 2019. 11. 21. · Polityka rekrutacji Profil Poziom kształcenia Jakość kształcenia 4 800. 20 ... IEEE Big Data Cup etc • Publikacje

14

Procesy z obszaru Data Quality

Procesy endogeniczne

Audyty międzymodułowe

Analiza odchyleń

Zasilanie agregatów danymi z rejestrów

Wskaźniki

Przemodelowanieobszaru

Page 15: Praktyczne wykorzystanie AI w OPI - Oracle · 2019. 11. 21. · Polityka rekrutacji Profil Poziom kształcenia Jakość kształcenia 4 800. 20 ... IEEE Big Data Cup etc • Publikacje

15

Efekt uczenia się

-

5,000.00

10,000.00

15,000.00

20,000.00

25,000.00

30,000.002

01

3/0

8

201

3/0

9

201

3/1

0

201

3/1

1

201

3/1

2

201

4/0

1

201

4/0

2

201

4/0

3

201

4/0

4

201

4/0

5

201

4/0

6

201

4/0

7

201

4/0

8

201

4/0

9

201

4/1

0

201

4/1

1

201

4/1

2

201

5/0

1

201

5/0

2

201

5/0

3

201

5/0

4

201

5/0

5

201

5/0

6

201

5/0

7

201

5/0

8

201

5/0

9

201

5/1

0

201

5/1

1

201

5/1

2

201

6/0

1

201

6/0

2

201

6/0

3

201

6/0

4

201

6/0

5

201

6/0

6

201

6/0

7

201

6/0

8

201

6/0

9

201

6/1

0

201

6/1

1

201

6/1

2

201

7/0

1

201

7/0

2

201

7/0

3

201

7/0

4

201

7/0

5

201

7/0

6

201

7/0

7

201

7/0

8

201

7/0

9

201

7/1

0

201

7/1

1

201

7/1

2

201

8/0

1

201

8/0

2

Liczba operacji na danych/ liczba zgłoszeń

Page 16: Praktyczne wykorzystanie AI w OPI - Oracle · 2019. 11. 21. · Polityka rekrutacji Profil Poziom kształcenia Jakość kształcenia 4 800. 20 ... IEEE Big Data Cup etc • Publikacje

16

Zmiany systemowe

Ustawa

2.0

Ustawa

2.0PBN 2.0

Page 17: Praktyczne wykorzystanie AI w OPI - Oracle · 2019. 11. 21. · Polityka rekrutacji Profil Poziom kształcenia Jakość kształcenia 4 800. 20 ... IEEE Big Data Cup etc • Publikacje

17

Cel – intensyfikacja procesu uczenia

-

5,000.00

10,000.00

15,000.00

20,000.00

25,000.00

30,000.002

01

3/0

8

201

3/0

9

201

3/1

0

201

3/1

1

201

3/1

2

201

4/0

1

201

4/0

2

201

4/0

3

201

4/0

4

201

4/0

5

201

4/0

6

201

4/0

7

201

4/0

8

201

4/0

9

201

4/1

0

201

4/1

1

201

4/1

2

201

5/0

1

201

5/0

2

201

5/0

3

201

5/0

4

201

5/0

5

201

5/0

6

201

5/0

7

201

5/0

8

201

5/0

9

201

5/1

0

201

5/1

1

201

5/1

2

201

6/0

1

201

6/0

2

201

6/0

3

201

6/0

4

201

6/0

5

201

6/0

6

201

6/0

7

201

6/0

8

201

6/0

9

201

6/1

0

201

6/1

1

201

6/1

2

201

7/0

1

201

7/0

2

201

7/0

3

201

7/0

4

201

7/0

5

201

7/0

6

201

7/0

7

201

7/0

8

201

7/0

9

201

7/1

0

201

7/1

1

201

7/1

2

201

8/0

1

201

8/0

2

Liczba operacji na danych/ liczba zgłoszeń

Page 18: Praktyczne wykorzystanie AI w OPI - Oracle · 2019. 11. 21. · Polityka rekrutacji Profil Poziom kształcenia Jakość kształcenia 4 800. 20 ... IEEE Big Data Cup etc • Publikacje

18

Realizacja

Natywne narzędzia AI

SQL Identyfikacja intensywności dostępu

Identyfikacja elementów odstających

Powiadomienie dostawców danych

Page 19: Praktyczne wykorzystanie AI w OPI - Oracle · 2019. 11. 21. · Polityka rekrutacji Profil Poziom kształcenia Jakość kształcenia 4 800. 20 ... IEEE Big Data Cup etc • Publikacje

19

Wielowymiarowość

Wiek

Kariera

Aktywność naukowa/ dydaktyczna

Wiek

Płeć

Sytuacja zawodowa

Kadra

Dane

demograficzne

Uczelnia

Kierunek

Rozmiar

Sytuacja finansowa

Polityka rekrutacji

Profil

Poziom kształcenia

Jakość kształcenia

4 800

Page 20: Praktyczne wykorzystanie AI w OPI - Oracle · 2019. 11. 21. · Polityka rekrutacji Profil Poziom kształcenia Jakość kształcenia 4 800. 20 ... IEEE Big Data Cup etc • Publikacje

20

Wizualizacja efektów detekcji fluktuacji zatrudnienia

Page 21: Praktyczne wykorzystanie AI w OPI - Oracle · 2019. 11. 21. · Polityka rekrutacji Profil Poziom kształcenia Jakość kształcenia 4 800. 20 ... IEEE Big Data Cup etc • Publikacje

21

3. Rozwiązania chmurowe

Prototypowanie zapytań – baza lokalna

Page 22: Praktyczne wykorzystanie AI w OPI - Oracle · 2019. 11. 21. · Polityka rekrutacji Profil Poziom kształcenia Jakość kształcenia 4 800. 20 ... IEEE Big Data Cup etc • Publikacje

22

Prototypowanie zapytań - Efekty wykorzystania rozwiązań chmurowych

Page 23: Praktyczne wykorzystanie AI w OPI - Oracle · 2019. 11. 21. · Polityka rekrutacji Profil Poziom kształcenia Jakość kształcenia 4 800. 20 ... IEEE Big Data Cup etc • Publikacje

23

Prototypowanie zapytań - Efekty wykorzystania rozwiązań chmurowych

Page 24: Praktyczne wykorzystanie AI w OPI - Oracle · 2019. 11. 21. · Polityka rekrutacji Profil Poziom kształcenia Jakość kształcenia 4 800. 20 ... IEEE Big Data Cup etc • Publikacje

24

Demografia a moc obliczeniowa

Koszt

godzin

ow

y z

asobu

Oś czasu

Koszt godzinowy pracownika i chmury

praca

chmura

Page 25: Praktyczne wykorzystanie AI w OPI - Oracle · 2019. 11. 21. · Polityka rekrutacji Profil Poziom kształcenia Jakość kształcenia 4 800. 20 ... IEEE Big Data Cup etc • Publikacje

25

Efekty wykorzystania rozwiązań chmurowych

+ = +

Page 26: Praktyczne wykorzystanie AI w OPI - Oracle · 2019. 11. 21. · Polityka rekrutacji Profil Poziom kształcenia Jakość kształcenia 4 800. 20 ... IEEE Big Data Cup etc • Publikacje

26

AI w OPI

• Konkursy naukowe dotyczące uczenia maszynowego• AAIA'16 Data Mining Challenge: Predicting Dangerous Seismic Events in Active Coal Mines

• the winning solution in Style Breach Detection task in PAN’17 (17th evaluation lab on digital

text forensics during CLEF conference in Dublin)

• the winning solution in TrichoLAB Challenge: Marking Hair Follicles on Microscopic Images in

AIMaViG’18

• Poleval (polish semeval), IEEE Big Data Cup etc

• Publikacje naukowe w zakresie przetwarzania języka naturalnego,

przetwarzania obrazów, szeroko rozumianej eksploracji danych

• Systemy informatyczne• JSA – Jednolity System Antyplagiatowy

• Systemy rekomendacji ekspertów dla agencji rządowych np. NCBiR

• Chatboty i wyszukiwarki semantyczne dla wsparcia interesariuszy (ZSUN)

• Modele i narzędzia predykcji dla MillwardBrown, czy Vive Textile Recycling

Page 27: Praktyczne wykorzystanie AI w OPI - Oracle · 2019. 11. 21. · Polityka rekrutacji Profil Poziom kształcenia Jakość kształcenia 4 800. 20 ... IEEE Big Data Cup etc • Publikacje

27

Prasówka z ostatnich tygodni -> AI w OPI

Page 28: Praktyczne wykorzystanie AI w OPI - Oracle · 2019. 11. 21. · Polityka rekrutacji Profil Poziom kształcenia Jakość kształcenia 4 800. 20 ... IEEE Big Data Cup etc • Publikacje

28

BigData w OPI

• Common Crawl – Petabajty danych gromadzonych przez 7 lat, i nasza

próba wyekstraktowania polskiej części

• JSA – 40 TB danych i stale rośnie

Page 29: Praktyczne wykorzystanie AI w OPI - Oracle · 2019. 11. 21. · Polityka rekrutacji Profil Poziom kształcenia Jakość kształcenia 4 800. 20 ... IEEE Big Data Cup etc • Publikacje

29

IaaS -> PaaS

• Aktualnie pracujemy na własnej infrastrukturze lub dzierżawionej, sami ją

konfigurujemy, w tym instalujemy kluczowe oprogramowanie (np. w

przypadku deep learningu sami instalujemy conda, tensorFlow, i ich

zależności, lub ignite, cassandra w przypadku aplikacji ee)

• Dysponujemy klastrami kilkuset serwerów, dzielonych w grupy dziedzinowe

• Dysponujemy serwerami z mostkowanymi kartami GPU rodziny TESLA

• Analizujemy potencjalne migracje do architektury hybrydowej, ALE…

Page 30: Praktyczne wykorzystanie AI w OPI - Oracle · 2019. 11. 21. · Polityka rekrutacji Profil Poziom kształcenia Jakość kształcenia 4 800. 20 ... IEEE Big Data Cup etc • Publikacje

30

4. Popularyzacja Sztucznej Inteligencji

Wspólne testy nad wykorzystaniem narzędzi OracleHackathon

Wspólne publikacje na portalu: sztucznainteligencja.org.pl

Przybliżenie tematyki AI

Page 31: Praktyczne wykorzystanie AI w OPI - Oracle · 2019. 11. 21. · Polityka rekrutacji Profil Poziom kształcenia Jakość kształcenia 4 800. 20 ... IEEE Big Data Cup etc • Publikacje

31

Dziękujemy za uwagę