Praktyczne wykorzystanie AI w OPI - Oracle · 2019. 11. 21. · Polityka rekrutacji Profil Poziom...
Transcript of Praktyczne wykorzystanie AI w OPI - Oracle · 2019. 11. 21. · Polityka rekrutacji Profil Poziom...
Praktyczne wykorzystanie AI w
Ośrodku Przetwarzania
Informacji – Państwowym
Instytucie Badawczym
WARSZAWA, 22.10.2019
dr Marek Kozłowski
Laboratorium Inżynierii Lingwistycznej
Krzysztof Wiliński
Dział Zasobów Informacyjnych
2
Plan prezentacji
Ośrodek Przetwarzania Informacji - PIB.Kim jesteśmy. Co robimy.
2
1
3
4
Jakość danych i Sztuczna Inteligencja. POC.Geneza i cele projektu Data Quality.
Popularyzacja AI.Badania. Publikacje. Konkursy.
Rozwiązania chmurowe.Praktyczne wykorzystanie aplikacji i zasobów chmurowych.
3
Tworzenie systemów
informatycznych
Organizacja
procesów
finansowaniaOpracowywanie
informacji
Badania
interdyscyplinarne
Transfer
technologii
Zastosowania
metod AI
Zadania
1. Ośrodek Przetwarzania Informacji – Państwowy Instytut Badawczy
4
Wybrane systemy
W tym SYNABA
ORPPD
5
2. Jakość danych i Sztuczna Inteligencja. POC.
Wzrost zapotrzebowania na dane z utrzymywanych przez OPI-PIB systemów
Wzrost znaczenia czynnika czasu dla satysfakcji odbiorcy danych
Wzrost znaczenia jakości danych w procesach decyzyjnych
Wzrost dostępność technologii inteligentnego przetwarzania danych
Geneza
6
Statystyki raportów
y = 4.518x + 68.179
0
200
400
600
800
1000
1200
1400
1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8
2014 2015 2016 2017 2018 2019
7
Cechy dobrego raportu
Czas
Jakość danych
Zakres informacyjny
Terminowa dostawaczas prototypowania i
ekstrakcja
Wysoka jakośćwypadkowa jakości elementów
składowych danych wyjściowych
Trafnośćprecyzja agregacji, wymiarowania oraz informacji uzupełniających
8
Kategoria
Naukowa
Przykłady wykorzystania danych
Dane o zatrudnieniu,
zrealizowanych projektach, nagrodach.
Ocena parametryczna -
benchmark dorobku
naukowego
Dane o dorobku publikacyjnym (artykułach,
monografiach, rozdziałach)
Prestiż i środki finansowe
9
ZUS
Przykłady wykorzystania danych
Dane absolwentów:
kierunek studiów, uczelnia, ścieżka
edukacyjna
Mapa atrakcyjności
kierunków
Informacja o zatrudnieniu i
zarobkach
10
Ranking Perspektyw
Rankingi
Rzeczpospolitej
Przykłady wykorzystania danych
Statystyki pracowników naukowych, studentów,
absolwentów, kierunków studiów…
Atrakcyjność oferty edukacyjnej poszczególnych
uczelni
Dane o dorobku publikacyjnym (artykułach,
monografiach, rozdziałach)
Ranking uczelni. Ranking
kierunków.
11
Przykłady wykorzystania danych
Statystyki pracowników naukowych, studentów,
absolwentów, kierunków studiów…
Nadane stopnie naukowe, projekty badawcze, dane
historyczne…
Dane o dorobku publikacyjnym (artykułach,
monografiach, rozdziałach)
Raporty. Analizy. Dane.
12
Klastry danych
Istotne wizerunkowoDane wykorzystywana do zasilania algorytmów rankingowych
Pozostałe Wykorzystywane na potrzeby badań naukowych, syntetycznych opracowań zbiorczych o wysokim poziomie ogólności itp.
Istotne finansowoJakość i kompletność danych
wpływają bezpośrednio na strumienie zasileń
finansowych
Istotne sprawozdawczoWażne dla statystyki krajowej i
międzynarodowej
13
Procesy z obszaru Data Quality
Procesy egzogeniczne
Zgłoszenia od użytkowników
Konsultacje
Anomalie wykazywane na styku z innymi systemami
Dane GUS
Raporty referencyjne
14
Procesy z obszaru Data Quality
Procesy endogeniczne
Audyty międzymodułowe
Analiza odchyleń
Zasilanie agregatów danymi z rejestrów
Wskaźniki
Przemodelowanieobszaru
15
Efekt uczenia się
-
5,000.00
10,000.00
15,000.00
20,000.00
25,000.00
30,000.002
01
3/0
8
201
3/0
9
201
3/1
0
201
3/1
1
201
3/1
2
201
4/0
1
201
4/0
2
201
4/0
3
201
4/0
4
201
4/0
5
201
4/0
6
201
4/0
7
201
4/0
8
201
4/0
9
201
4/1
0
201
4/1
1
201
4/1
2
201
5/0
1
201
5/0
2
201
5/0
3
201
5/0
4
201
5/0
5
201
5/0
6
201
5/0
7
201
5/0
8
201
5/0
9
201
5/1
0
201
5/1
1
201
5/1
2
201
6/0
1
201
6/0
2
201
6/0
3
201
6/0
4
201
6/0
5
201
6/0
6
201
6/0
7
201
6/0
8
201
6/0
9
201
6/1
0
201
6/1
1
201
6/1
2
201
7/0
1
201
7/0
2
201
7/0
3
201
7/0
4
201
7/0
5
201
7/0
6
201
7/0
7
201
7/0
8
201
7/0
9
201
7/1
0
201
7/1
1
201
7/1
2
201
8/0
1
201
8/0
2
Liczba operacji na danych/ liczba zgłoszeń
16
Zmiany systemowe
Ustawa
2.0
Ustawa
2.0PBN 2.0
17
Cel – intensyfikacja procesu uczenia
-
5,000.00
10,000.00
15,000.00
20,000.00
25,000.00
30,000.002
01
3/0
8
201
3/0
9
201
3/1
0
201
3/1
1
201
3/1
2
201
4/0
1
201
4/0
2
201
4/0
3
201
4/0
4
201
4/0
5
201
4/0
6
201
4/0
7
201
4/0
8
201
4/0
9
201
4/1
0
201
4/1
1
201
4/1
2
201
5/0
1
201
5/0
2
201
5/0
3
201
5/0
4
201
5/0
5
201
5/0
6
201
5/0
7
201
5/0
8
201
5/0
9
201
5/1
0
201
5/1
1
201
5/1
2
201
6/0
1
201
6/0
2
201
6/0
3
201
6/0
4
201
6/0
5
201
6/0
6
201
6/0
7
201
6/0
8
201
6/0
9
201
6/1
0
201
6/1
1
201
6/1
2
201
7/0
1
201
7/0
2
201
7/0
3
201
7/0
4
201
7/0
5
201
7/0
6
201
7/0
7
201
7/0
8
201
7/0
9
201
7/1
0
201
7/1
1
201
7/1
2
201
8/0
1
201
8/0
2
Liczba operacji na danych/ liczba zgłoszeń
18
Realizacja
Natywne narzędzia AI
SQL Identyfikacja intensywności dostępu
Identyfikacja elementów odstających
Powiadomienie dostawców danych
19
Wielowymiarowość
Wiek
Kariera
Aktywność naukowa/ dydaktyczna
Wiek
Płeć
Sytuacja zawodowa
Kadra
Dane
demograficzne
Uczelnia
Kierunek
Rozmiar
Sytuacja finansowa
Polityka rekrutacji
Profil
Poziom kształcenia
Jakość kształcenia
4 800
20
Wizualizacja efektów detekcji fluktuacji zatrudnienia
21
3. Rozwiązania chmurowe
Prototypowanie zapytań – baza lokalna
22
Prototypowanie zapytań - Efekty wykorzystania rozwiązań chmurowych
23
Prototypowanie zapytań - Efekty wykorzystania rozwiązań chmurowych
24
Demografia a moc obliczeniowa
Koszt
godzin
ow
y z
asobu
Oś czasu
Koszt godzinowy pracownika i chmury
praca
chmura
25
Efekty wykorzystania rozwiązań chmurowych
+ = +
26
AI w OPI
• Konkursy naukowe dotyczące uczenia maszynowego• AAIA'16 Data Mining Challenge: Predicting Dangerous Seismic Events in Active Coal Mines
• the winning solution in Style Breach Detection task in PAN’17 (17th evaluation lab on digital
text forensics during CLEF conference in Dublin)
• the winning solution in TrichoLAB Challenge: Marking Hair Follicles on Microscopic Images in
AIMaViG’18
• Poleval (polish semeval), IEEE Big Data Cup etc
• Publikacje naukowe w zakresie przetwarzania języka naturalnego,
przetwarzania obrazów, szeroko rozumianej eksploracji danych
• Systemy informatyczne• JSA – Jednolity System Antyplagiatowy
• Systemy rekomendacji ekspertów dla agencji rządowych np. NCBiR
• Chatboty i wyszukiwarki semantyczne dla wsparcia interesariuszy (ZSUN)
• Modele i narzędzia predykcji dla MillwardBrown, czy Vive Textile Recycling
27
Prasówka z ostatnich tygodni -> AI w OPI
28
BigData w OPI
• Common Crawl – Petabajty danych gromadzonych przez 7 lat, i nasza
próba wyekstraktowania polskiej części
• JSA – 40 TB danych i stale rośnie
29
IaaS -> PaaS
• Aktualnie pracujemy na własnej infrastrukturze lub dzierżawionej, sami ją
konfigurujemy, w tym instalujemy kluczowe oprogramowanie (np. w
przypadku deep learningu sami instalujemy conda, tensorFlow, i ich
zależności, lub ignite, cassandra w przypadku aplikacji ee)
• Dysponujemy klastrami kilkuset serwerów, dzielonych w grupy dziedzinowe
• Dysponujemy serwerami z mostkowanymi kartami GPU rodziny TESLA
• Analizujemy potencjalne migracje do architektury hybrydowej, ALE…
30
4. Popularyzacja Sztucznej Inteligencji
Wspólne testy nad wykorzystaniem narzędzi OracleHackathon
Wspólne publikacje na portalu: sztucznainteligencja.org.pl
Przybliżenie tematyki AI
31
Dziękujemy za uwagę