Projekt ELRC w Polsce - lr-coordination.eu ELRC w... · wschodniego, 10 lat Polski w UE, raport...

13
Projekt ELRC w Polsce Maciej Ogrodniczuk Instytut Podstaw Informatyki PAN 1

Transcript of Projekt ELRC w Polsce - lr-coordination.eu ELRC w... · wschodniego, 10 lat Polski w UE, raport...

Page 1: Projekt ELRC w Polsce - lr-coordination.eu ELRC w... · wschodniego, 10 lat Polski w UE, raport „Młodzi 2011” (3 zestawy) • UZP: sprawozdania i terminologia wielojęzyczna

Projekt ELRC w Polsce

Maciej OgrodniczukInstytut Podstaw Informatyki PAN

1

Page 2: Projekt ELRC w Polsce - lr-coordination.eu ELRC w... · wschodniego, 10 lat Polski w UE, raport „Młodzi 2011” (3 zestawy) • UZP: sprawozdania i terminologia wielojęzyczna

ELRC w Polsce

2

Przedstawiciele krajowi:

• Maciej Ogrodniczuk (IPI PAN)

Przedstawiciel krajowy ds. technologii

• Anna Kotarska (NFZ)

Przedstawiciel krajowy służb publicznych

Pierwszy warsztat ELRC:

• 9 marca 2016 r.

• 13 prelegentów, 63 uczestników

Page 3: Projekt ELRC w Polsce - lr-coordination.eu ELRC w... · wschodniego, 10 lat Polski w UE, raport „Młodzi 2011” (3 zestawy) • UZP: sprawozdania i terminologia wielojęzyczna

Dane pozyskane w I fazie projektu

3

Po I warsztacie:

• pozyskano 18 zestawów danych

• łącznie ok. 2 + 178 mln słów

• 60 tys. par zdań

• głównie EN-PL, ale także jeden zasób wielojęzyczny i korpus polskich orzeczeń sądowych

Page 4: Projekt ELRC w Polsce - lr-coordination.eu ELRC w... · wschodniego, 10 lat Polski w UE, raport „Młodzi 2011” (3 zestawy) • UZP: sprawozdania i terminologia wielojęzyczna

Dane pozyskane w I fazie projektu

4

• MR/ARiMR: kwartalnik Polish Food (3 zestawy danych)

• MSZ: opracowania dot. historii Polski, partnerstwa wschodniego, 10 lat Polski w UE, raport „Młodzi 2011” (3 zestawy)

• UZP: sprawozdania i terminologia wielojęzyczna (3 zestawy)

• ULC: słowniki terminologii lotniczej (2 zestawy)

Dane uzyskane od Państwa:

Page 5: Projekt ELRC w Polsce - lr-coordination.eu ELRC w... · wschodniego, 10 lat Polski w UE, raport „Młodzi 2011” (3 zestawy) • UZP: sprawozdania i terminologia wielojęzyczna

Dane pozyskane w I fazie projektu

5

• Centrum Europejskie Natolin: analizy w „Zeszytach Natolińskich”

• GUS: rocznik statystyczny

• MS: orzeczenia sądów powszechnych

• NFZ: publikacja „Jednorodne grupy pacjentów w Europie”

• PAH/Oxfam: seria raportów dot. kryzysów humanitarnych

• PKN Orlen: raporty dot. rynku energii (gaz łupkowy...)

Dane uzyskane od Państwa:

Page 6: Projekt ELRC w Polsce - lr-coordination.eu ELRC w... · wschodniego, 10 lat Polski w UE, raport „Młodzi 2011” (3 zestawy) • UZP: sprawozdania i terminologia wielojęzyczna

Instytucje wspierające ELRC

6

Centrum Europejskie Natolin

Główny Urząd Statystyczny

Ministerstwo Rolnictwa

Ministerstwo Spraw Zagranicznych

Narodowy Fundusz Zdrowia

PAH/Oxfam

PKN Orlen

Urząd Lotnictwa Cywilnego

Urząd Zamówień Publicznych

Page 7: Projekt ELRC w Polsce - lr-coordination.eu ELRC w... · wschodniego, 10 lat Polski w UE, raport „Młodzi 2011” (3 zestawy) • UZP: sprawozdania i terminologia wielojęzyczna

Dziedziny tematyczne

7

NGO

Demografia

Energia

Sprawiedliwość

Zdrowie

Zamówienia publiczne

Transport

Handel

Relacje międzynarodowe

Rolnictwo

0 1 2 3 4

Page 8: Projekt ELRC w Polsce - lr-coordination.eu ELRC w... · wschodniego, 10 lat Polski w UE, raport „Młodzi 2011” (3 zestawy) • UZP: sprawozdania i terminologia wielojęzyczna

Typy zasobów

8

Dwujęzyczne

Jednojęzyczne

Wielojęzyczne

Korpusowy

Terminologiczny

Page 9: Projekt ELRC w Polsce - lr-coordination.eu ELRC w... · wschodniego, 10 lat Polski w UE, raport „Młodzi 2011” (3 zestawy) • UZP: sprawozdania i terminologia wielojęzyczna

Obróbka danych

9

• ujednolicenie formatu

• zrównoleglenie danych (zdanie do zdania)

• ręczna korekta

• zapis danych w formacie pamięci tłumaczeniowej

• opis metadanymi

• zapis zasobu w repozytorium ELRC Share

https://elrc-share.eu/

Przetwarzanie danych:

Page 10: Projekt ELRC w Polsce - lr-coordination.eu ELRC w... · wschodniego, 10 lat Polski w UE, raport „Młodzi 2011” (3 zestawy) • UZP: sprawozdania i terminologia wielojęzyczna

Trudności i sukcesy

10

Brak odpowiednich zasobów

Trudności z uzyskaniem oficjalnego zezwolenia na użycie danych

Problemy prawne i licencyjne

Procedury tłumacze-niowe

Problemy techniczne

Niechęć do wykorzystania technologii

Główne problemy:

Page 11: Projekt ELRC w Polsce - lr-coordination.eu ELRC w... · wschodniego, 10 lat Polski w UE, raport „Młodzi 2011” (3 zestawy) • UZP: sprawozdania i terminologia wielojęzyczna

Największe trudności

11

Czego się jeszcze nie udałozrobić?

Wprowadzić jednolitych procedur udostępniania danych, tworzenia umów z agencjami itp.

Wprowadzić mechanizmów stałego pobierania danych

Przekonać niektórych instytucji, z którymi się kontaktowaliśmy

Co jeszcze powinniśmy poprawić?

Page 12: Projekt ELRC w Polsce - lr-coordination.eu ELRC w... · wschodniego, 10 lat Polski w UE, raport „Młodzi 2011” (3 zestawy) • UZP: sprawozdania i terminologia wielojęzyczna

Dotychczasowe sukcesy

12

Co się udało?

Skontaktować się z Państwem!

Dołączyć do europejskiej czołówki w pozyskiwaniu danych

Pozyskać dane wielojęzyczne (nie tylko PL-EN) i terminologiczne

Pozyskać dane z wielu dziedzin (rolnictwo, zdrowie, zamówienia publiczne, prawo, sprawy zagraniczne, analizy biznesowe)

Page 13: Projekt ELRC w Polsce - lr-coordination.eu ELRC w... · wschodniego, 10 lat Polski w UE, raport „Młodzi 2011” (3 zestawy) • UZP: sprawozdania i terminologia wielojęzyczna

Dziękuję za uwagę!

E-mail: [email protected] WWW: www.lr-coordination.eu

13