Neurobook - Inteligentne repozytoria wiedzy

14
Neurobook Inteligentne repozytoria wiedzy Cezary Dołęga [email protected]

Transcript of Neurobook - Inteligentne repozytoria wiedzy

Page 1: Neurobook - Inteligentne repozytoria wiedzy

NeurobookInteligentne repozytoria wiedzy

Cezary Dołę[email protected]

Page 2: Neurobook - Inteligentne repozytoria wiedzy

Plan prezentacji

Definicja repozytorium wiedzy, cechyDefinicja repozytorium wiedzy, cechy

Techniki SI w repozytoriach wiedzy

Przetwarzanie obrazów

Analiza treści i przetwarzanie języka naturalnego

Przykłady repozytoriów – projekty Neurosoft

Sztuczna Inteligencja - innowacyjne rozwiązania 2

Przykłady repozytoriów – projekty Neurosoft

Prawo, Normy, Patenty, KsiąŜki

Page 3: Neurobook - Inteligentne repozytoria wiedzy

Definicja

Repozytorium (łac. Repositorium) – miejsce Repozytorium (łac. Repositorium) – miejsce uporządkowanego przechowywania dokumentów, z których wszystkie są przeznaczone do udostępniania, zaprojektowane w taki sposób, aby dostęp do wszystkich jego zasobów był równie łatwy.

Repozytorium wiedzy – repozytorium dokumentów z określonej dziedziny, wyposaŜone w specyficzne dla tej

Sztuczna Inteligencja - innowacyjne rozwiązania 3

z określonej dziedziny, wyposaŜone w specyficzne dla tej dziedziny mechanizmy ułatwiające dostęp do informacji, lub/i mechanizmy syntezujące dodatkowe informacje na bazie treści przechowywanych dokumentów.

Page 4: Neurobook - Inteligentne repozytoria wiedzy

Cechy repozytorium wiedzy

Kompletność – chronologiczna, tematyczna, etc...Kompletność – chronologiczna, tematyczna, etc...

Aktualność – nowe dane mogą zmieniać stare

Powiązania – odwzorowane relacje między danymi

Przeszukiwalność – FTS, taksonomie

Sztuczna Inteligencja - innowacyjne rozwiązania 4

Dostępność – postać cyfrowa, Internet, PDA, ePapier

Page 5: Neurobook - Inteligentne repozytoria wiedzy

SI w repozytoriach wiedzy

Na etapie opracowywania zawartościNa etapie opracowywania zawartości

OCR – digitalizacja dokumentów drukowanych

Strukturalizacja treści dokumentów

Automatyczne wykrywanie powiązań

Normalizacja tekstu na potrzeby wyszukiwania

Sztuczna Inteligencja - innowacyjne rozwiązania 5

Klasyfikacja dokumentów – miejsce w taksonomii

Generowanie streszczeń

Synteza nowych faktów, ontologie

Page 6: Neurobook - Inteligentne repozytoria wiedzy

SI w repozytoriach wiedzy (cd)

Na etapie eksploatacjiNa etapie eksploatacji

Analiza zapytań (np. normalizacja)

Korekta zapytań (ang. „Did you mean ... ?”)

Uszczegóławianie zapytań (ang. „Suggest ...”)

Wyszukiwanie semantyczne

Sztuczna Inteligencja - innowacyjne rozwiązania 6

Systemy dialogowe, konwersacja

Page 7: Neurobook - Inteligentne repozytoria wiedzy

Własny OCR – dlaczego ?

Zła jakość oryginału Wysokie wymaganiaZła jakość oryginału Wysokie wymagania

Sztuczna Inteligencja - innowacyjne rozwiązania 7

Page 8: Neurobook - Inteligentne repozytoria wiedzy

Normalizacja tekstu – Gram

Sztuczna Inteligencja - innowacyjne rozwiązania 8

prezentacja on-line

Page 9: Neurobook - Inteligentne repozytoria wiedzy

Projekty Neurosoftu

Neurolex – całe prawodawstwo polskie i UE

realizacja od 2001 r. do dzisiaj (C.H.Beck Sp. z o.o.)

Neuronorm – Polskie Normy

realizacja od 2004 r. do dzisiaj (ArsBoni Sp. z o.o.)

Neuropat – patenty i wzory uŜytkowe

Sztuczna Inteligencja - innowacyjne rozwiązania 9

realizacja 2008 r. (Urząd Patentowy RP)

Neurolib – czytelnia internetowa

realizacja 2008 r.

Page 10: Neurobook - Inteligentne repozytoria wiedzy

Neurolex

„Papier -> XML + obraz”

Całe prawo PL i UE (bez lokaln.)

928 tys. stron oryginałów

282 tys. dokumentów

57,5 tys. XML-i z treścią

Pełna struktura aktu w XML

Sztuczna Inteligencja - innowacyjne rozwiązania 10

Pełna struktura aktu w XML

Odesłania i cytowania

Przetwarzanie – codziennie kilkaset stron

Legalis – system informacji prawnej

Page 11: Neurobook - Inteligentne repozytoria wiedzy

Neuronorm

Wszystkie Polskie Normy

Źródło = papier + PDF + HTML

Dokument = obraz + metryka

Taksonomia ICS

583 tys. stron on-line

~33 tys. dokumentów on-line

Sztuczna Inteligencja - innowacyjne rozwiązania 11

~33 tys. dokumentów on-line

~70 tys. metryk dokumentów

DRM do ochrony kopiieNormy.pl – Polskie Normy On-line

Integram – Polskie Normy na CD

Page 12: Neurobook - Inteligentne repozytoria wiedzy

Neuropat

Polskie patenty i wzory uŜytkowe

Lata 1924-1991

~780 tys. stron

154 tys. patentów, 5 tys. wzorów

Taksonomia IPC

Źródło = papier

Sztuczna Inteligencja - innowacyjne rozwiązania 12

Źródło = papier

Wynik = PDF + txt + metryka

Wykryte spisy treści

Page 13: Neurobook - Inteligentne repozytoria wiedzy

Neurolib

Czytelnia ksiąŜek on-line

Źródło = papier lub PDF

Dokument = obraz + tekst

Wyszukiwanie pełnotekstowe z fleksyjnym podświetlaniem wyników

Technologia Java (applet)

Sztuczna Inteligencja - innowacyjne rozwiązania 13

Technologia Java (applet)

Strukturalizacja wg spisu treści

Synteza mowy

Dostęp = PC, telefon, ePapierCzytaj24.pl – czytelnia internetowa

Page 14: Neurobook - Inteligentne repozytoria wiedzy

Dziękuję za uwagę

Sztuczna Inteligencja - innowacyjne rozwiązania 14