Ontology-Based Information Extraction:

9
Ontology-Based Information Extraction: Marcin Bialek

description

Ontology-Based Information Extraction:. Marcin Bialek. Internet dzisiaj. Explozja danych 45 GB danych produkowanych przez każdą osobę na świecie 988,000,000,000,000,000,000 bajtów danych dostępnych w sieci w 2010 60% wzrostu rocznie - PowerPoint PPT Presentation

Transcript of Ontology-Based Information Extraction:

Page 1: Ontology-Based Information Extraction:

Ontology-Based Information Extraction:

Marcin Bialek

Page 2: Ontology-Based Information Extraction:

Explozja danych◦ 45 GB danych produkowanych przez każdą osobę

na świecie◦ 988,000,000,000,000,000,000 bajtów danych

dostępnych w sieci w 2010◦ 60% wzrostu rocznie◦ 1,800,000,000,000,000,000,000 (1,800 Exa

Bajtów) bajtów danych będzie dostępnych na koniec 2011 (zgodnie z danymi IDC statistics)

Internet dzisiaj

Page 3: Ontology-Based Information Extraction:

Sieć 2.0 Sieć pełna danych generowanych przez

użytkownika◦ Szacuje się że na koniec roku 2013, 155 milionów

użytkowników (tylko w USA) będzie używać danych stworzonych przez innych.

◦ 115 milionów użytkowników będzie aktywnie tworzyło zasoby WWW.

◦ Wzrost dzielenia się danymi jest obecnie 15 razy większy niż wzrost ilości pobieranych danych

Internet dzisiaj (2)

Page 4: Ontology-Based Information Extraction:

"...Search today is still kind of a hunt, where you get all these links, and as we teach software to understand the documents, really read them in the sense a human does, you will get answers more directly..." - Bill Gates.

Wyszukiwanie

Page 5: Ontology-Based Information Extraction:

Zapytanie: „Which Nobel prize winners were born before Albert Einstein?”

Google - 24,600,000 rezultatów:- Albert Einstein – Biography- Albert Einstein - Wikipedia, the free encyclopedia- Jewish Nobel Prize Winners in Physics- Nobel Prize Winners Hate School (Learn in Freedom!)- HHF Factpaper: Jewish Nobel Prize Winners; Part II: Physics

Dlaczego?Ponieważ zapytania w google są wykonywane na podstawie słów kluczowych a nie ich semantyki.

Wyszukiwarka Google

Page 6: Ontology-Based Information Extraction:

Idea Web 3.0 – Tim Berners Lee. Semantyczna ekstrakcja informacji.

Rozwiązanie problemu niedokładnych informacji

Page 7: Ontology-Based Information Extraction:

Redukcja informacji w dokumencie pozwalająca na przekształcenie go do formatu zrozumiałego przez maszyny.

Ściśle powiązane z rozpoznawaniem języka naturalnego.

Coraz więcej ludzi widzi w EI nie tylko narzędzie do bezmyślnej analizy tekstu, lecz kompleksowe rozwiązanie dostarczające semantycznych danych.

Ekstrakcja Informacji

Page 8: Ontology-Based Information Extraction:

Zapytanie: „Which Nobel prize winners were born before Albert Einstein?”

Yago - 1 rezultat- Johannes_Stark (15 April 1874 – 21 June 1957) was a German physicist, and Physics Nobel Prize laureate who was closely involved with the Deutsche Physik movement under the Nazi regime.

Yago vs. Google

Page 9: Ontology-Based Information Extraction:

Typical OBIE Architecture