OCR

11
Kinga Dudzic Agata Wajda Agnieszka Gurgul

description

 

Transcript of OCR

Page 1: OCR

Kinga DudzicAgata Wajda

Agnieszka Gurgul

Page 2: OCR

OPROGRAMOWANIE OCROPROGRAMOWANIE OCR

Oprogramowanie OCR umożliwia odczytywanie

informacji z papieru i przełożenie jej na język

zrozumiały dla przeciętnego komputera.

OCR (Optical Character Recognition- optyczne rozpoznawanie znaków).

www.aurorabarcode.com/ OCR_Systems.htm

Page 3: OCR

OCR – aplikacje do rozpoznawania tekstu, OCR – aplikacje do rozpoznawania tekstu, przegląd. przegląd.

Początkowo był to stosunkowo prosty, sprzętowy mechanizm polegający na

porównywaniu pojedynczych liter z ich odpowiednikami na liście wzorców. W

połowie lat sześćdziesiątych wprowadzone zostały w tym celu dwa znormalizowane

zestawy znaków: OCR-A i OCR-B.

Page 4: OCR

OCR-A i OCR-BOCR-A i OCR-BW praktyce oznacza to, że każda litera A, B lub C jest

identyfikowana tylko wówczas, gdy wygląda identycznie jak odpowiadający jej znak wzorcowy.

W przeciwnym wypadku litera taka będzie ignorowana bądź sygnalizowana jako błąd.    Później na rynku pojawiły się bardziej

zaawansowane urządzenia odczytujące, które oprócz znaków OCR-A i OCR-B potrafiły także

rozpoznać standardowe pisma maszynowe. Nadal jednak do tego celu była wykorzystywana technika "porównywania ze wzorcem" (Matrix Matching), polegająca na porównywaniu rozpoznawanego znaku z zapamiętanym, matrycowym wzorcem

czcionki.

Page 5: OCR

Obecnie rozpoznawaniem znaków zajmuje się nowocześniejszy system ICR (Intelligent Character

Recognition).

Etapy skanowania oprogramowaniem ICR:

1. Wstępne przetwarzanie obrazu strony (Preprocessing),

2. Segmentacja (Atto Zoning lub Page Decomposition),

3. Rozpoznawanie znaków (Charter Recognition),

4. Analiza językowa (Language Analysis).

Etapy skanowania oprogramowaniem ICR:

1. Wstępne przetwarzanie obrazu strony (Preprocessing),

2. Segmentacja (Atto Zoning lub Page Decomposition),

3. Rozpoznawanie znaków (Charter Recognition),

4. Analiza językowa (Language Analysis).

http://www.retetesauro.net/immagini/ICR.jpg

Page 6: OCR

WSTĘPNE ROZPOZNAWANIE OBRAZU WSTĘPNE ROZPOZNAWANIE OBRAZU STRONYSTRONY    Pierwszy etap to wstępne

przetworzenie obrazu strony (Preprocessing). Na tym etapie

automatycznie wykrywana i korygowana jest orientacja tekstu na

stronie - program sprawdza, czy wydruk nie został włożony do skanera "do góry nogami”. Program ustala, czy ma do czynienia z drukiem "czarno na

białym", czy też wydruk jest negatywem - białe litery na czarnym tle.

Page 7: OCR

SEGMENTACJASEGMENTACJA W trakcie segmentacji (Atto Zoning lub Page

Decomposition), program automatycznie wykrywa te fragmenty obrazu, które warto rozpoznawać. Rezultatem tej operacji jest

wyróżnienie w obrazie dokumentu obszarów zawierających tekst, grafikę, zdjęcia lub,

tabele. Dodatkowo ustalana jest kolejność obszarów tekstowych, tak aby wynik

rozpoznawania jak najdokładniej odzwierciedlał logiczny porządek tekstu w

skanowanym dokumencie. Regułą jest to, że użytkownik może manualnie skorygować

rezultat segmentacji.

Page 8: OCR

ROZPOZNAWANIE ZNAKÓWROZPOZNAWANIE ZNAKÓW Kolejny etap to rozpoznawanie znaków

(Character Recognition). Podczas rozpoznawania obraz dokumentu, wiersz po wierszu, znak po znaku, zamieniany jest na

tekst. Nowoczesne programy ICR wykorzystują co najmniej dwie, równolegle

działające metody konwersji obrazu na znaki, a ostateczny rezultat tejże konwersji weryfikuje i ustala specjalny system

ekspertowy.

Page 9: OCR

ANALIZA JĘZYKOWAANALIZA JĘZYKOWA Ostatnim krokiem jest analiza językowa

(Language Analysis). W prostszych systemach OCR analiza językowa jest

całkowicie oddzielona od etapu rozpoznawania znaków i sprowadza się do wykrywania literówek (Spell Checking) na

podstawie słownictwa wybranego języka. W programach ICR algorytmy analizy językowej

uczestniczą w rozpoznawaniu znaków i pełnią funkcję ekspertów przejmujących odpowiedzialność za ostateczny wynik, a wykorzystują do tego wiedzę zarówno o

słownictwie, jak i o gramatyce.

Page 10: OCR

PODSUMOWANIEPODSUMOWANIENajnowszej generacji oprogramowanie do skanerów potrafi samodzielnie rozpoznać

rodzaj skanowanego dokumentu, dopasowuje na bieżąco tryb pracy i automatycznie

koryguje tryb pracy urządzenia. Najbardziej wyrafinowane sterowniki potrafią nawet

automatycznie tak dobierać rozdzielczość, aby nie pojawiały się zakłócenia w obrazie

skanowanego dokumentu, charakterystyczne przy transformacji danych z postaci

analogowej na cyfrową.

Page 11: OCR

BIBLIOGRAFIABIBLIOGRAFIA1. http://republika.pl/pracownia3d/skanowanie.htm2. http://www.quedex.com/show.php?prod=135&firm=293. Prezentacja- Mirosława Mortki WT-INFORMATYKA

2000/20014. http://www.ssi.civ.pl/data/rozdzielczosc.php5. www.twojepc.pl/artykuly.php?

id=plustek_opticpro_s...

1. http://republika.pl/pracownia3d/skanowanie.htm2. http://www.quedex.com/show.php?prod=135&firm=293. Prezentacja- Mirosława Mortki WT-INFORMATYKA

2000/20014. http://www.ssi.civ.pl/data/rozdzielczosc.php5. www.twojepc.pl/artykuly.php?

id=plustek_opticpro_s...