利用マニュアル - ntt-east.co.jp...② OCRエンジンによる文字認識、手入力による文字入力(エントリー作業)。 ③ データ読取エラーまたは入力ミスに対するデータ修正(ベリファイ作業)
OCR
-
Upload
alicja-pitula -
Category
Technology
-
view
3.067 -
download
3
description
Transcript of OCR
Kinga DudzicAgata Wajda
Agnieszka Gurgul
OPROGRAMOWANIE OCROPROGRAMOWANIE OCR
Oprogramowanie OCR umożliwia odczytywanie
informacji z papieru i przełożenie jej na język
zrozumiały dla przeciętnego komputera.
OCR (Optical Character Recognition- optyczne rozpoznawanie znaków).
www.aurorabarcode.com/ OCR_Systems.htm
OCR – aplikacje do rozpoznawania tekstu, OCR – aplikacje do rozpoznawania tekstu, przegląd. przegląd.
Początkowo był to stosunkowo prosty, sprzętowy mechanizm polegający na
porównywaniu pojedynczych liter z ich odpowiednikami na liście wzorców. W
połowie lat sześćdziesiątych wprowadzone zostały w tym celu dwa znormalizowane
zestawy znaków: OCR-A i OCR-B.
OCR-A i OCR-BOCR-A i OCR-BW praktyce oznacza to, że każda litera A, B lub C jest
identyfikowana tylko wówczas, gdy wygląda identycznie jak odpowiadający jej znak wzorcowy.
W przeciwnym wypadku litera taka będzie ignorowana bądź sygnalizowana jako błąd. Później na rynku pojawiły się bardziej
zaawansowane urządzenia odczytujące, które oprócz znaków OCR-A i OCR-B potrafiły także
rozpoznać standardowe pisma maszynowe. Nadal jednak do tego celu była wykorzystywana technika "porównywania ze wzorcem" (Matrix Matching), polegająca na porównywaniu rozpoznawanego znaku z zapamiętanym, matrycowym wzorcem
czcionki.
Obecnie rozpoznawaniem znaków zajmuje się nowocześniejszy system ICR (Intelligent Character
Recognition).
Etapy skanowania oprogramowaniem ICR:
1. Wstępne przetwarzanie obrazu strony (Preprocessing),
2. Segmentacja (Atto Zoning lub Page Decomposition),
3. Rozpoznawanie znaków (Charter Recognition),
4. Analiza językowa (Language Analysis).
Etapy skanowania oprogramowaniem ICR:
1. Wstępne przetwarzanie obrazu strony (Preprocessing),
2. Segmentacja (Atto Zoning lub Page Decomposition),
3. Rozpoznawanie znaków (Charter Recognition),
4. Analiza językowa (Language Analysis).
http://www.retetesauro.net/immagini/ICR.jpg
WSTĘPNE ROZPOZNAWANIE OBRAZU WSTĘPNE ROZPOZNAWANIE OBRAZU STRONYSTRONY Pierwszy etap to wstępne
przetworzenie obrazu strony (Preprocessing). Na tym etapie
automatycznie wykrywana i korygowana jest orientacja tekstu na
stronie - program sprawdza, czy wydruk nie został włożony do skanera "do góry nogami”. Program ustala, czy ma do czynienia z drukiem "czarno na
białym", czy też wydruk jest negatywem - białe litery na czarnym tle.
SEGMENTACJASEGMENTACJA W trakcie segmentacji (Atto Zoning lub Page
Decomposition), program automatycznie wykrywa te fragmenty obrazu, które warto rozpoznawać. Rezultatem tej operacji jest
wyróżnienie w obrazie dokumentu obszarów zawierających tekst, grafikę, zdjęcia lub,
tabele. Dodatkowo ustalana jest kolejność obszarów tekstowych, tak aby wynik
rozpoznawania jak najdokładniej odzwierciedlał logiczny porządek tekstu w
skanowanym dokumencie. Regułą jest to, że użytkownik może manualnie skorygować
rezultat segmentacji.
ROZPOZNAWANIE ZNAKÓWROZPOZNAWANIE ZNAKÓW Kolejny etap to rozpoznawanie znaków
(Character Recognition). Podczas rozpoznawania obraz dokumentu, wiersz po wierszu, znak po znaku, zamieniany jest na
tekst. Nowoczesne programy ICR wykorzystują co najmniej dwie, równolegle
działające metody konwersji obrazu na znaki, a ostateczny rezultat tejże konwersji weryfikuje i ustala specjalny system
ekspertowy.
ANALIZA JĘZYKOWAANALIZA JĘZYKOWA Ostatnim krokiem jest analiza językowa
(Language Analysis). W prostszych systemach OCR analiza językowa jest
całkowicie oddzielona od etapu rozpoznawania znaków i sprowadza się do wykrywania literówek (Spell Checking) na
podstawie słownictwa wybranego języka. W programach ICR algorytmy analizy językowej
uczestniczą w rozpoznawaniu znaków i pełnią funkcję ekspertów przejmujących odpowiedzialność za ostateczny wynik, a wykorzystują do tego wiedzę zarówno o
słownictwie, jak i o gramatyce.
PODSUMOWANIEPODSUMOWANIENajnowszej generacji oprogramowanie do skanerów potrafi samodzielnie rozpoznać
rodzaj skanowanego dokumentu, dopasowuje na bieżąco tryb pracy i automatycznie
koryguje tryb pracy urządzenia. Najbardziej wyrafinowane sterowniki potrafią nawet
automatycznie tak dobierać rozdzielczość, aby nie pojawiały się zakłócenia w obrazie
skanowanego dokumentu, charakterystyczne przy transformacji danych z postaci
analogowej na cyfrową.
BIBLIOGRAFIABIBLIOGRAFIA1. http://republika.pl/pracownia3d/skanowanie.htm2. http://www.quedex.com/show.php?prod=135&firm=293. Prezentacja- Mirosława Mortki WT-INFORMATYKA
2000/20014. http://www.ssi.civ.pl/data/rozdzielczosc.php5. www.twojepc.pl/artykuly.php?
id=plustek_opticpro_s...
1. http://republika.pl/pracownia3d/skanowanie.htm2. http://www.quedex.com/show.php?prod=135&firm=293. Prezentacja- Mirosława Mortki WT-INFORMATYKA
2000/20014. http://www.ssi.civ.pl/data/rozdzielczosc.php5. www.twojepc.pl/artykuly.php?
id=plustek_opticpro_s...