OCR – koniec prepisovaniu dokumentov
Máte kópiu skrípt alebo iného dokumentu, no chýba vám ich elektronická podoba? Pokiaľ si myslíte, že vám nezostáva nič iné, než všetky texty zdĺhavo prepisovať a naformátovať, ste na omyle. Z roka na rok sa totiž zlepšujú technologické možnosti tzv. OCR nástrojov. Že netušíte, o čo ide?
OCR
Optical Character Recognition (Optické rozpoznávanie znakov) je technológia, ktorá je schopná automaticky prečítať neskenovaný alebo vyfotený text a previesť ho do digitálnej, ďalej editovateľnej, podoby. OCR je vo vývoji od začiatku dvadsiateho storočia a s každým rokom dochádza k zvyšovaniu úspešnosti a znižovaniu operačného času celého procesu. Rovnako ako pri iných rozpoznávacích metódach (obraz a zvuk) je aj princíp činnosti týchto nástrojov náročný a ťažko uchopiteľný. V súčasnosti však môžeme hovoriť o spoľahlivej službe, ktorá dokáže ušetriť desiatky hodín strávených pri prepisovaní a formátovaní textu.
Na čom závisí úspešnosť OCR?
Správne rozpoznanie tlačeného textu závisí na niekoľkých faktoroch. Fotografia alebo scan musia byť predovšetkým dostatočne kvalitné. Čím kvalitnejšia je predloha, tým je prevod úspešnejší a výsledok obsahuje menej chýb (najmä pri horšie rozpoznateľných znakoch m vs. n, č vs. š). Minimálne odporúčané rozlíšenie je 150 dpi, ide ale o skutočné minimum, ktoré nemusí zaručiť efekt.
Úspešnosť je tiež závislá na veľkosti medzier medzi písmenami. Ak je text príliš hustý, rozpoznanie bude náročnejšie.
Ďalším dôvodom vzniku chýb je nízky kontrast. Vyblednuté písmo na zažltnutom alebo farebnom pozadí je naozaj tvrdým orieškom aj pre najdokonalejšie OCR nástroje.
Rozostrenie fotografie predstavuje veľký problém. Spôsobuje ho nedostatok svetla alebo rôzne pokrivenie fotenej predlohy (napr. zahnuté okraje strán na vnútornej časti väzby).
OCR programy zadarmo
Na rozpoznávanie textu môžete použiť niekoľko rôznych nástrojov, od on-line aplikácií, až po komplexné desktopové programy. V nasledujúcom prehľade sa budeme venovať dvom najobľúbenejším off-line nástrojom, ktoré môžete bezplatne aplikovať na vaše dokumenty.
ABBYY FineReader
FineReader je zástupcom pomerne malej skupiny naozaj profesionálnych riešení určených na prevod fotiek, obrázkov alebo scanov. Jeho sila spočíva v premyslenom systéme, ktorý stojí na troch základných pilieroch. Obraz je najprv podľa rozpoznateľnej štruktúry rozdelený na tri časti. Tie sa ďalej rozčlenia na jednotlivé slová a písmená. Keď je text rozložený na najmenšie elementy, prebehne samotné rozpoznávanie a následné porovnávanie celých slov so slovníkom. Po výbere najvhodnejšieho riešenia je text spätne zložený. Ďalší pilier je zameraný na účelnosť. Každý text totiž má svoj účel, ktorý treba pri prevode zohľadniť. Posledným a veľmi dôležitým prvkom je prispôsobivosť. Program sa musí učiť z vlastnej práce. Celý proces je teda simuláciou ľudského vnímania textu a pokúša sa mu čo najviac priblížiť.
- Program zachováva rozloženie textu a jeho štýl
- Slovníková podpora 36 jazykov
- Priame ukladanie do .doc, .rtf, .pdf, .txt a ďalších formátov
- Spracovanie fotografií v rôznych formátoch a .pdf súboroch
- Uchováva tabuľky, obrázky a iné štruktúry
- Integrovaná kontrola pravopisu
- Rozpozná viacjazyčný obsah dokumentu
PDF-XChange Viewer
Ďalším z mála skutočne kvalitných OCR nástrojov je PDX-XChange Viewer. Hoci je primárne určený na prehliadanie a editáciu .pdf dokumentov, disponuje pokročilými funkciami na strojové rozpoznávanie textu. Výborne si poradí aj so slovenskými znakmi a umožňuje prvotriedne spracovanie .pdf súborov.
Program môžete získať v dvoch verziách. Free variant je úplne zadarmo, no text dokáže rozpoznávať len z formátu .pdf (scanované súbory). Verzia Pro okrem práce s .pdf (scan dokáže rovno previesť do editovateľnej podoby) zvláda aj prácu s bežnými obrázkovými formátmi.
- Podpora slovenčiny pri rozpoznávaní textu
- Výborné možnosti práce s .pdf (editácia, vkladanie poznámok, el. podpis)
- OCR priamo pri scanovaní
- Free verzia – veľmi kvalitné bezplatné OCR
- Pro verzia – profesionálny variant s rozšírenou funkcionalitou
Diskusia