Распознавание текста

Оптическое распознавание текста (optical character recognition) – перевод последовательности изображений символа в последовательность кодов, которые можно обрабатывать в текстовых редакторах. Конвертация происходит с помощью OCR – приложений, после преобразования изображения в набор элементарных квадратных точек (растров).

По сравнению с обычным набором, распознавание текста позволяет значительно сэкономить время. Особенно при больших объемах документов.

В процессе распознавания текста, программа в начале выделяет строки. Это нужно для последующего выделения и распознавания символов. Выделенные символы сравниваются с эталонными образцами (шрифтами), из которых выбираются наиболее схожие. Также в программу заложены словари и грамматика языков. При распознавании происходит анализ цельных слов и предложений. Это, в свою очередь, значительно улучшает качество конвертации.

OCR – программы, иначе говоря «распознавалки», подразделяются по трем направлениям: распознавание рукописного, рукопечатного и печатного текста. Количество возможных вариантов начертания символов рукописного текста бесконечно много. Из-за этого распознать рукописный текст крайне сложно. Тексты, написанные печатными буквами и цифрами от руки, обрабатываются легче. При этом точность достигает до 80-90%. Конечно же, самая большая точность у печатных текстов. При чистых, качественных изображениях правильно распознаётся 99,5-99,8% текста.

Оптическое распознавание текста улучшается, при предварительной обработке текста. Основные из них: 1)удаление зашумления изображения; 2)очистка «мусора» (лишних точек); 3)обрезка ненужных краёв; 4)подбор оптимального баланса яркости.

На сегодняшний день OCR – программы ABBYY FineReader (компания ABBYY Software House) и OmniPage Pro (компания ScanSoft) являются лидерами на мировом рынке. Кроме этих программ есть другие, имеющие свои особенности: Readiris (может распознавать азиатские и средне-восточные языки), Zonal OCR (помогает автоматизировать извлечение данных из изображений), CuneiForm (распознаёт запутанные таблицы и сохраняет форматирование текста), FineReaderOnline.ru (online OCR сервис), OnlineOCR.ru (online OCR сервис), NewOCR.com (online OCR сервис).

ABBYY FineReader

ABBYY FineReader ABBYY FineReader - лидер в отрасли программ, распознающих текст. Она очень распространена, и распространена заслуженно. отличное качество распознавания. минимальное количество сбоев, распознавание иллюстраций и таблиц, распознавание с переводом в HTML, наконец распознавание в PDF - вот неполный список достоинств программы, дающих ей право называться лучшей в своём классе. К применению крайне рекомендуется, единственный недостаток - большая цена лицензии.
Лицензия Платная · Дата 13 сентября 2010 г.

CuneiForm

CuneiForm OCR CuneiForm – свободно распространяемый программный продукт для распознавания текстовых документов от ведущего российского разработчика программного обеспечения компании Cognitive Technologies. Программа является отличной альтернативой такой широко известной программе как ABBYY FineReader. CuneiForm обладает рядом уникальных функций, к примеру, функцией адаптивного распознавания текста. Программа проста в использовании, процесс распознавания максимально автоматизирован. Если вам нужна мощная бесплатная OCR-программа, то CuneiForm как раз для вас.
Лицензия Open source · Дата 4 октября 2010 г.