Оптическое распознавание текста (optical character recognition) – перевод последовательности изображений символа в последовательность кодов, которые можно обрабатывать в текстовых редакторах. Конвертация происходит с помощью OCR – приложений, после преобразования изображения в набор элементарных квадратных точек (растров).
По сравнению с обычным набором, распознавание текста позволяет значительно сэкономить время. Особенно при больших объемах документов.
В процессе распознавания текста, программа в начале выделяет строки. Это нужно для последующего выделения и распознавания символов. Выделенные символы сравниваются с эталонными образцами (шрифтами), из которых выбираются наиболее схожие. Также в программу заложены словари и грамматика языков. При распознавании происходит анализ цельных слов и предложений. Это, в свою очередь, значительно улучшает качество конвертации.
OCR – программы, иначе говоря «распознавалки», подразделяются по трем направлениям: распознавание рукописного, рукопечатного и печатного текста. Количество возможных вариантов начертания символов рукописного текста бесконечно много. Из-за этого распознать рукописный текст крайне сложно. Тексты, написанные печатными буквами и цифрами от руки, обрабатываются легче. При этом точность достигает до 80-90%. Конечно же, самая большая точность у печатных текстов. При чистых, качественных изображениях правильно распознаётся 99,5-99,8% текста.
Оптическое распознавание текста улучшается, при предварительной обработке текста. Основные из них: 1)удаление зашумления изображения; 2)очистка «мусора» (лишних точек); 3)обрезка ненужных краёв; 4)подбор оптимального баланса яркости.
На сегодняшний день OCR – программы ABBYY FineReader (компания ABBYY Software House) и OmniPage Pro (компания ScanSoft) являются лидерами на мировом рынке. Кроме этих программ есть другие, имеющие свои особенности: Readiris (может распознавать азиатские и средне-восточные языки), Zonal OCR (помогает автоматизировать извлечение данных из изображений), CuneiForm (распознаёт запутанные таблицы и сохраняет форматирование текста), FineReaderOnline.ru (online OCR сервис), OnlineOCR.ru (online OCR сервис), NewOCR.com (online OCR сервис).