Преподаватель который помогает студентам и школьникам в учёбе.

Технологии распознавания текстов (Основные понятия и определения теории распознавания текста.)

Содержание:

Введение.

В настоящее время большинство документов составляется на компьютерах. Существующие системы электронного документооборота охватывают деятельность организаций. Задача перевода информации с бумажных на электронные носители актуальна не только в рамках потребностей, возникающих в системах документооборота.

Современные информационные технологии позволяют нам существенно упростить доступ к информационным ресурсам, накопленным человечеством, при условии, что они будут переведены в электронный вид. Наиболее простым и быстрым является сканирование документов с помощью сканеров. Результат работы является цифровое изображение документа – графический файл. Более предпочтительным, по сравнению с графическим, является текстовое представление информации. Этот вариант позволяет существенно сократить затраты на хранение и передачу информации, а также позволяет реализовать все возможные сценарии использования и анализа электронных документов.

Область применения распознавания полноценных изображений многогранна. Например, на современных заводах контроль качества производимой продукции производят с использованием систем распознавания, которые отсеивают брак. Распознавание полноценных изображений применяется на дорогах, для определения и распознавания номеров автомобилей, контроль их скорости. Обработка изображений актуальна и при анализе снимков из космоса и с самолётов.

Таким образом, область применения распознавания изображений широка и многогранна и позволяет намного сократить и упростить рабочий процесс и вместе с тем повысить его качество.

Основные понятия и определения теории распознавания текста.

Распознавание символов – это операция преобразования текстовой информации из графических форматов данных в текстовые. Применяется для ввода текстов в компьютер посредством сканирования печатного или рукописного материала.

Распознавание текста является одним из направлений распознавания образов. Распознавание образов представляет собой очень сложную задачу в теоретическом и практическом смыслах, несмотря на то, что с ней достаточно легко справляются многие живые организмы и человек. Крайне сложно создать искусственную систему и ее технически реализовать для того, чтобы эффективно выполнять данный процесс. В данном случае, под распознаванием понимается соотнесение изображения объекта, его образа, набора признаков самому объекту.

Примерами и приложениями систем распознавания образов могут являться как распознавание текста в общем, так и отдельных его символов, распознавание речи, человеческих лиц, биометрических данных человека, штрих-кодов продуктов, номеров машин и т.д.

Примерами распознавания текста являются: оцифровка изображений текста (сканированные книги, статьи, журналы) для последующей работы с его цифровым аналогом, обработка анкетных бланков, распознавание номеров машин и надписей на объектах и т.д.

Задача распознавания текста остается актуальной на сегодняшний день, так как не существует стопроцентной универсальной системы по распознаванию текста. Система распознавания текста предполагает наличие на входе изображения с текстом (в формате данных графического файла). На выходе системы должен сформироваться текст, выделенный из этого изображения.

Распознавание текста включает в себя следующие подзадачи и подпроцессы:

Поступающее на вход системы изображение должно быть очищено от шума и приведено к виду, позволяющему эффективно выделять символы и распознавать их.
Система должна разбить изображение на блоки текста, основываясь на особенностях его выравнивания и распределения по нескольким колонкам.
Изображение с текстом должно быть разделено на изображения строк, а затем на изображения символов для того, чтобы в дальнейшем обработать каждый символ по отдельности. После данного шага разные системы распознавания работают по своим специфическим алгоритмам.
Изображение символа может обрабатываться целиком, для этого оно сравнивается с имеющимися шаблонами. Другим вариантом является выделение характеристик изображаемого символа: отбор характерных признаков, и классификация данных признаков по имеющимся в системе критериям.

На выходе четвертого шага появляется возможный вариант буквы. Однако обычно системы на этом не останавливаются и продолжают работу на основе других методов, уточняя полученный результат.

Результат распознавания может быть не удовлетворительным. Для получения более хороших результатов в системе может быть встроен блок обучения. С помощью этого блока можно задать системе примеры начертания разных букв в данном шрифте. После процесса обучения предполагается лучшее качество распознавания текста.

Система распознавания текста не всегда должна следовать всем описанным шагам, но основные действия процесса распознавания являются общими для любого алгоритма.

Технология оптического распознавания символов.

Оптическое распознавание символов (OCR) — это механический или электронный перевод изображений рукописного, машинописного или печатного текста в последовательность кодов, использующихся для представления в текстовом редакторе.

Распознавание широко используется для конвертации книг и документов в электронный вид, для автоматизации систем учета в бизнесе или для публикации текста на веб-странице. Оптическое распознавание текста позволяет редактировать текст, осуществлять поиск слова или фразы, хранить его в более компактной форме, демонстрировать или распечатывать материал, не теряя качества, анализировать информацию, а также применять к тесту электронный перевод, форматирование или преобразование в речь.

Технология сканирования.

Сканирование - процесс оцифровки аналогового изображения (документ, фотография, иллюстрация, слайд) при помощи специального устройства, называемого сканером. Сканирование производится для получения, на основе оригинала, его цифрового «портрета», пригодного для компьютерной обработки.

Сканер - оптико-электронное устройство для ввода в компьютер графических изображений. Сканер создает оцифрованное изображение документа и помещает его в память компьютера.

Для работы с архивными документами используются, в основном, черно-белые и полутоновые монохромные сканеры. Это связано в первую очередь, с тем, что преобладающим типом архивного документа является текстовый документ, отпечатанный на монохромном принтере, с рукописным заполнением или правкой темными чернилами и эпизодически включающий печати, рисунки, схемы или черно-белые фотографии.

Необходимость в системах распознавания символов.

С помощью сканера достаточно просто получить изображение страницы текста в графическом файле. Но работать с текстом невозможно по определённым причинам:

Страница с текстом представляет собой графический файл - обычную картинку;
Текст нельзя редактировать и форматировать;
Необходимо преобразовать элементы графического изображения в последовательности текстовых символов.

Основной метод.

Основным методом перевода бумажных документов в электронную форму является сканирование:

В результате сканирования получается графическое изображение, состоящее из точек;
Количество точек определяется размером изображения и разрешением сканера.

Преобразование документа.

Преобразования документа в электронный вид происходит в три основных этапа:

Сканирование.
Сегментация и распознавание текста.
Проверка орфографии и передача текстового документа в нужное приложение для дальнейшей работы или сохранение в файл.

Каждый из этих этапов может выполняться программами как автоматически, так и под контролем пользователя.

Суть процесса распознавания.

Чтобы реализовать автоматический или автоматизированный перевод бумажных документов в электронный вид, необходимо выполнить сканирование бумажных документов и распознать их содержимое с помощью специальных программ, называемых системами оптического распознавания символов (Optical Character Recognition - OCR). Системы оптического распознавания символов предназначены для автоматического ввода печатных документов в компьютер. Обработка изображения OCR-системой включает в себя анализ графического изображения, переданного сканером, и распознавание каждого символа.

Процессы анализа макета страницы:

Определение областей распознавания.
Определение таблиц.
Определение картинок.
Выделение в тексте строк и отдельных символов.

OCR-системы могут достигать наилучшей точности распознавания (процент правильно распознанных символов) - свыше 99,9% для чистых изображений, составленных из обычных шрифтов. На первый взгляд такая точность распознавания кажется идеальной, но уровень ошибок все же удручает, потому что, если имеется приблизительно 1500 символов на странице, то даже при коэффициенте успешного распознавания 99,9 % получается одна или две ошибки на страницу. В таких случаях на помощь приходит метод проверки по словарю. То есть, если какого-то слова нет в словаре системы, то она по специальным правилам пытается найти похожее. Но это все равно не позволяет исправлять 100 % ошибок, что требует человеческого контроля результатов.

Точность распознавания падает за счет ошибок распознавания. Повышению точности распознавания способствует устранение причин ошибок.

Основные характеристики сканеров.

Разрешение (Resolution) - число точек или растровых ячеек, из которых формируется изображение, на единицу длины или площади. Чем больше разрешение устройства, тем более мелкие детали могут быть воспроизведены. Измеряется в «точках на квадратный дюйм» (DPI, dots per inch). Разрешение сканеров зависит от типа, модели, производителя, года выпуска.

Разрядность цвета (глубина цвета) - количество разрядов каждого пикселя в цифровом изображении, в т.ч. выдаваемом сканером. Описывает максимальное количество цветов, воспроизводимое сканером в виде степени числа 2. Одному разряду соответствует черно-белое изображение, 8-ми - серое полутоновое, 16-ти - цветное, 24-цветное изображение, наиболее близкое к человеческому восприятию (модель RGB), 36bit и больше - полноцветное изображение с высокой достоверностью цветопередачи, предназначенное для профессиональной работы, чаще всего в издательском деле.

Время сканирования. Измеряется в страницах в минуту (иногда - в секундах на изображение). Типовые значения различны для разных типов сканеров.

Формат. Формат сканируемого документа. Как правило - A3/A4.

Интерфейс передачи данных - способ подключения сканера к компьютеру. Способы могут быть различны (к COM или USB порту, к SCSI карте и др.).

Программы распознавания текста.

Преобразованием графического изображения в текст занимаются специальные программы распознавания текста (Optical Character Recognition - OCR).

Рассмотрим следующие программы распознавания текста:

ABBYY FineReader
OCR CuneiForm
WinScan2PDF
SimpleOCR
Freemore OCR
1. ABBYY FineReader - программа для оптического распознавания символов, разработанная российской компанией ABBYY.

Программа позволяет переводить изображения документов (фотографий, результатов сканирования, PDF-файлов) в электронные редактируемые форматы. В частности, в Microsoft Word, Microsoft Excel, Microsoft Powerpoint, Rich Text Format, HTML, PDF/A, searchable PDF, CSV и текстовые (plain text) файлы. Начиная с одиннадцатой версии файлы можно сохранять в формате djvu. Версия двенадцать поддерживает распознавание текста на сто девяноста языках и имеет встроенную проверку орфографии для сорока восьми из них.

FineReader безоговорочный лидер среди всех программ, распознающих текст на изображении.

Единственное обстоятельство, которое может разочаровать пользователей, состоит в том, что программа платная. Бесплатно распространяется только пробная версия на пятнадцать дней. За этот период разрешено сканирование пятидесяти страниц.

Достоинства: точное распознавание; огромное количество языков чтения; толерантность к качеству изображения-источника.

Недостаток: пробная версия на пятнадцать дней.

1. OCR CuneiForm.

CuneiForm (англ. cuneiform, кьюниформ - клинопись), Cognitive OpenOCR - свободно распространяемая открытая система оптического распознавания текстов российской компании Cognitive Technologies.

OCR CuneiForm была разработана компанией Cognitive Technologies как коммерческий продукт в 1993 году. Система поставлялась с наиболее популярными моделями сканеров, МФУ и ПО в России и мире: Corel Draw, Hewlet-Pachard, Epson, Xerox, Samsung, Brother, Mustek, OKI, Canon, Olivetti и др.

Особенности.

CuneiForm позиционируется как система преобразования электронных копий бумажных документов и графических файлов в редактируемый вид с возможностью сохранения структуры и гарнитуры шрифтов оригинального документа в автоматическом или полуавтоматическом режиме. Система включает в себя две программы для одиночной и пакетной обработки электронных документов. Поддерживается смесь русского и английского языка. Бесплатная программа для считывания текстовой информации с изображений. Точность распознавания на порядок ниже, чем у предыдущей рассматриваемой программы. Но как для бесплатной утилиты, функционал все-таки на высоте.

Программа может прочитать и сохранять шрифт распознаваемого текста. В базе шрифтов содержится большинство используемых печатных шрифтов. Поддерживается даже распознавание текста вышедшего из печатной машинки. Для обеспечения точности к процессу распознавания подключаются специальные словари, которые пополняют словарный запас из сканируемых документов.

Достоинства: бесплатное распространение; использование словарей для проверки правильности текста; сканирование текста с ксерокопий плохого качества.

Недостатки: относительно небольшая точность; небольшое количество поддерживаемых языков.

1. WinScan2PDF.

Это даже не полноценная программа, а утилита. Установка не потребуется, а исполнительный файл весит всего в несколько килобайт. Процесс распознавания происходит предельно быстро, правда, полученные в его результате документы сохраняются исключительно в формате PDF.

Фактически весь процесс выполняется при нажатии трех кнопок: выбор источника, места назначения и запуска программы. Утилита предназначена для быстрой пакетной обработки множества файлов. Для удобства пользователей предусмотрен большой языковой пакет интерфейса.

Достоинства: портативность; быстрая работа; простота в использовании.

Недостатки: единственный формат файлов на выходе.

1. SimpleOCR.

Отличная небольшая программа для распознавания текстов с изображений. Поддерживает даже чтение рукописей. Проблема в том, что русский не входит ни в языковой пакет интерфейса, ни в список поддерживаемых для распознавания языков.

Однако если необходимо отсканировать английский, датский или французский, то лучшего бесплатного варианта не найти.

В своей области программа обеспечивает точную расшифровку шрифтов, удаление шума и извлечение графических изображений. К тому же в интерфейс программы встроен текстовый редактор, практически идентичный WordPad, что значительно повышает удобство использования программы.

Достоинства: точное распознавание текста; удобный текстовый редактор; удаление шума с изображения.

Недостатки: полное отсутствие русского языка.

5. Freemore OCR.

Программа позволяет оперативно извлекать текст и графику с изображений. Софт поддерживает работу с несколькими сканерами без потери производительности. Извлеченный текст может быть сохранен в формате текстового документа или документа MS Office.

Кроме того предусмотрена функция многостраничного распознавания.

Распространяется Freemore OCR бесплатно, однако, интерфейс только на английском. Но это обстоятельство никак не влияет на удобство пользования, потому как организованы элементы управления интуитивно понятным образом.

Достоинства: бесплатное распространение; возможность работы с несколькими сканерами; достойная точность распознавания.

Недостатки: отсутствие русского языка в интерфейсе; необходимость загрузки русского языкового пакета для распознавания.

История развития программ ABBYY FineReader и OCR CuneiForm.

Наиболее распространенными программами являются: ABBYY FineReader и OCR CuneiForm.

Когда речь заходит о программах для распознавания символов, практически все русскоязычные пользователи уверенно заявляют: в этом секторе бесплатных альтернатив ABBYY FineReader нет.

Чтобы лучше понять нынешнее положение дел на рынке OCR-систем, необходимо вспомнить историю рассматриваемых программ.

Оптическое распознавание текста (англ. optical character recognition, OCR) - перевод последовательности изображений символа в последовательность кодов, использующихся для представления в текстовом редакторе. Перевод осуществляется с помощью различных алгоритмов, после преобразования изображения в набор элементарных точек.

Первые публичные версии обоих программ увидели свет в 1993 году. Именно тогда молодая компания BIT Software (будущая ABBY) выпустила систему распознавания символов FineReader 1.0, а только что созданная Cognitive Technologies выпускает шрифтонезависимую систему распознавания OCR CuneiForm и даже лицензирует её канадской Corel Corporation - для использования в пакете Corel Draw 3.0. Год спустя ABBY подписывает контракт с Recognita Corp. И начинает распространение FineReader в Европе и США, а также договаривается с компанией «Фитек» о комплектации поставляемых ею сканеров Logitech системой FineReader 2.0 Light.

Год 1996-й ознаменовался выпуском CuneiForm ’96, в которой впервые в мире применены алгоритмы адаптивного распознавания. А ABBY тем временем продала исходный код FineReader компании Samsung Electronics (корейские специалисты использовали этот код при разработке фирменного программного обеспечения для своей продукции).

Адаптивное распознавание - метод, основанный на комбинации двух алгоритмов распознавания печатных символов: шрифтового (multifont) и шрифтонезависимого (omnifont). Система генерирует внутренний шрифт для каждого вводимого документа, основываясь на хорошо пропечатанных символах, адаптируясь к конкретным входным символам.

Дальнейшее развитие обеих систем шло практически параллельно. Однако, в 2004 году Cognitive Technologies практически остановила развитие CuneiForm, тогда как ABBYY продолжает совершенствовать свой продукт по сей день.

После нескольких лет перерыва в разработке, 12 декабря 2007 года Cognitive объявила об открытии исходных кодов своей OCR-системы. Само же открытие состоялось 2 апреля 2008 года. До сего момента, впрочем, сообщество OpenSource не опубликовало ни одной новой версии CuneiForm, сосредоточившись на чистке кода ядра распознавания и подготовке его к портированию на отличные от Windows платформы. Первые версии графических интерфейсов к модифицированному ядру уже опубликованы для платформы Linux.

Распознавание текста в FineReader.

Для эффективной работы со сканируемыми документами нужно знать, для чего нужна ABBYY FineReader, как пользоваться основными функциями программы и правильно запускать ее. Инструмент для сканирования предельно точно распознает текст в выбранном печатном документе, не перенося постранично информацию. Кроме того, программа старается сохранить шрифты, колонтитулы и разметку текста на странице максимально близко к оригиналу.

ABBYY FineReader отличается наличием хорошего функционала, поддержкой более ста пятидесяти языков, в том числе и языков программирования и математических формул. Чтобы начать пользоваться программой, достаточно установить лицензионную версию на домашний или рабочий ПК и запустить ярлык ABBYY FineReader с рабочего стола или из меню Пуск.

Для установки программы на ПК нужно после приобретения лицензии, запустить из папки с программой или диска файл setup.exe и выбрать один из видов инсталляции. Обычный режим установит FineReader в стандартной конфигурации на компьютер. В процессе установки необходимо будет выбрать язык интерфейса, место размещения программы и другие стандартные пункты по установке.

Выбрать в меню Пуск раздел Программы и запустить ABBYY FineReader.

Если вы пользуетесь приложениями Microsoft Office, то достаточно нажать на инструментальной панели значок программы.

Выберите в проводнике нужный документ и нажав правой кнопкой мыши, выберите в появившемся меню «Открыть с помощью ABBYY FineReader».

Инструмент автоматически распознает языки, сложные таблицы и списки, так что практически не требуется дополнительного редактирования.

Все автоматические функции могут использоваться в ручном режиме. Для комфортной работы на панели инструментов в «Сервис» можно выбрать пункт «Настройки», чтобы отрегулировать параметры. Можно самостоятельно задать настройки вида документа, режима сканирования, распознавания и сохранения файла.

Для качественной конвертации документов в программе предусмотрены встроенные стандартные задачи, используя которые можно перевести документ в нужный формат. Стандартные настройки предлагают перевести текстовый файл в документ Word, создать таблицу Exel, конвертировать в PDF-файл и другие нужные форматы. После выбора действия нужно будет указать язык распознавания, режим распознавания (цветной или черно-белый) и задать дополнительные пункты распознавания.

Для качественной конвертации полученной информации в PDF-формат, программа должна ее распознать. В ABBYY FineReader можно установить режим автоматического распознавания текста или ручного. Качество отсканированного документа можно отрегулировать настройками распознавания, такими как: режим сканирования, язык распознавания, тип печати и многое другое. Перед распознаванием текста, на этапе сканирования программа будет работать по одному из стандартных сценариев, который можно выбрать.

В меню выберите «Сервис», перейдите в «Опции» и укажите режим распознавания: тщательное или быстрое распознавание. Тщательный режим будет удобен для работы с некачественными текстовыми файлами, текстами на цветном фоне или сложными таблицами. Быстрое распознавание рекомендовано для больших объемов файлов или когда ограничены временные рамки.

Чтобы не возникало сложностей при редактировании в ABBYY FineReader 12, разработчики создали интуитивно понятный интерфейс и удобную навигацию по пунктам. Отредактировать текст можно двумя способами: непосредственно в окне «Текст», либо выбрав на панели инструментов «Сервис» и далее «Проверка». Доступные средства для изменения текста находятся над окном «Текст» и включают в себя стандартный набор для редактирования шрифта, его размера, отступов и замены символов. Для редактирования непосредственно PDF-изображения, нужно зайти в меню в «Редактор изображений» и выбрать из списка нужную функцию.

Автоматический перевод текста.

Программы автоматического перевода позволяют переводить отдельные слова и строить смысловые связи в предложениях, не всегда учитывая те или иные особенности языка. Поэтому они предназначены лишь для общего ознакомления с содержанием документа.

Программные средства автоматического перевода можно условно разделить на две основные категории:

Компьютерные словари. Назначение их - предоставить значения неизвестных слов быстро и удобно для пользователя.
Системы автоматического перевода - позволяют выполнять автоматический перевод связного текста. В ходе работы программа использует словари и наборы грамматических правил, обеспечивающих наилучшее качество перевода

Заключение.

Таким образом, в настоящие время, в связи с распространением информационных технологий, большинство документов составляется на компьютерах. Нередко возникает потребность перевода текста, документа в электронный формат. С помощью сканера достаточно просто получить изображение страницы текста в графическом файле. Однако работать с таким текстом невозможно: как любое сканированное изображение, страница с текстом представляет собой графический файл - обычную картинку. Текст можно будет читать и распечатывать, но нельзя его редактировать и форматировать. Для получения документа в формате текстового файла необходимо провести распознавание текста, то есть преобразовать элементы графического изображения в последовательности текстовых символов.

Преобразованием графического изображения в текст занимаются специальные программы распознавания текста (Optical Character Recognition - OCR). Современная OCR должна уметь распознавать тексты, набранные не только определенными шрифтами (именно так работали OCR первого поколения), но и самыми нетипичными, вплоть до рукописных, распознавать не только четко набранные тексты, но и такие, качество которых далеко от идеала. Например, текст с пожелтевшей газетной вырезки или третьей машинописной копии. Само собой, распознать текст — это еще полдела. Не менее важно обеспечить возможность сохранения результата в файле популярного текстового формата — скажем, формата Microsoft Word.

В данном реферате были рассмотрены основные понятия и определения теории распознавания текста, технология оптического распознавания символов.

Были проанализированы возможности систем распознавания символов, характеристики, преимущества и недостатки программ распознавания символов и их возможности.

Подробно была рассмотрена программа FineReader. Эта программа в настоящее время является одной из наиболее популярных оптических программ для распознавания символов, текстов. Свою популярность программа приобрела благодаря тому, что позволяет точно распознавать символы, имеет огромное количество языков чтения и толерантность к качеству изображения-источника.