Технология перевода бумажных документов в електронные

Матеріал з Вікі ЦДУ
Перейти до: навігація, пошук

Имиджинг

а первом этапе перевода документа в электронную форму производится его сканирование, которое позволяет получить электронную копию документа в виде изображения. Данный процесс называют имиджингом (imaging). Таким образом, имиджинг — это процесс получения аутентичных изображений бумажных документов. Термин пришел из микрофильмирования, однако сегодня применяется именно к электронным изображениям. Имиджинг является начальным этапом любой системы ввода документов. На этом этапе выполняются задачи сканирования, обработки изображения и контроля качества. Сканеры позволяют оцифровывать изображения, а также предоставляют ряд дополнительных возможностей, таких как аппаратная поддержка качества изображения и выравнивание страниц. Выравнивание страниц может производиться как аппаратно, так и программно. Если речь идет о промышленном вводе документов, то сканеры обычно предоставляют ряд дополнительных функций, например возможность подачи разноформатных документов в одной пачке, а также позволяют использовать большие пачки документов и т.д.


Обработка изображений

Как уже было отмечено, часть функций обработки изображений может быть реализована аппаратно в сканере, а может производиться на станции сканирования. Улучшение изображения включает программное выравнивание, конвертирование с улучшением качества, удаление шумовых и фоновых элементов, улучшение качества передачи текста и т.д. При определении понятия имиджинга важно отметить, что, как правило, это промежуточная стадия получения электронного документа. Очевидно, что с электронным изображением документа гораздо удобнее работать, чем с бумажным: его можно копировать, отправлять по сети и т.д. Однако в большинстве случаев само по себе изображение (особенно если мы работаем с текстовыми документами) дает не слишком много преимуществ. Тот факт, что изображение на экране абсолютно точно передает символы, вовсе не означает, что компьютер «понимает», какие слова содержатся в документе. Значит, документ нельзя редактировать, осуществлять по нему контекстный поиск и пр. Поэтому следующая задача заключается в распознавании документов.


Задачи распознавания при вводе документов

уществует огромное количество типов документов, и естественно, что распознавание различных типов документов обладает своей спецификой. Если вы вводите фотографии, то вам достаточно электронного изображения, если это сплошной текст, возникает задача его распознавания, а если это форматированный текст с рисунками, то вам необходимо не только распознать текст, но и восстановить формат документа. Сложность задач распознавания может варьироваться в самых широких пределах. Например, если речь идет о листе для голосования, где в определенном поле нужно распознать наличие или отсутствие символа, то эта задача намного проще, чем, скажем, распознавание сложной формы, где необходимо распознать не только служебное поле, но и впечатанный в него от руки текст. В принципе, принято делить все документы на формализованные, неформализованные и специальные. Формализованные документы — это документы, в которых заранее определена форма: расположение обязательных полей. Формализованными документами являются различные бланки, накладные и т.п. Обычные документы — это документы произвольной формы: договора, письма и т.д. Примером специализированных документов являются, например, отпечатки пальцев.


Ввод формализованных документов

Одной из задач ввода формализованных документов является индексирование — присвоение каждому документу набора атрибутов с возможностью автоматического ввода индексных полей с помощью распознавания. После контроля данные отправляются в базу данных. Таким образом, результатом ввода форм чаще всего является не сам документ в исходном виде, а определенная запись в некоторой базе данных. Особенностью ввода форм является необходимость ввода полей, заполненных от руки. Причем обычно на формализованных документах заполняющего просят ввести текст печатными буквами — такой текст называют рукопечатным. Технологии распознавания рукопечатных символов обозначаются термином ICR (Intelligent Character Recognition). Задачи распознавания при вводе форм не обязательно связаны с распознаванием текста. При вводе форм может потребоваться распознавание различных меток и знаков, для которого тоже существует свой термин: OMR (Optical Mark Recognition).


Ввод обычных документов

При вводе обычных документов индексирование представляет собой более сложную процедуру. Например, схема индексирования может быть следующей: для того чтобы рассортировать вводимые документы произвольной формы по папкам с учетом тематики документа, производится распознавание текстов всех документов, осуществляется контекстный поиск по ключевым словам, автоматически принимается решение, к какой из заранее выбранных тем относится данный документ, после чего документ помещается в соответствующую папку.. При вводе обычных документов важно реализовать возможность экспорта в различные форматы: PDF, HTML, MS Office. Если при вводе формализованного документа размеры его определены заранее, то при вводе документа произвольной формы в ряде случаев требуется специальное оборудование. Наиболее важной технологией на стадии распознавания документов является технология OCR, о которой следует рассказать более подробно.


Технологии OCR/ICR

Традиционный подход к проблеме распознавания заключается в сведении задачи распознавания к задаче классификации некоторого набора признаков. Идея проста: по изображению определяется некоторый набор признаков, который сравнивается с каждым из имеющихся образцов, так называемых эталонов. По результатам сравнения находится эталон, с которым этот набор признаков совпадает лучше всего, и изображение относится к соответствующему классу. Таким образом, все решение заключается в сравнении предлагаемого изображения с образцами и выборе наиболее подходящего; иначе говоря, производится некий перебор возможных вариантов. Проблема имела бы простое решение, если бы не существовало сотен шрифтов, полученных по факсу текстов с плохо читаемыми символами и т.д.

В качестве основных алгоритмов решения данной задачи выделяют multifont (шрифтовые) и omnifont (шрифтонезависимые) алгоритмы. В случае multifont растровое изображение накладывается на шаблон, и соответственно наиболее подходящим шаблоном считается тот, у которого наименьшее количество точек отличается от исследуемого изображения. Omnifont-алгоритмы идентифицируют символ по правилам его написания. В этом случае эталон, с которым производится сравнение, содержит в себе информацию о правилах написания символа. Оба алгоритма имеют вероятностную природу и позволяют сделать предположение о принадлежности данного символа. Основная задача при распознавании текстов — это повышение вероятности принятия правильного решения, то есть уменьшение доли ошибок. Существует несколько подходов к повышению качества распознавания. Например, алгоритм может содержать комбинацию шрифтового и шрифтонезависимого подхода. Существенное увеличение точности распознавания достигается за счет использования самообучения системы. Это позволяет, например, распознавать плохо пропечатанные символы с помощью шрифта, созданного на основе достаточно хорошо пропечатанных символов. Следует отметить, что на текстах хорошего качества лучше работают одни алгоритмы, на текстах плохого качества — другие, а для распознавания табличных форм удобнее использовать третьи и т.д. Существуют подходы, при которых экспертная система, встроенная внутрь ядра распознавания, сама выбирает оптимальный для данного текста алгоритм.

Альтернативой традиционному шаблонному методу распознавания стало распознавание на основе принципов целостности, целенаправленности и адаптивности, так называемая IPA-технология, на которой основана система распознавания компании ABBYY — FineReader.

Согласно принципу целостности, распознаваемый объект рассматривается как целое, состоящее из частей, связанных между собой пространственными отношениями. Изображение интерпретируется как определенный объект, только если на нем присутствуют все структурные части этого объекта и эти части находятся в соответствующих отношениях. Указанные части получают интерпретацию только в составе гипотезы о предполагаемом объекте.

По принципу целенаправленности распознавание строится как процесс выдвижения и целенаправленной проверки гипотез о целом объекте. Источниками гипотез являются признаковые классификаторы и контекстная информация. Части картинки анализируются не априори, а только в рамках выдвинутой гипотезы о целом. Традиционный подход, состоящий в интерпретации того, что наблюдается на изображении, заменяется подходом, состоящим в целенаправленном поиске того, что ожидается на изображении.

Принцип адаптивности подразумевает способность системы к самообучению.

Именно использование этих основополагающих принципов помогло добиться высочайшего качества распознавания, которое демонстрирует система ABBYY FineReader.

Отдельной задачей является распознавание рукопечатных символов, заключающееся в необходимости распознать символ, несмотря на особенности почерка человека.


Классификатор рынка систем ввода документов

Для того чтобы разобраться в терминологии применительно к описанию рынка систем ввода документов, следует отметить, что помимо технологических аспектов, о которых мы говорили выше, существует также специфика, связанная с масштабом использования технологии. Действительно, когда говорят о домашних или о персональных системах ввода документов, то обычно подразумевают именно распознавание неформализованных документов, при незначительном количестве ввода документов за единицу времени. В данном случае на первое место выходит именно технология OCR. Поэтому когда речь идет о рынке OCR, то обычно имеют в виду рынок коробочных программ распознавания неформализованных документов для персонального применения. Напротив, ввод формализованных документов — это технология, которая обычно используется в организациях и имеет массовый характер. В данном случае наряду с распознаванием текстов встает масса технологических проблем — организация поточного сканирования, распределенной обработки, встраивание решения в корпоративные системы документооборота и т.д. Этот сектор обычно называют Document Capture.

В технологическом смысле Document Capture — это комплекс мероприятий по переводу бумажных документов в электронный архив для хранения и обеспечения доступа к ним. А в отношении доли рынка под этим понимают проектный рынок ввода документов, а не коробочные решения. Согласно вышеописанной классификации объем мирового рынка OCR составляет порядка 80 млн. долл. При этом лидером этого рынка является компания ScanSoft, имеющая оборот около 60 млн. долл. Рынок Data Capturing в несколько раз больше — порядка 300 млн. долл. Поскольку рынок Data Capturing является более проектным бизнесом, здесь нет столь явного лидера, как на рынке OCR. Около 50% серьезных контрактов получают четыре крупные компании: Cardiff Software, ReadSoft, Kofax, TIS. Поскольку в проектном бизнесе географическая близость к заказчику имеет чрезвычайно важное значение, выйти на западный рынок российским компаниям весьма сложно. Напротив, говоря о мировом рынке OCR, необходимо отметить выдающиеся успехи отечественной компании ABBYY: доля ее на мировом рынке в последние пять лет постоянно растет. На сегодняшний день компания имеет лучшие по качеству распознавания системы в мире. В 2001 году компания ABBYY оценивала свою долю на мировом рынке OCR в размере 10-12%, а в 2002 году она намеревается выйти на уровень 15 млн., что составит порядка 15-20% мирового рынка. Также ABBYY сейчас активно продвигает свои технологии на мировом рынке ICR — продукт ABBYY FormReader позволяет эффективно обрабатывать большие объемы различных форм: анкет, опросных листов, бланков, заявлений клиентов и т.д. На рынке OCR также активно работает компания Cognitive Technologies, которая в меньшей степени делает упор на рынок коробочного продукта и больше ориентирована на рынок OEM и на проектный отечественный рынок.

Руководство Cognitive Technologies максимальное внимание уделяет вопросам встраивания технологии OCR в интеграционные решения с элементами архивного хранения и обеспечения документооборота. Системами распознавания Cognitive Technologies комплектуется продукция ведущих мировых производителей офисной техники: Hewlett-Packard, Seiko Epson, Canon, Oki, Olivetti. Cognitive Technologies активно развивает направление, связанное с распознаванием форм.


Классификатор International Data Corp (IDC)

Как мы уже отмечали, при оценках объема рынка систем ввода документов встречаются различные подходы. Выше мы привели оценку компании ABBYY, согласно которой объем рынка Document Capture составляет примерно 300 млн. долл. При этом следует иметь в виду, что данная цифра относится к стоимости программного обеспечения. Существуют и другие подходы. В частности, в подходах оценки рынка IDC нет разделения на программную и аппаратную часть, а рассматривается стоимость решения, куда включаются все элементы. Видимо, именно по этой причине оценки мирового рынка имиджинга, по данным IDC, имеют на порядок большие значения (рис. 9).

По методике IDC системы имиджинга и ввода документов рассматриваются как составляющие рынка систем управления документами и бизнес-процессами. Согласно исследованию IDC, эти рынки в год растут примерно на 30% и к концу 2002 года в сумме достигнут 32 млрд. долл.

Full-text — технология, при которой после сканирования происходит распознавание текстов документа.

Imaging (имиджинг) — сканирование изображений с ручным или автоматическим индексированием.

COLD (Computer Output to Laser Disk) — система архивирования данных (бизнес-отчетов, архивов делопроизводства и т.п.) на CD с высокой степенью компрессии и с возможностью быстрого извлечения. Система COLD позволяет перевести около миллиона бумажных страниц на один CD. Программное обеспечение позволяет не только архивировать, но и индексировать документы. Обычно под системами COLD понимают и программную, и аппаратную части.

Workflow (документооборот) — это процесс организации электронных документов, при котором документы движутся от сотрудника к сотруднику по схемам маршрутизации на основе заранее определенной логики (жесткая маршрутизация) или по маршрутам, заданным самими сотрудниками (гибкая маршрутизация). Сейчас этот термин стал шире и понимается как обозначение механизмов, осуществляющих верхний уровень интеграции в рамках информационных систем уровня предприятия.

EDM (Electronic Document Management) — системы управления документами. Вообще говоря, Workflow является частным случаем EDM, хотя в IDC этот факт почему-то игнорируют. В индустрии давно уже перестали разделять эти термины. Видимо, в данном контексте под термином EDM подразумевается в узком смысле система хранения документов и обеспечения коллективного доступа к ним для совместной работы.

Различия в терминологии и методиках определения объемов рынка связаны с тем, что разные группы компаний пришли на рынок ввода документов, так сказать, с разных сторон, причем каждая со своим видением методов решения задач. Но сегодня разделить эти рынки, как это пытается сделать IDC, достаточно сложно. Например, в ближайшие три-четыре года хранение документов на CD и DVD, скорее всего, станет частью истории, поскольку стоимость хранения на жестких дисках постоянно приближается к стоимости самих этих носителей, в то время как жесткие диски позволяют организовать намного более оперативный доступ и обеспечивают, хоть это и может показаться странным, существенно большую надежность хранения (за счет использования RAID-массивов). Но сложность здесь в том, что если произойдет полный переход на системы хранения информации на жестких дисках, то аналитики из IDC не смогут определить, куда пошел конкретный RAID-массив: на архивное хранение или, например, на работу на сервере баз данных. Короче говоря, терминология и разделение сегментов рынка, с одной стороны, не стандартизованы, а с другой — быстро стареют.

Возможно, более корректный классификатор можно представить, объединив понятия Workflow, EDM в одну группу, Imaging и Full-text — в другую, а COLD — в третью.

Говоря о вертикальном делении рынка, аналитики IDC свидетельствуют, что около 70% рынка приходится на четыре основных сегмента: страхование, госсектор, банки и финансовые услуги. Другие 15% делятся между здравоохранением, управлением непрерывным и дискретным производством. Таким образом, рынок коробочных OCR-продуктов в этом классификаторе просто отсутствует. Из изученных нами подходов к определению рынка систем ввода документов наиболее полезным нам показался тот, что учитывает масштаб ввода документов, о котором мы и расскажем подробнее.


Классификатор, учитывающий масштаб технологии


На наш взгляд, произвести наиболее удачное деление рынка продуктов для систем ввода документов можно на основании двух факторов: масштаба производства и типа вводимых документов — формализованных и неформализованных. Согласно данному подходу рынок систем ввода документов можно разделить на пять основных секторов:

  • Продукты для персонального ввода документов.
  • Продукты для промышленного ввода документов.
  • Продукты для ввода форм.
  • Продукты для промышленного ввода форм.
  • Гибридные комплексные решения.

Продукты для персонального ввода документов

В этом сегменте рынка следует прежде всего выделить продукт FineReader — программу, которая отличается лучшей в мире точностью распознавания текстов. В этом году появилась очередная, шестая версия FineReader (об этом продукте можно прочитать в КомпьютерПресс, № 7’2002, а также найти на нашем CD-ROM). У компании Cognitive Technologies в этом секторе тоже есть свое решение — продукт CuneiForm. Это система распознавания текстов, обеспечивающая преобразование бумажных документов и электронных графических файлов в редактируемый текст, (об этом продукте мы тоже уже писали в КомпьютерПресс № 9’2001). В этом году вышла новая версия системы CuneiForm — V10. Следует отметить, что эта версия обладает более высоким уровнем пользовательских свойств и по качеству распознавания русскоязычных текстов и, согласно утверждениям разработчиков, по функциональным возможностям не уступает FineReader.


Продукты для промышленного ввода документов

На российском рынке промышленные системы ввода документов представлены решениями компании Kofax, о которых мы почти не упоминали в нашем журнале, поэтому хотели бы остановиться на них более подробно. Компания Kofax специализируется на системах ввода документов для проектов малых и средних масштабов. Основные отличительные особенности технологии — это мощные системы поддержки сканирования и обработки изображений, возможность встраивания дополнительных модулей, возможность работы через Интернет.

Kofax предлагает следующие семейства продуктов.


ПО для ввода документов и данных под маркой Ascent Capture

Ascent Capture предназначен для потоковой обработки сканируемых документов и извлечения данных. Максимальный эффект от применения этой системы отмечается при ежесуточных объемах поступления новых документов — от 1000 до 100 тыс. страниц в сутки и более. Ascent Capture позволяет сканировать большие объемы форм и документов и преобразовывать их в изображения, затем индексирует их, так что в дальнейшем они легко могут быть экспортированы в указанную СУБД, использованы в системе управления документами различных производителей.

Использование Ascent Capture позволяет снизить расходы на операции ввода документов за счет использования технологий пакетной обработки, улучшения качества изображений, оптического распознавания текста и обеспечения интеграции с системами управления документами и бизнес-процессами.

Архитектура DDI (Document-Data-Internet) позволяет использовать Ascent Capture для распределенного ввода по Интернету. Данное решение дает возможность применять недорогие станции сканирования, которые могут быть разбросаны по всему миру и соединяются с центральным сервером по Интернету. Эта технология обеспечивает возможность решения сезонных проблем с рабочей силой, 24-часовой режим работы и увеличение мощности систем при пиковых нагрузках.

Kofax специализируется именно на промышленных системах ввода документов, и несмотря на то, что компания реализует полный цикл ввода, включая распознавание текстов, нельзя сказать, что в области OCR она занимает лидирующие позиции. Именно поэтому в Ascent Capture используется встраиваемый модуль распознавания ABBYY FineReader. Встроенный модуль предоставляет возможность полнотекстового распознавания печатных документов, обеспечивает возможность ввода индексных полей (в том числе рукописных), экспорт в PDF, HTML, RTF, TXT, а также поддержку 176 языков распознавания.

Ascent Capture поставляется с 1995 года и на сегодняшний день является наиболее широко используемым в мире приложением для промышленного ввода — свыше 6 тыс. пользователей в 2 тыс. организаций по всему миру. Цена на Ascent Capture варьируется в интервале от 895 долл. до 14 тыс. долл. за лицензию.

В России дистрибьютором Kofax является компания «Весть-Метатехнология» (http://www.vest.msk.ru/), которая выполняет локализацию продукта и обеспечивает его техническую поддержку. Недавно компания «Весть-Метатехнология» завершила локализацию программного продукта Ascent Capture 5.5 с применением OCR-технологий компании ABBYY. Ascent Capture работает с системами документооборота таких производителей, как Documentum, Hummingbird, IBM, Microsoft, и со многими другими. Именно возможности сопряжения Ascent Capture с продуктами сторонних фирм представляют особый интерес для потенциальных клиентов в России.

Новая версия программного продукта Ascent Capture содержит усовершенствованные средства администрирования системы. Расширены возможности модуля импорта данных в формате XML.


Оборудование для сканирования и обработки изображений под марками Adrenaline и VRS

Продукты Adrenaline и VRS предназначены для того, чтобы повысить качество изображений документов, получаемых с высокоскоростных промышленных сканеров.

Контроллеры Adrenaline устанавливаются в слот PCI в любом стандартном PC под управлением Windows и соединяются с высокоскоростным сканером.

VRS (VirtualReScan) — это OEM-продукт, который устанавливается в сканер и позволяет получать изображения более высокого качества. В результате значительно снижается стоимость операции ввода за счет уменьшения ручного труда.

Adrenaline и VRS поддерживают практически все популярные имиджинг-системы для ввода документов, включая продукты фирм Kofax, IBM, FileNET, Optika, Cardiff, Captiva, Microsystems, Datacap, icomXpress и многих других компаний.

Цены на контроллеры Adrenaline — от 1395 до 3595 долл.

В настоящее время компания Cognitive Technologies разрабатывает собственное решение в области промышленного ввода документов. Планируется, что оно будет обладать теми же функциональными возможностями, что и решения Kofax, при более доступной цене.


Продукты для ввода форм

ABBYY logo.jpg

ABBYY FormReader FRMarch.jpg

ABBYY FormReader, основанный на технологии FineReader, обеспечивает высокую степень распознавания печатных символов, меток и штрих-кодов. Уровень корректного распознавания рукописных символов достигает по ряду проектов 98%, в зависимости от качества заполнения. Автоматический контроль результатов распознавания с помощью проверок по словарям и базам данных обеспечивает высокую корректность информации.

ABBYY FormReader позволяет легко настраиваться на новые формы. Создание шаблона, в соответствии с которым будет обрабатываться форма, происходит в редакторе, который не требует навыков программирования. Использование ABBYY FormReader, установленного на один компьютер, позволяет ежедневно вводить от 500 до 1000 страниц, в зависимости от сложности формы и аппаратной конфигурации.

Процедура создания шаблона формы в большинстве случаев достаточно проста. Программа позволяет создать до 99 различных шаблонов форм на один пакет, то есть ABBYY FormReader способен различить и идентифицировать в едином потоке указанное число форм.

Процедура ввода документа включает следующие этапы: вначале производится сканирование незаполненной формы. Затем система находит такие элементы форм, как линии, текст, повторяющийся на всех формах, штрих-коды, что позволяет избежать их ручного выделения.

Далее пользователь указывает поля, которые должны содержать текст для распознавания, и для каждого из этих полей определяет колонку в таблице базы данных, соответствующую этому полю.

На следующем этапе определяются языки распознавания, типы данных для полей и правила контроля. ABBYY FormReader предлагает большое число готовых правил контроля, которые позволяют гарантировать правильность ввода информации.

Система Cognitive Forms

Cognitive Forms обладает основными возможностями ABBYY FormReader, а также включает возможность обрабатывать различные типы форм в одном потоке и позволяет осуществлять автоматическую проверку корректности данных.

Cognitive Forms также может обрабатывать различные типы форм в одном потоке и осуществлять автоматическую проверку корректности данных.

В системе реализована уникальная функция Drag&Recog, которая существенно упрощает процедуру распознавания для пользователя. Для этого пользователю нужно лишь с помощью мыши выделить требуемый фрагмент отсканированного документа и перетащить его в поле распознавания.

В программный комплект Cognitive Forms входит отдельный модуль «Дизайнер форм», с помощью которого пользователь сам может создавать формы документов, задавать описания полей и варианты контекстных проверок. Таким образом система позволяет не только обрабатывать формы, но и создавать их.

В новой версии системы, вышедшей в апреле текущего года, реализована возможность единовременной обработки не только бумажных, но и электронных форм документов в форматах HTML и PDF. На сегодняшний день это единственная российская система, позволяющая осуществлять подобную операцию. Это значительно расширяет функциональные возможности системы, разрешая осуществлять сбор и обработку документов как посредством сканирования бумажных копий, так и через Интернет. В настоящее время большая часть корпоративных участников российского рынка перешла на одновременное использование как бумажных, так и электронных форм документов, и поэтому появление подобной системы крайне актуально.

Корпоративная система Cognitive Forms установлена более чем в 400 российских организациях, в числе которых Пенсионный фонд РФ, Газпром, Сбербанк РФ, Газпромбанк. К настоящему моменту с помощью системы было обработано более 100 млн. различных документов.


Продукты для промышленного ввода форм

В этом секторе также можно указать решения на базе вышеописанных технологий CuneiForm и ABBYY FormReader, которые адаптированы для промышленного использования, а также для систем потокового сканирования и распределенной обработки.

Например, система Cognitive Forms, установленная в Пенсионном фонде, ежедневно обрабатывает около 50 тыс. различных документов. При необходимости возможности системы позволяют обрабатывать до миллиона документов в день.

Работа системы включает потоковое сканирование, сортировку и контроль качества изображения, автоматическое распознавание, верификацию, экспорт в базу данных.

Гибридные комплексные решения

В данном секторе можно выделить решение InputAccel компании ActionPoint. Приобретя компанию Captiva, компания ActionPoint получила мощное комплексное решение, включая развитые средства ввода форм. Решение фирмы ActionPoint достаточно широко применяется в мире, однако мало распространено в России. Поэтому охарактеризуем его очень кратко: мощная система для проектов среднего и крупного масштаба, которая обладает соответствующими встроенными средствами разработки, а также средствами поддержки распределенной работы и кластеризации на серверах.