Продукты для промышленной оцифровки документов Марченко

Матеріал з Вікі ЦДПУ
Перейти до: навігація, пошук

Продукты для промышленной оцифровки документов

Рынок систем ввода документов можно разделить на пять основных секторов:

  • Продукты для персонального ввода документов.
  • Продукты для промышленного ввода документов.
  • Продукты для ввода форм.
  • Продукты для промышленного ввода форм.
  • Гибридные комплексные решения.

На российском рынке промышленные системы ввода документов представлены решениями компании Kofax. Компания Kofax специализируется на системах ввода документов для проектов малых и средних масштабов. Основные отличительные особенности технологии — это мощные системы поддержки сканирования и обработки изображений, возможность встраивания дополнительных модулей, возможность работы через Интернет.

Kofax предлагает следующие семейства продуктов.

ПО для ввода документов и данных под маркой Ascent Capture

Ascent Capture предназначен для потоковой обработки сканируемых документов и извлечения данных. Максимальный эффект от применения этой системы отмечается при ежесуточных объемах поступления новых документов — от 1000 до 100 тыс. страниц в сутки и более. Ascent Capture позволяет сканировать большие объемы форм и документов и преобразовывать их в изображения, затем индексирует их, так что в дальнейшем они легко могут быть экспортированы в указанную СУБД, использованы в системе управления документами различных производителей.

Использование Ascent Capture позволяет снизить расходы на операции ввода документов за счет использования технологий пакетной обработки, улучшения качества изображений, оптического распознавания текста и обеспечения интеграции с системами управления документами и бизнес-процессами.

Архитектура DDI (Document-Data-Internet) позволяет использовать Ascent Capture для распределенного ввода по Интернету. Данное решение дает возможность применять недорогие станции сканирования, которые могут быть разбросаны по всему миру и соединяются с центральным сервером по Интернету. Эта технология обеспечивает возможность решения сезонных проблем с рабочей силой, 24-часовой режим работы и увеличение мощности систем при пиковых нагрузках.

Kofax специализируется именно на промышленных системах ввода документов, и несмотря на то, что компания реализует полный цикл ввода, включая распознавание текстов, нельзя сказать, что в области OCR она занимает лидирующие позиции. Именно поэтому в Ascent Capture используется встраиваемый модуль распознавания ABBYY FineReader. Встроенный модуль предоставляет возможность полнотекстового распознавания печатных документов, обеспечивает возможность ввода индексных полей (в том числе рукописных), экспорт в PDF, HTML, RTF, TXT, а также поддержку 176 языков распознавания.

Ascent Capture поставляется с 1995 года и на сегодняшний день является наиболее широко используемым в мире приложением для промышленного ввода — свыше 6 тыс. пользователей в 2 тыс. организаций по всему миру. Цена на Ascent Capture варьируется в интервале от 895 долл. до 14 тыс. долл. за лицензию.

В России дистрибьютором Kofax является компания «Весть-Метатехнология», которая выполняет локализацию продукта и обеспечивает его техническую поддержку. Недавно компания «Весть-Метатехнология» завершила локализацию программного продукта Ascent Capture 5.5 с применением OCR-технологий компании ABBYY. Ascent Capture работает с системами документооборота таких производителей, как Documentum, Hummingbird, IBM, Microsoft, и со многими другими. Именно возможности сопряжения Ascent Capture с продуктами сторонних фирм представляют особый интерес для потенциальных клиентов в России.

Новая версия программного продукта Ascent Capture содержит усовершенствованные средства администрирования системы. Расширены возможности модуля импорта данных в формате XML.

Оборудование для сканирования и обработки изображений под марками Adrenaline и VRS

Продукты Adrenaline и VRS предназначены для того, чтобы повысить качество изображений документов, получаемых с высокоскоростных промышленных сканеров.

Контроллеры Adrenaline устанавливаются в слот PCI в любом стандартном PC под управлением Windows и соединяются с высокоскоростным сканером.

VRS (VirtualReScan) — это OEM-продукт, который устанавливается в сканер и позволяет получать изображения более высокого качества. В результате значительно снижается стоимость операции ввода за счет уменьшения ручного труда.

Adrenaline и VRS поддерживают практически все популярные имиджинг-системы для ввода документов, включая продукты фирм Kofax, IBM, FileNET, Optika, Cardiff, Captiva, Microsystems, Datacap, icomXpress и многих других компаний.

Цены на контроллеры Adrenaline — от 1395 до 3595 долл.

В настоящее время компания Cognitive Technologies разрабатывает собственное решение в области промышленного ввода документов. Планируется, что оно будет обладать теми же функциональными возможностями, что и решения Kofax, при более доступной цене.

Продукты для ввода форм

ABBYY FormReader FRMarch.jpg

ABBYY FormReader, основанный на технологии FineReader, обеспечивает высокую степень распознавания печатных символов, меток и штрих-кодов. Уровень корректного распознавания рукописных символов достигает по ряду проектов 98%, в зависимости от качества заполнения. Автоматический контроль результатов распознавания с помощью проверок по словарям и базам данных обеспечивает высокую корректность информации.

ABBYY FormReader позволяет легко настраиваться на новые формы. Создание шаблона, в соответствии с которым будет обрабатываться форма, происходит в редакторе, который не требует навыков программирования. Использование ABBYY FormReader, установленного на один компьютер, позволяет ежедневно вводить от 500 до 1000 страниц, в зависимости от сложности формы и аппаратной конфигурации.

Процедура создания шаблона формы в большинстве случаев достаточно проста. Программа позволяет создать до 99 различных шаблонов форм на один пакет, то есть ABBYY FormReader способен различить и идентифицировать в едином потоке указанное число форм.

Процедура ввода документа включает следующие этапы: вначале производится сканирование незаполненной формы. Затем система находит такие элементы форм, как линии, текст, повторяющийся на всех формах, штрих-коды, что позволяет избежать их ручного выделения.

Далее пользователь указывает поля, которые должны содержать текст для распознавания, и для каждого из этих полей определяет колонку в таблице базы данных, соответствующую этому полю.

На следующем этапе определяются языки распознавания, типы данных для полей и правила контроля. ABBYY FormReader предлагает большое число готовых правил контроля, которые позволяют гарантировать правильность ввода информации.

Система Cognitive Forms

Cognitive Forms обладает основными возможностями ABBYY FormReader, а также включает возможность обрабатывать различные типы форм в одном потоке и позволяет осуществлять автоматическую проверку корректности данных.

Cognitive Forms также может обрабатывать различные типы форм в одном потоке и осуществлять автоматическую проверку корректности данных.

В системе реализована уникальная функция Drag&Recog, которая существенно упрощает процедуру распознавания для пользователя. Для этого пользователю нужно лишь с помощью мыши выделить требуемый фрагмент отсканированного документа и перетащить его в поле распознавания.

В программный комплект Cognitive Forms входит отдельный модуль «Дизайнер форм», с помощью которого пользователь сам может создавать формы документов, задавать описания полей и варианты контекстных проверок. Таким образом система позволяет не только обрабатывать формы, но и создавать их.

В новой версии системы, вышедшей в апреле текущего года, реализована возможность единовременной обработки не только бумажных, но и электронных форм документов в форматах HTML и PDF. На сегодняшний день это единственная российская система, позволяющая осуществлять подобную операцию. Это значительно расширяет функциональные возможности системы, разрешая осуществлять сбор и обработку документов как посредством сканирования бумажных копий, так и через Интернет. В настоящее время большая часть корпоративных участников российского рынка перешла на одновременное использование как бумажных, так и электронных форм документов, и поэтому появление подобной системы крайне актуально.

Корпоративная система Cognitive Forms установлена более чем в 400 российских организациях, в числе которых Пенсионный фонд РФ, Газпром, Сбербанк РФ, Газпромбанк. К настоящему моменту с помощью системы было обработано более 100 млн. различных документов.

Продукты для промышленного ввода форм

В этом секторе также можно указать решения на базе вышеописанных технологий CuneiForm и ABBYY FormReader, которые адаптированы для промышленного использования, а также для систем потокового сканирования и распределенной обработки.

Например, система Cognitive Forms, установленная в Пенсионном фонде, ежедневно обрабатывает около 50 тыс. различных документов. При необходимости возможности системы позволяют обрабатывать до миллиона документов в день.

Работа системы включает потоковое сканирование, сортировку и контроль качества изображения, автоматическое распознавание, верификацию, экспорт в базу данных.

Гибридные комплексные решения

В данном секторе можно выделить решение InputAccel компании ActionPoint. Приобретя компанию Captiva, компания ActionPoint получила мощное комплексное решение, включая развитые средства ввода форм. Решение фирмы ActionPoint достаточно широко применяется в мире, однако мало распространено в России. Поэтому охарактеризуем его очень кратко: мощная система для проектов среднего и крупного масштаба, которая обладает соответствующими встроенными средствами разработки, а также средствами поддержки распределенной работы и кластеризации на серверах.