Тема 11. Автоматизация процессов ввода потоков входящих документов Система массового ввода документов (СМВ) будет способна работать как с одним, так и с несколькими тысячами бумажных документов в день. Задачи технологии массового ввода документов извлечение данных из бумажных документов, когда пользователей интересуют только извлеченные структурированные данные, а собственно сами изображения документов их не интересуют, т.к. не используются для последующего хранения и доступа; извлечение данных из бумажных документов с сохранением изображения документа (например, «Платежное поручение» клиента), когда имеет смысл после извлечения данных сохранить изображение документа для того случая, при котором потребуется анализ исходного документа. Этапы автоматизированного ввода и чтения документов I – подготовительный - обеспечивает получение достоверных отсканированных изображений, сохраняемых в системе; II - основной. Операции подготовительного этапа: подготовка документов для сканирования; выполнение описания настроек системы на конкретную форму документа. Подготовка документов для сканирования определение состава документов, подлежащих сканированию; выбор конкретных областей в каждом документе для сканирования; определение технологической цепочки движения документа по рабочим местам; открытие конвертов, удаление скрепок или других предметов, мешающих сканированию; подготовка пакетов документов для сканирования; выписка ярлыков на каждый пакет документов с указанием кода документа и количества документов каждого типа в пакете. Выполнение описания настроек системы на конкретную форму документа составление настройки на форму документа, разработка настройки на модель ввода, составление настройки соответствия полей формы документа и полей индексации для ввода в информационную базу или архив. Операции основного этапа: сканирование; контроль качества отсканированных изображений и повторное сканирование; предварительная обработка текста; основная обработка текста документа; контроль качества распознавания и редактирование; индексирование документа и загрузка. Обработка данных, содержащихся в документе предварительная обработка изображений, основная обработка изображений документа. Предварительная обработка изображения документов Улучшение читаемости изображения. Обработанные изображения более понятны при визуальном просмотре. Повышение точности распознавания. Применение специальных методов улучшения изображения может значительно повысить точность оптического распознавания символов. Уменьшение размера изображения. Системы распознавания документов • OCR (Optical Character Recognition) - технология оптического распознавания печатных символов, т.е. перевода сканированного изображения печатных символов в их текстовое представление; • ICR (Intelligent Character Recognition) - распознавание раздельных печатных символов, написанных от руки; • OMR (Optical Mark Recognition) - распознавание отметок (обычно перечеркнутые крест-накрест либо галочками квадраты или круги); • Стилизованные цифры - распознавание рукописных цифр, написанных от руки по шаблону, как на почтовых конвертах. Требования к СМВ: тип обрабатываемых документов и вид содержащихся в них данных; точность распознавания; наличие эффективной системы редактирования; настраиваемость системы на требования конкретного заказчика и способность изменяться согласно меняющимся внешним условиям без программирования; наличие поддержки сканеров различных типов, а также разного рода плат обработки изображений документов; Требования к СМВ: наличие редактора форм, настраивающего систему на новые формы или изменения старой формы, на которую система была предварительно ориентирована; наличие редактора схем обработки документов, открытого интерфейса подключения различных модулей распознавания (в зависимости от типа формы можно для повышения качества распознавания подключать тот или иной модуль, который наиболее подходит для данного типа формы); наличие редактора схем экспорта в базу данных (данные, которые извлекаются при обработке формы, должны быть переданы или в базу данных для хранения, или в другие бизнес-приложения для обработки).