ТЕМА 2. Системы электронного документооборота. Лекция 7. Функциональные подсистемы СЭД. Подсистема хранения и поиска документов Библиотечный сервис – программная система управления документами, построенная в архитектуре клиент-сервер. Серверная часть обеспечивает: централизованное хранение, поиск, архивирование, защиту Клиентская часть обеспечивает: возможности обращения к функциям серверной части; возможность открытия документов на рабочих станциях пользователей для просмотра и редактирования. Документы, устанавливающие регламент хранения документов Типовые требования к автоматизированным системам электронного документооборота. Спецификация MoReq (Model Requirements) Основные правила работы государственных архивов РФ ГОСТ Р ИСО 15489-1-2007 «Управление документами» Цели управления хранением документов Соответствие текущим и будущим потребностям деловой деятельности; соответствие правовым требованиям путем обеспечения документирования в конкретном направлении деловой деятельности; соответствие текущих и будущих потребностей внешних и внутренних заинтересованных лиц. Цели хранения документов Сохранение информации о прошлых и настоящих решениях и видах деятельности в целях информационного обеспечения решений и деятельности в настоящем и будущем; сохранение доказательств прошлой и настоящей деятельности для соблюдения обязательств и формирования отчетности; своевременное, санкционированное и систематическое уничтожение документов, которые больше не используются; сохранение контекста документа для того, чтобы будущие пользователи могли считать документы аутентичными и достоверными даже в тех случаях, когда документные системы, в которых они хранятся, прекратили свое существование или подверглись существенным изменениям. Документы долговременного хранения обеспечивают доказательство и информацию о политике и действиях организации; обеспечивают доказательство и информацию о взаимодействии организации с обслуживаемыми ею клиентами; документально фиксируют права и обязанности отдельных лиц и организаций; используются для создания «памяти» об организации в научных , культурных или исторических целях; содержат доказательство и информацию о деятельности, представляющей интерес для внутренних и внешних заинтересованных лиц. Проблемы долговременного хранения документов Процедуры по обеспечению сохранности электронных документов: обеспечение физической сохранности файлов с электронными документами; обеспечение условий для считывания информации в долговременной перспективе; обеспечение условий для воспроизведения электронных документов в человеко-читаемом виде. Проблемы долговременного хранения возникают изза: деградации носителей информации; устаревания оборудования; устаревания форматов файлов. Выбор носителя вид хранимых электронных документов и их совокупный объем, предполагаемый срок хранения документов и обеспечение к ним доступа, характер производства самих носителей и предполагаемые режимы их хранения, требования по обеспечению аутентичности документов. Срок хранения Носители До 5 лет 10-15 лет Любые современные носители информации, в том числе магнитные дискеты Оптические компакт-диски (CD) Свыше 15 лет (до 50 лет) Оптические диски (WORM), магнитные ленты (стримеры) Срок службы носителя определяется условиями хранения. «Основные правила работы государственных архивов»: температура +17 -19 °С, относительная влажность 50-55%. Решение проблемы деградации носителей 1. Обеспечение условий хранения (температурновлажностного режима); 2. Обеспечение текущей замены носителей (путем копирования с них информации на новые) прежде истечения ожидаемого срока службы; 3. Обеспечение хранения нескольких копий каждого документа и их систематического сравнения в соответствии с установленным графиком. Решение проблемы устаревания оборудования Мониторинг состояния оборудования; обеспечение миграции информации на новые современные носители; выбор носителей и оборудования, имеющих наиболее продолжительный срок службы; выбор наиболее популярных, зарекомендовавших себя моделей вместо самых современных новинок рынка. Устаревание форматов Воспроизведение электронных документов зависит в первую очередь от применяемого программного обеспечения: операционной системы, системы управления базами данных (СУБД), текстовых редакторов и процессоров, графических (ACDSee) и web-браузеров (Internet Explorer, Opera, Firefox), специализированных проектных (AutoCAD, ArchInfo) и гео- приложений (MapInfo), программ, специально разработанных для работы с конкретными базами данных. Решение проблемы устаревания форматов Миграция преобразование информации в новые форматы, которые должны быть доступны при помощи современного оборудования и программного обеспечения; Эмуляция перемещение информации на новое оборудование, но с дополнительным программным компонентом, который эмулирует старое оборудование, позволяя таким образом исполнять старые прикладные программы; Инкапсуляция включение электронных документов в состав файлов межплатформенных форматов, например, в XML. Консервация технологий непрерывная поддержка оригинального оборудования; практически неприменимо в долгосрочной перспективе. Проблема обеспечения подлинности электронных документов ЭЦП – это «реквизит электронного документа, предназначенный для защиты данного электронного документа от подделки, полученный в результате криптографического преобразования информации с использованием закрытого ключа электронной цифровой подписи и позволяющий идентифицировать владельца сертификата ключа подписи, а также установить отсутствие искажения информации в электронном документе» ФЗ"Об электронной цифровой подписи" Проблема обеспечения подлинности электронных документов Аутентификация электронного документа становится невозможной после смены технологической платформы или бесполезной после утраты юридической силы сертификата средства ЭЦП. Стойкость ЭЦП зависит от длины открытого ключа подписи. Переформатирование документа при длительном хранении приводит к изменению ЭЦП. Рекомендации по организации долговременного хранения документов 1. 2. 3. 4. В архив должны приниматься и храниться «информационные объекты» (файлы), включающие содержательную и контекстную информацию (данные). В краткосрочной перспективе (5–10 лет) сохранность документов обеспечивается созданием резервного и рабочего экземпляров электронных документов на отдельных носителях. В долговременной перспективе (более 10 лет) необходимо проведение миграции документов в программно независимые форматы (страховые форматы), причем таким образом, чтобы в дальнейшем полученное поколение документов можно было признать подлинниками. При обеспечении сохранности электронных документов большое внимание следует также уделять вопросам информационной безопасности. Поиск документов в СЭД Для хранения структурированных данных можно применять специализированные ИС, основанные на использовании СУБД. Для хранения неструктурированных данных нужны электронные архивы, работающие на принципах информационно-поисковых систем (ИПС). ИПС фактографического типа предназначены для хранения и поиска фактов, показателей, характеристик каких-либо объектов или процессов. ИПС документографического типа предназначены для хранения и поиска сложных и объемных документов – отчетов, рефератов, обзоров, журналов. Особенности организации ИПС документографического типа Документы могут храниться на любых типах носителей необходимым условием их хранения является наличие электронной регистрационной карточки; Для поиска документов создают и хранят их поисковые образы. Поисковый образ документа (ПОД) – это совокупность кодов ключевых слов; Ключевые слова и их коды хранятся в тезаурусе; Поиск осуществляется с использованием информационнопоискового языка (ИПЯ) В состав ИПЯ входят тезаурус и грамматика языка, т.е. совокупность правил задания множества высказываний на множестве ключевых слов; Для поиска документа нужно создать с помощью ИПЯ поисковый образ запроса (ПОЗ) ПОЗ – совокупность закодированных ключевых слов, описывающих те документы, которые нужно найти. ИПЯ - тезаурус Поисковый образ документа (ПОД) Документ БД документов БД адресов хранения документов Поисковый образ запроса (ПОЗ) Запрос БД ПОД Схема взаимодействия компонентов ИПС Состав ИПС Лингвистическое обеспечение, включающее ИПЯ; Техническое обеспечение (ЭВМ и устройства создания, хранения, чтения и размножения копий на бумажных носителях и в электронной форме); Информационное обеспечение (БД документов, БД адресов хранения документов, БД ПОД и тезауруса); Программное обеспечение, предназначенного для автоматизации следующих основных функций: Составления, кодирования и загрузки БД ПОД; Загрузки БД документов и их адресов хранения; Составления и кодирования ПОЗ; Поиска и выдачи ответа на запрос в виде документа или адресов хранения документов. Основные термины поиска Релевантность – степень соответствия найденного документа запросу. Точность поиска показывает, какова доля релевантных документов в общем числе найденных документов. Полнота поиска показывает, какова доля найденных релевантных документов в общем количестве релевантных документов, хранящихся в БД. Поиск документов Первый подход – в процессе поиска ищется документ, который точно существует в системе. Второй подход – ищутся все документы по интересующему вопросу. Атрибутивный – поиск документа по реквизитам, присваиваемым документу во время его регистрации. Полнотекстовый – поиск документов по содержащимся в них словам и фразам. Методы поиска документов 1) Методы индексного (двоичного) поиска; 2) статистические методы; 3) семантические методы, основанные на базах знаний; 4) методы нечеткого поиска, основанные на технологии адаптивного распознавания образов. Индексный поиск Слова интерпретируются как последовательности закодированных символов. Система двоичного поиска выбирает точное соответствие для отдельного слова или цепочки слов. Недостатки: малая полнота и низкая точность. Способы повышения точности индексного поиска Отождествление заглавных и малых букв; использование метасимволов (*, ?); использование различных грамматических форм; использование логической комбинации слов; использование меры близости слов («не далее 5 слов»). Семантический поиск Основан на построении и использовании базы знаний, с помощью которой осуществляется поиск информации на основе использования концептуальных отношений. Семантический поиск позволяет использовать: файлы синонимов; лингвистические правила; семантические сети. Технология адаптивного распознавания образов APRP APRP – Adaptive Pattern Recognition Processing Основана на сравнении бинарных представлений (образов) запроса и информации, хранящейся в архиве. Основу поискового механизма составляет нейронная сеть, позволяющая выделять в зашумленной битовой последовательности "похожие фрагменты", не требуя точного контекстного совпадения запроса и фрагмента в документе. Особенности технологии APRP Нечеткий поиск; автоматическая индексация; высокая точность поиска; использование меньшего объема ресурсов; высокая скорость поиска информации. Потоковая обработка информации Потоковая обработка информации выполняется автоматически, ей подвергаются все поступающие в систему новые документы. Результатами потоковой обработки являются: сигнальное информирование, т.е. оперативное уведомление пользователей о поступлении документов, отвечающих заданным ими критериям, избирательное распределение, т.е. автоматическое помещение поступающих документов в нужные папки в соответствии с заданными критериями. Маршрутизация документов Маршрутизация – пересылка документа с помощью СЭД нескольким адресатам с заданием следующих параметров: типа маршрута; лимита времени на обработку документа на каждом этапе маршрута; требованием сбора виз и примечаний адресатов; контроля прохождения документа по маршруту. Типы маршрутизации Свободная маршрутизация: Жесткая маршрутизация: самостоятельное определение маршрута движения документа; контроль исполнения необязателен. маршрут движения заранее определен; контроль исполнения обязателен. Типы маршрутов: Последовательные маршруты. Параллельные маршруты. Комбинированные маршруты. Условные маршруты. Проектирование рациональной системы документооборота основывается на следующих положениях исключение или крайнее ограничение возвратного движения документов; передача документа по инстанциям только с целью обработки; распараллеливание обработки документов с целью повышения оперативности их исполнения; передача сведений о ходе движения и исполнения документов в службу ДОУ с помощью регистрационных карточек, исключая возвратное движение самих документов; многовариантность движения документов.