Многоуровневые цифровые архивы: стратегия

реклама
Многоуровневые
цифровые архивы:
стратегия построения
и опыт создания
Л.И. Рубанов
Н.С. Мерзляков
В.Н. Карнаухов
Институт проблем передачи информации РАН, Москва
При поддержке Российского фонда
фундаментальных исследований
(проект № 00-07-90032)
Предпосылки работы
Более чем 30-летний опыт ИППИ РАН в области
цифровой обработки изображений:
 Обработка результатов радиолокационной и фотографической съемки
космических объектов и небесных тел (Луна, Венера, Марс ...)
 Обработка аэрофотоснимков и результатов дистанционного
зондирования земной поверхности (в оптическом диапазоне,
инфракрасном диапазоне и многозональных)
 Обработка изображений в задачах цветовой сегментации и
медицинской диагностики
 Цифровая голография: синтез, анализ и моделирование когерентных
волновых полей
Цифровая обработка изображений в космических
исследованиях и дистанционном зондировании
Цифровая обработка изображений в задачах
цветовой сегментации и медицинской диагностики
Цифровая голография: синтез, анализ и
моделирование когерентных волновых полей
Предпосылки работы
Разработка проектов новых технологий
для сохранения культурного наследия:
 Восстановление и архивирование рукописных текстов
Рукописная картотека древнерусского словаря XI-XIX в.в.
(свыше 2 млн. карточек более чем за 100 лет, внесен в перечень
культурных ценностей ЮНЕСКО)
 Разработка цифровой коллекции редких фотографий
Цифровой архив фотодокументов ЛАФОКИ РАН (более 40 тыс.
черно-белых и цветных негативов и фотографий по истории
российской науки за более чем 120 лет)
 Цифровая реставрация и каталогизация водяных знаков Методы
и инструментальные средства цифровой реставрации водяных
знаков, встречающихся на бумаге древних рукописей, и создание
базы изображений этих водяных знаков и их описаний (совместно с
Австрийской академией наук)
Задачи реставрации и сохранения культурного наследия
Тематическая обработка и идентификация
средневековых водяных знаков
Тема и разновидности
"колокол"
013-01-01-01
Водяной знак
013-03-01-01
013-03-05-01
013-03-07-01
Тематическая обработка и идентификация
средневековых водяных знаков
Инструментальная система для обработки водяных знаков
Архив Российской академии наук (АРАН)
Образован в 1720 г. и является старейшим научным архивом России.
Хранит документы Академии наук за всю ее более чем 275-летнюю
историю, а также материалы по истории российской и зарубежной науки.
Научный потенциал АРАН содержится в более чем 2000 архивных
фондах, включающих около 1 млн. единиц хранения:
- фонды учреждений Академии наук и научных обществ,
- личные фонды выдающихся ученых (М.В.Ломоносова, Л.Эйлера,
В.И.Вернадского, К.Э.Циолковского, С.В.Ковалевской, Н.И.Вавилова,
И.И.Мечникова и др.),
- различные тематические коллекции (медалей и знаков, старинных
рисунков и т.п.).
Сегодня основная форма работы пользователей с архивными
материалами - предоставление их через читальный зал АРАН. При такой
процедуре трудно обеспечить широкий доступ пользователей к
архивным материалам и при этом гарантировать их физическую
сохранность, равно как и целостность интеллектуальной собственности.
Основные задачи проекта
Реставрация и надежное сохранение фотодокументов и
других изобразительных материалов
 Цифровые методы обработки и сжатия изображений
Методы индексации и поиска архивной информации
 Применение типовых структур и баз данных для создания
тексто-графических цифровых архивов
Многоуровневая система доступа к архивным данным
 Общедоступность vs. Интеллектуальная собственность
 Технология параллельного наполнения цифрового архива
 Автоматизация формирования и ведения вторичных архивов
 Репликация на CD/DVD-ROM и представление в Интернет
Цифровая реставрация архивных изображений
Исходное изображение
Результат обработки
Цифровая реставрация архивных изображений
Исходное изображение
Результат обработки
Цифровая реставрация архивных изображений
Исходное изображение
Результат обработки
Цифровая реставрация
архивных изображений
Исходное изображение
Результат обработки
Элементы стратегии построения
и наполнения цифрового архива
 Приоритетность
 Иерархичность
 Переносимость
 Эффективность
 Доступность
Стратегия: приоритетность
Выбор очередности перевода в цифровую форму архивных
фондов, коллекций, единиц хранения (и самих архивов)
Соображения:





Частота обращения к материалу (интерес пользователей)
Степень сохранности оригинала
Категория архивной единицы и степень ее уникальности
Коммерческая перспективность (реклама?)
Доступные ресурсы, технологии и технические средства
Выбранные приоритеты для материалов АРАН:
 Личные фонды выдающихся ученых, президентов Академии и
возглавлявшихся ими учреждений, а также наиболее интересные
тематические коллекции (медалей и знаков, рисунков, гравюр...)
 Рукописные документы (включая рисунки, чертежи, карты и т.п.)
 Авторизованная машинопись (документы с авторской правкой)
 Фотодокументы – фотографии, негативы, слайды…
 … кинопленки, видео- и аудиозаписи
Стратегия: иерархичность
Построение таких информационных и организационных структур,
в которых было бы возможным управлять степенью полноты и
детальности предоставляемой информации
Соображения:
 Обеспечение постепенного наполнения цифрового архива с учетом
установленных приоритетов
 Многоуровневая сеть регионального распределения и репликации
 Развертывание в неоднородной информационной инфраструктуре
Выбранная структура (в деталях позже):
 Первичный цифровой архив
 Региональные реплики первичного архива
 Вторичные цифровые архивы различных видов (в т.ч. CD/DVD и Web)
Стратегия: переносимость
Сохранение результатов начатой деятельности в условиях смены
поколений вычислительной техники, программного обеспечения и
носителей информации
Соображения:
 Соблюдение международных стандартов хранения информации
 Применение типового системного программного обеспечения, языков
описания и манипулирования данными
 Отказ от привлекательных, но заведомо не переносимых решений
Некоторые принятые решения:
 Переносимые стандартные форматы неподвижных изображений
(TIFF, JPG, PNG)
 Ориентация на языки SQL, HTML, Java
 Основа информационного каркаса - реляционные базы данных (для
всей не изображенческой информации)
 Отдельный банк изображений, логически связанный с записями базы
данных
Динамическая связь базы данных
с банком изображений
Стратегия: эффективность
Нахождение оптимального баланса достигаемого качества
и требуемых затрат ресурсов
Соображения:




Инженерные и организационные решения (с учетом перспективы)
Выбор разрешения и глубины цвета при сканировании
Определение метода и степени сжатия графической информации
Сочетание ручных и автоматизированных методов оцифровки и
обработки исходной информации
 Выбор объемов цифровой реставрации изображений и вычитки
текстовых документов после автоматического ввода
Выбранные методы:
 Дифференцированный подход к обработке и цифровой реставрации
изображений
 Отложенная обработка в основании пирамиды множественных
разрешений изображения
Стратегия: доступность
Два аспекта:
 Возможность параллельного многоуровневого доступа к архивным
базам данных в различных информационных средах в России и за
рубежом, в том числе в регионах, слабо охваченных доступом в
Интернет
 Простота и глубина поиска необходимой информации в цифровом
архиве
Решения:
 Распределенная трехуровневая структура цифрового архива
 Сохранение всех существующих архивных атрибутов и дескрипторов
 Разработка новых признаков и дескрипторов для тематического
поиска и отбора документов
 Добавление новых ассоциативных связей между фондами и
единицами хранения по мере их перевода в цифровую форму
Трехуровневая структура
цифрового архива
Опыт реализации изложенной стратегии
На материалах АРАН на сегодняшний день разработаны и
наполнены следующие цифровые архивы:




Первичный архив - База данных всех членов Академии наук с 1724 г.
Вторичные архивы для нее на CD-ROM и в Интернет
Коллекция медалей и знаков АРАН
Фотодокументы персональных фондов президентов Академии:
• А.П. Александрова
• М.В. Келдыша
• С.И. Вавилова (находится в стадии наполнения)
 Коллекция портретов (фотографий, рисунков, гравюр) российских и
зарубежных ученых, собранная Мусиным-Пушкиным (содержится
внутри персонального фонда акад. Н.А. Морозова)
База данных всех членов Академии наук с 1724 г. (4955 чел.),
включающая их краткие биографии, научную специализацию,
академические должности, научные награды (все на русском и
английском языках), а также свыше 7000 портретов. Пример формы:
На базе этого первичного цифрового архива были
созданы два вторичных архива:
- CD-ROM "Российская Академия Наук: 1724-1999"
(вышло два издания)
- Ресурс в Интернет: http://hp.iitp.ru
Коллекция медалей и знаков (АРАН, разряд XIII).
В этой разработке была реализована возможность многомасштабной
визуализации физических объектов, в том числе с большим увеличением.
Примеры форм:
Коллекция медалей и знаков (АРАН, разряд XIII).
В этой разработке была реализована возможность многомасштабной
визуализации физических объектов, в том числе с большим увеличением.
Примеры форм:
Коллекция медалей и знаков (АРАН, разряд XIII).
В этой разработке была реализована возможность многомасштабной
визуализации физических объектов, в том числе с большим увеличением.
Примеры форм:
Коллекция медалей и знаков (АРАН, разряд XIII).
В этой разработке была реализована возможность многомасштабной
визуализации физических объектов, в том числе с большим увеличением.
Примеры форм:
Персональные фонды президентов Академии:
- А.П. Александров (АРАН, ф. 1916) - свыше 600 фотодокументов.
- М.В. Келдыш (АРАН, ф. 1729) - свыше 500 фотодокументов
Пример формы:
Коллекция портретов (фотографий, рисунков, гравюр) российских и
зарубежных ученых, собранная Мусиным-Пушкиным (содержится
внутри фонда акад. Н.А. Морозова - АРАН, ф. 543) - свыше 700
документов. Пример формы:
Коллекция портретов (фотографий, рисунков, гравюр) российских и
зарубежных ученых, собранная Мусиным-Пушкиным (содержится
внутри фонда акад. Н.А. Морозова - АРАН, ф. 543) - свыше 700
документов. Пример формы:
Коллекция портретов (фотографий, рисунков, гравюр) российских и
зарубежных ученых, собранная Мусиным-Пушкиным (содержится
внутри фонда акад. Н.А. Морозова - АРАН, ф. 543) - свыше 700
документов. Пример формы:
Коллекция портретов (фотографий, рисунков, гравюр) российских и
зарубежных ученых, собранная Мусиным-Пушкиным (содержится
внутри фонда акад. Н.А. Морозова - АРАН, ф. 543) - свыше 700
документов. Пример формы:
Хотя научные исследования и разработки по созданию тексто-графического
архива РАН еще продолжаются, реализованные к настоящему времени
разделы цифрового архива уже используются и встречают положительную
оценку пользователей, что подтверждает правильность и продуктивность
выбранной стратегии, позволяет рекомендовать ее для применения в
других отраслях архивного дела. Мы надеемся, что данная технология
может быть полезна при переводе в широкодоступную цифровую форму и
других архивов - неотъемлемой составляющей мирового культурного
наследия.
Литература
1. И.М. Бокштейн, Н.А. Кузнецов, Н.С. Мерзляков, Л.И. Рубанов. Возможности и
средства цифровой реставрации архивных рукописных текстов // Информационные
технологии и вычислительные системы, № 1, 1997. М.:ИВВС РАН, 1997. С.1-15.
2. I.M. Bockstein, V.N. Karnaukhov, N.A. Kuznetsov, N.S. Merzlyakov, and L.I. Rubanov,
"Digital restoration, enhancement, and archiving of photo-documents," Digital Image
Processing and Computer Graphics (DIP-97), Proc. of SPIE, Wenger E., Dimitrov L.I.
(editors), 3346, pp. 350-356, Vienna, 1998.
3. V. Karnaukhov, E. Wenger, N. Merzlyakov, A. Haidinger, F. Lackner, "Thematic
processing and retrieving of watermarks," Image Processing and Computer Optics (DIP94), Proc. of SPIE, Kuznetsov N.A., Soifer V.A. (editors), 2363, pp. 32-39, Samara, 1996.
4. L.I. Rubanov, N.S. Merzlyakov, V.N. Karnaukhov, and N.M. Osipova, "Strategy of
creation of digital archives accessible through the Internet", Internet Imaging III, Proc. of
SPIE, G.B. Beretta, R. Schettini (editors), 4672, pp. 181-189, San Jose, 2002.
Скачать