paper11 - Моделирование мониторинга информационного поля

реклама
НЕКОТОРЫЕ АСПЕКТЫ МОНИТОРИНГА
ИНФОРМАЦИОННЫХ РЕСУРСОВ ИНТЕРНЕТ
Земсков Илья Аркадьевич
Омский государственный университет, г. Омск
При быстром росте объёмов информационного наполнения
Internet-Intranet-сетей становится актуальным рассмотрение вопросов
создания программных средств, которые позволяют получать
максимально полные и адекватные сведения о доступном
многообразии электронных ресурсов.
Обычным решением автоматизации процесса сбора данных
является использование стандартных элементов любой текстовой
поисковой системы в Интернет, а именно индексирующего робота
(«паук», краулер, индексатор). Техническое решение в этом случае
известно и заключается в том, что создаётся специальный
программный модуль, который в рабочем состоянии занимается тем,
что циклически «обходит» ЭР (реализуется с помощью специальных
средств HTTP протокола) и при возникновении необходимости
обновления имеющихся сведений скачивает на сторону портала все
изменившиеся файлы ЭР. Однако с увеличением количества известных
ЭР свежесть собираемых сведений будет заметно уменьшаться
(данный вывод сделан на основе результатов имитационного
моделирования), т.к. увеличивается промежуток времени между
повторными посещениями одного ЭР.
В качестве альтернативной стратегии при построении модуля
мониторинга существующих в Интернет информационных ресурсов
нами рассматривается архитектура, ключевым отличием которой
является внедрение концепции «сенсоров» [1] в процесс мониторинга,
что в свою очередь заметно корректирует функции участвующих
элементов и перераспределяет между ними ресурсы. Суть концепции
«сенсоров» заключается в том, чтобы внедрить в программное
обеспечение Web-серверов,
на которых опубликованы ЭР,
дополнительного программного модуля («сенсора»). Принцип
действия «сенсора» основан на том факте, что Web-сервер однозначно
сопоставляет поступившему запросу определённую информационную
последовательность (последовательность байтов, которая имеет свою
однозначную «свёртку» типа контрольной суммы). Таким образом,
«сенсор» будет вести свою «базу», в которой будут сопоставлены
поступающие запросы (например, URL для GET запроса) и наборы
признаков для выдаваемых Web-сервером информационных
последовательностей. На основе накопленных в своей базе сведений
«сенсор» может легко определить, например, следующие ситуации:
появление на Web-сервере нового информационного ресурса,
изменение в содержимом ранее существовавшего информационного
ресурса, «исчезновение» ранее существовавшего информационного
ресурса. Дальнейшим действием «сенсора» будет уведомление
центрального узла мониторинга (именно уведомление, а не закачка
всего информационного ресурса) о найденных изменениях. На этом
работа «сенсора» заканчивается и начинается работа программного
обеспечения головного сервера мониторинга. Очевидно, что после
внедрения «сенсоров» индексирующий робот модуля мониторинга
должен будет «реагировать» (скачивать и индексировать ресурсы)
только в ответ на поступающие от «сенсоров» сигналы. Появляется
возможность высвободить значительную часть занимаемых роботом
(обычной системы мониторинга) вычислительных и финансовых
ресурсов. Высвобождение вычислительных ресурсов произойдёт само,
так как в рассматриваемом случае нет необходимости постоянно
производить сложные операции по обработке данных (основная часть
времени во время работы модуля будет проходить в ожидании
необходимого «сигнала»). Снижение финансовых затрат всех
участников информационной среды произойдёт в результате
оптимизации передаваемого трафика (результаты имитационного
моделирования свидетельствуют о том, что создаваемый на основе
полученных сигналов от сенсоров трафик близок к оптимальному даже
в случаях частых изменений большого количества файлов).
В ОмГУ был реализован комплекс программ [2] для имитации
поведения системы мониторинга в случаях её построения согласно
концепции «сенсоров» или концепции «роботов» при различных
условиях существования информационных ресурсов, а также
различных уровнях активности посетителей Web-серверов. Проведена
серия экспериментов, в которой моделировались семь вариантов
построения системы мониторинга. Варианты системы определялись
использованием: одного «обычного» робота (циклически скачивает
подряд все ресурсы), одного «модифицированного» робота
(циклически посылает всем ресурсам специальный HTTP запрос и при
необходимости скачивает изменившийся ресурс), трёх обычных
роботов, трёх модифицированных роботов, пяти обычных роботов,
пяти
модифицированных
роботов,
«сенсоров».
При
этом
подразумевалось, что на сервере может выполняться программа только
одного робота, т.е. пять роботов соответствует пяти серверам. В случае
сенсоров используется только один «слушающий робот», т.е.
необходим только один сервер. За основные критерии эффективности
системы мониторинга были выбраны уровень свежести имеющихся у
системы сведений и объём скачанной информации.
Полученные результаты свидетельствуют о том, что внедрение
системы мониторинга, которая использует сенсоры, позволит добиться
98-99% свежести сведений при минимально необходимом объёме
передаваемого трафика. При использовании системы мониторинга,
которая основана на концепции роботов, аналогичных результатов
можно добиться при увеличении количества роботов. В наших
экспериментах только пять модифицированных роботов достигли 98%
барьера свежести сведений при минимуме трафика. Однако анализ
второстепенных критериев эффективности позволяет говорить о том,
что система сенсоров ещё не достигла своей предельной
производительности в тот момент, когда система модифицированных
роботов уже работает с максимальными усилиями.
При анализе результатов моделирования возникло убеждение,
что производительность сенсорной системы мониторинга можно
повысить за счёт заинтересованности владельцев ЭР. Другими
словами, внося изменения в содержимое конкретного ЭР или добавляя
на сайт новый ЭР, владелец ЭР (или Web-мастер) имеет возможность
уведомить поисковую систему о произведённых действиях. Для этого
не нужно ждать (как обычно) посещения индексирующего робота, а
достаточно открыть страничку (ЭР) в браузере. Сенсору этого будет
достаточно для обнаружения изменений и последующего уведомления
головного сервера поисковой системы.
Одним из возможных и перспективных мест внедрения
сенсорной системы мониторинга являются порталы региональных
ресурсных центров (РРЦ), которые разрабатываются в рамках работ
по реализации Федеральной Целевой Программы «Развитие единой
образовательной информационной среды (2001-2005 годы) – РЕОИС».
1.
2.
Земсков И.А. Сбор информации о доступных ресурсах Интернет. //
Математические структуры и моделирование 2002. Вып.9. С. 168178.
Земсков И.А. SIMCOSAR: Программный комплекс моделирования
процесса мониторинга состояния информационного поля
Интернет // Математические структуры и моделирование 2003.
Вып.11. С. 128-157.
Скачать