графовая модель веб-сайта как основа для анализа его структуры

реклама
ГРАФОВАЯ МОДЕЛЬ ВЕБ-САЙТА КАК ОСНОВА ДЛЯ АНАЛИЗА ЕГО СТРУКТУРЫ
В.С. Салин, С.В. Папшев, А.А. Сытник
Саратовский государственный технический университет имени Гагарина Ю.А.
E-mail: salinvs@gmail.com
Веб-сайты, ориентированные на предоставление информации, по-прежнему занимают большую часть всех
веб-ресурсов интернета. Для многих из них актуальна общая проблема – структура большинства контенториентированных сайтов не оптимизирована для пользователей. Основными причинами не оптимальности
структуры сайта могут служить неудобство шаблона страниц для посетителей, а также не оптимальная
логическая структура сайта.
Индикатором качества структуры веб-сайта с точки зрения его посетителей является развернутая статистика
посещений его страниц. Современные системы сбора подобной статистики, такие как Google Analytics,
Яндекс.Метрика, Piwik и другие, накапливают и обрабатывают данные о посещении отдельных страниц сайта,
предоставляя их администратору сайта для проведения дальнейшего анализа. Сбор данных происходит по
различным показателям – количеству уникальных посещений, показателю отказов, среднему времени
пребывания и другим.
Однако подобные системы предоставляют наглядной информации о возможных проблемах в структуре
сайта и ее качестве в целом. За счет применения графовой модели веб-сайта, возможности для проведения его
анализа расширяются. В частности, графовая модель может послужить основой для автоматизированного
анализа самого графа сайта, с целью выявления проблемных мест в его структуре и возможных путей ее
оптимизации.
Другим вариантом применения графовой модели сайта является визуализация структуры сайта, что
совместно с накопленными статистическими данными, делает возможным их наглядный анализ и обработку.
Сперва рассмотрим механизм формирования графовой модели сайта. Для чего будем анализировать HTMLразметку каждой страницы сайта и выбирать из нее ссылки на последующие страницы. Обработав все страницы
сайта, получим граф, в котором множеству вершин соответствует множество всех страниц сайта, а множеству
ребер – множество всех переходов с одной страницы на другую. Граф представим в базе данных в виде таблицы
вершин (идентификатор и URL страницы) и таблицы переходов (идентификаторы начальной и целевой страниц).
Для проведения визуального анализа статистики посещений будем отрисовывать граф совместно со
статистическими данными, получаемыми из системы сбора статистики через API. Непосредственно
визуализация графа может быть реализована при помощи одного из пакетов визуализации, например,
библиотеки The JIT, которая на основе получаемых данных в формате JSON позволяет представить сам граф в
интерактивном виде, используя возможности HTML5.
Следует заметить, что для визуализации структуры веб-сайтов с числом страниц порядка 1000 и более,
одновременное их отображение не представляется возможным – в алгоритм визуализации необходимо внести
изменения. Одним из вариантов является использование возможности выбора конкретной вершины, средствами
библиотеки The JIT. В таком случае, алгоритм выглядит следующим образом:
 изначально отображается вершина корневой страницы сайта и все смежные ей;
 при выборе одной из вершин пользователем к представлению графа добавляются смежные ей вершины;
 при повторном выборе вершины, смежные вершины исчезают с представления.
То есть, пользователь одновременно работает с комфортным количеством вершин на представлении графа.
При формировании представления графа, будем добавлять к нему статистические данные по основным
метрикам веб-аналитики. К таким метрикам можно отнести количество уникальных посещений, показатель
отказов, количество переходов с одной страницы на другую и другие.
Наложение значений по фиксированной метрике для каждой из страниц на представление графа позволяет
наглядно показать общую картину, характерную для сайта. Администратор веб-сайта сам может увидеть как
наиболее популярные страницы в выбранный момент времени, так и проблемные места в структуре сайта.
А благодаря наличию данных по всем основным метрикам за длительный промежуток времени, возможна
демонстрация динамики изменения значений для выбранных страниц сайта.
Скачать