Международная научно-техническая конференция «Информационные системы и технологии» ИСТ-2014 СЕКЦИЯ 5.2 ТЕХНИЧЕСКАЯ КИБЕРНЕТИКА (ИНТЕЛЛЕКТУАЛЬНЫЕ СИСТЕМЫ УПРАВЛЕНИЯ) М.В. УЛЬЯНОВ (д.т.н.), Ю.Г. СМЕТАНИН (д.ф-м.н.), (Московский государственный университет печати имени Ивана Федорова) (Вычислительный центр РАН имени А.А. Дородницына) МЕРА СИМВОЛЬНОГО РАЗНООБРАЗИЯ — НОВАЯ ОБОБЩЕННАЯ ХАРАКТЕРИСТИКА ВРЕМЕННЫХ РЯДОВ Разрабатываемый авторами подход к исследованию временных рядов связан с построением специального метрического пространства, координатами которого являются обобщенные универсальные характеристики временных рядов. Последующий кластерный анализ в таком пространстве позволит выделить кластеры, элементами которых являются временные ряды, близкие по метрике данного пространства. Дальнейшее исследование особенностей методов прогнозирования по отношению к выделенным кластерам позволит указать наиболее рациональные методы для выделенных групп временных рядов. Очевидно, что наиболее интересной и научно значимой задачей является построение координатного пространства — осей пространства кластеризации, равно как и введение специальной функции расстояния для определения в этом координатном пространстве структуры метрического пространства. В аспекте построения пространства кластеризации авторами в предыдущих работах и докладах были введены некоторые координаты такого пространства — сложность временного ряда по Колмогорову и гармоническая сложность временного ряда. Настоящий доклад посвящен новой обобщенной характеристике временного ряда — мере символьного разнообразия. Объектом исследования является временной ряд V fi , ti , i 1,, n , где fi — наблюденное значение процесса в момент ti , n — число наблюдений (отсчетов) процесса. Предметом исследования является построение обобщенной характеристики ряда, отражающей разнообразие наблюдаемых значений. Требование универсальности пространства кластеризации налагает, очевидно, и требования к обобщенным характеристикам временных рядов, интерпретируемых как координаты точки, представляющий данный временной ряд в осях этого пространства. Проблема связана с тем, что различные временные ряды имеют различную точность измерений (число значащих цифр элементов ряда) и различный масштаб по значениям. Решение проблемы авторы видят в едином масштабировании значений наблюдаемой функции процесса и построении на этой основе строки символов, отражающей динамику числовых значений исследуемого ряда. В целях такого масштабирования на диапазоне размаха варьирования значений функции процесса (значений ряда) мы вводим разбиение на полусегменты, определение числа которых доставляется бикритериальным методом построения гистограмм. Число возможных различных полученных полусегментов определяет мощность алфавита k . Выбор символов алфавита по сути не принципиален, но мы в дальнейшем будем использовать строчные символы латинского алфавита. Далее каждый полусегмент кодируется символом алфавита, и мы получаем представление временного ряда в виде строки символов, например: «BABCDEEEDDCCCBBAABB…..» При этом числовое значение ряда кодируется символом полусегмента, в котором оно находится. Для временного ряда, содержащего n наблюдений, мы получаем его представление в виде строки из n символов алфавита . Далее полученная строка символов подвергается обработке, первым этапом которой является оценка энтропии слов — метод, используемый в биоинформатике для оценки сложности нуклеотидных геномных последовательностей. В соответствии с этим методом рассматриваются подслова длины m над алфавитом ; очевидно, что всего таких слов — M k m . Для фиксированного значения m вводится произвольная нумерация подслов i 1, M и обнуляются счетчики подслов ci . Окно длины m ( 1 m n ) сдвигается по исходному слову длины n — всего таких позиций n m 1 , и для каждого положения для полученного в окне подслова происходит 298 Международная научно-техническая конференция «Информационные системы и технологии» ИСТ-2014 СЕКЦИЯ 5.2 ТЕХНИЧЕСКАЯ КИБЕРНЕТИКА (ИНТЕЛЛЕКТУАЛЬНЫЕ СИСТЕМЫ УПРАВЛЕНИЯ) увеличение соответствующего счетчика подслов. Если мы наблюдаем в окне подслово длины m , которое имеет номер i в принятой нумерации, то значение ci увеличивается на единицу. По полученным данным и рассчитывается оценка энтропии слов C m по следующей формуле: M ci ci C m log M . n m 1 n m 1 i 1 Применение основания M у логарифма приводит автоматически к нормировке значений C m — значение 0 означает, что все подслова длины m одинаковы, т.е. все слово состоит из одинаковых символов (отсутствие разнообразия). Просто показать, что значение 1 функция C m принимает при равночастотном разнообразии подслов. Для дальнейшего построения предлагаемой меры временного ряда рассмотрим поведение оценки энтропии слов C m как функции длины подслова m . Очевидно, что при m n мы наблюдаем всего одно подслово, совпадающее с исходным словом, и C n 0 . При m 1 максимум C m будет равен единице — в случае, если частота символов алфавита в символьном представлении временного ряда одинакова. Таким образом, C m как функция целочисленного аргумента является невозрастающей функцией от m , и C n 0 . Интерес представляет изучение характера убывания значений C m с ростом аргумента. Поскольку функция C m — не возрастающая, рассмотрим инверсную конечную разность функции C m : C m C m C m 1, m 1, n 1. По определению C m значения Cm ограничены, и 0 Cm 1 , но поведение Cm может быть достаточно сложным. Отсутствие всплесков в значениях Cm , т.е. ситуация, когда все значения малы и приближенно равны 1 n , характеризует нашу символьную последовательность как случайную и обладающую достаточно богатым разнообразием подслов. Наличие ярко выраженного максимума означает, что с некоторого значения m разнообразие подслов резко уменьшилось, и исходное слово обладает определенной регулярностью или периодичностью. Определим максимум функции Cm , обозначив его через C * . Поскольку предыдущие обобщенные характеристики временных рядов вводились авторами в интерпретации больших значений в пользу рядов, обладающих худшими возможностями для прогнозирования, то, сохраняя принятый подход, мы вводим меру символьного разнообразия временного ряда r V в виде 1 r V , 1 r V n . C * Представление временного ряда, полученное на основе символического кодирования полусегментов с использованием бикритерального метода построения гистограмм, является основной для построения функции оценки энтропии слов C m , аргументом которой является длина окна. Построение конечной разности Cm позволяет изучить особенности разнообразия подслов в исследуемом слове, а максимум этой разности свидетельствует о перепаде разнообразия в смысле отклонения от равномерности частот подслов. Именно величина, обратная этому максимуму, и предлагается авторами как мера символьного разнообразия временного ряда. По принципам построения малые значения r V соответствуют «простым» временным рядам с вероятно хорошей возможностью их прогнозирования, большие значения — рядам с выраженной хаотичностью. Исследование поддержано грантом РФФИ № 13-07-00516 E-mail: muljanov@mail.ru 299