Л. Н. Слуцкин ИЭ РАН, Москва levslutskin@yandex.ru Энтропийные свойства российской инфляции за 2002-2010 гг. В статье оценивается помесячное количество энтропии изменения инфляции 22 видов продовольственных продуктов за 2002-2010 гг. Из полученных результатов следует, что во время ценовой неопределенности (продовольственный кризис, засуха) значение энтропии резко увеличивается. Ключевые слова: инфляция, количество информации, дифференциальная энтропия, информационное количество Кульбака-Лейблера. 1. Введение. Понятие энтропии в теории информации Понятие энтропии берет свое начало в статистической термодинамике как мера неупорядоченности системы и в том, или ином виде появлялось уже в работах Больцмана, Гиббса и Максвелла. К. Шеннон [Shannon (1948)] определил энтропию дискретной случайной величины X, как W ( X ) W ( PX ) pi log( pi ) , (1.1)1 где знак суммирования распространяется на все xi, i = 1, 2, …, n, для которых вероятности p(xi)0. Элементы x1 , x2 ,..., xn образуют множество n и могут быть числами, буквами алфавита, изображениями, а также любыми символами или их совокупностями. Соответствие xi pi определяет распределение PX случайной величины X. Для чисел p1 , p2 ,..., pn должно выполняться равенство pi 1 (1.2) Следует отметить, что значение W(X) в формуле (1.1) определяется исключительно набором чисел p1 , p2 ,..., pn и не зависит от x1 , x2 ,..., xn . Согласно Шеннону величина W(X) должна являться характеристикой количества информации, содержащейся в X. Термин «количество информации» требует пояснения. Предположим, что мы получаем последовательные2 «сигналы», которые являются элементами множества n. Один сигнал – в единицу времени. Рассмотрим сообщения, В теории информации для дискретных случайных величин логарифмы обычно берутся по основанию два. Сообщения могут, как это обычно и происходит в экономике, быть представлены одновременными данными (показателями). Тем не менее, в таком случае мы будем считать, что получение/регистрация данных происходит последовательно, то есть один элемент в единицу времени. Подобная регистрация может представлять собой оформленный по алфавиту список (или в каком-нибудь другом заранее выбранном порядке) компаний или продуктов, представленных на рынке, а также любых других показателей. При таком представлении длина сообщения будет равна размеру списка. 1 2 1 состоящие из N сигналов. Число N называется длиной сообщения. Количество X(N)3 различных сообщений длины N (при больших значениях N) зависит от распределения PX. Чтобы это понять рассмотрим сообщения, состоящие из двух элементов: n = {0, 1}, длиной четыре. Для распределения: p(1) = p(0) = 0.5, количество различных сообщений4 равно 6: (0,0,1,1), (0,1,0,1), (0,1,1,0), (1,0,0,1), (1,0,1,0), (1,1,0,0) Для распределения: p(0) = 0.75; p(1) = 0.25, количество различных сообщений будет уже меньше и равно 4: (1,0,0,0), (0,1,0,0), (0,0,1,0), (0,0,0,1) Естественно, что с возрастанием N количество сообщений в каждом из двух случаев будет возрастать. Однако нетрудно показать [Cover, Thomas (1991)], что отношение log{ X ( N )} W (X ) N (1.3) Таким образом, в соответствии с формулой (1.3) мы можем определить энтропию следующим образом. Определение 1. W(X) является количеством информации, приходящейся на один сигнал (при неограниченном увеличении длины сообщений), и, тем самым, является мерой количества информации, требуемой для представления/хранения случайной величины X. На определение энтропии можно посмотреть и с другой стороны. Количество сообщений (данной длины) определяется неопределенностью заложенной в распределении PX. Чем больше неопределенность, тем больше потенциальных сообщений мы можем получить. В первом рассмотренном случае, когда имеется полная неопределенность относительно, каким будет следующий сигнал, число возможных сообщений будет больше, чем во втором случае, когда мы знаем, что появление нуля в три раза вероятней, чем появление единицы. Таким образом, энтропия является мерой неопределенности случайной величины X. Мы можем сделать вывод, что концепция энтропии выражает одновременно два ключевых для теории информации понятия – количества информации и неопределенности. 3 Шеннон предложил заменить число сообщений X(N) на его логарифм по основанию два. Это соответствует более компактному представлению информации в двоичном коде, то есть в битах. В действительности такое представление является кодированием. Число log{X(N)} (с точностью до ближайшего целого, превосходящего или равного log{X(N)}), представляет собой количество битов необходимых для кодирования всех X(N) сообщений. 4 Мы предполагаем, что количество нулей и единиц в каждом сообщении пропорционально их вероятностям. При больших значениях N такое предположение будет оправдано. 2 Имеется другой подход5 к понятию энтропии, основанной не на количестве информации, а на ее ценности. Так как концепция ценности информации является более эфемерной, чем количество, то здесь принимается аксиоматический подход, то есть выдвигаются те свойства, которым должно удовлетворять понятие, и уже на основе этих свойств определяется само понятие. Предположим, что мы хотим измерять ценность информации, соответствующей получению сигнала xi, некоторой информационной функцией g(pi), где pi = p(xi). Естественно предположить, что g является убывающей функцией, то есть, чем менее вероятной является информация, тем больше ценность информации, что это событие произошло. Далее, если имеются два независимых события, то ценность информации совместного появления этих двух событий следует измерять суммой соответствующих ценностей для каждого из событий. Наконец, детерминированное событие (pi = 1) не имеет никакой информационной ценности, а событие близкое невозможному ( pi 0 ) имеет как угодно большую ценность. Вышесказанные соображения приводят к следующему набору аксиом для непрерывной неотрицательной монотонно убывающей функции g(p), заданной на отрезке [0;1]: 1. g(p1p2) = g(p1) + g(p2); 2. g(1) = 0; 3. g(0) = Очевидно, что функция g ( p) c log( p) (1.4) где с – произвольная положительная константа будет удовлетворять перечисленным трем условиям. Так как ценность информации является относительным понятием, то в качестве с в формуле (1.4) можно взять любое положительное число. Мы будем считать, что с = 1. Запишем формулу (1.1) с помощью оператора математического ожидания6. W ( X ) EX ( log p( x)) (1.5) Формула (1.5) приводит нас к новому определению энтропии: Определение 2. Энтропия случайной величины равна математическому ожиданию ценности информации при получении одного сигнала. Таким образом, согласно второму определению энтропия является агрегированным показателем ценности информации, ассоциированной со случайной величиной, с весами равными вероятностям p1 , p2 ,..., pn . А. Н. Колмогоров [Колмогоров (2005)], называл такой подход «вероятностным». Приведем высказывание А. Н. Колмогоров относительно значения формулы (1.1): «Эта же формула выражает и количество информации, необходимое для устранения неопределенности в задании Х лишь распределением PX , т. е. информации, содержащегося в указании точного значения Х.» 5 6 Мы напомним, что математическое ожидание функции g(x) вычисляется по формуле EX ( g ) pi g ( xi )) . 3 Следующим важным этапом в развитии концепции энтропии было введенное Кульбаком и Лейблером [Кульбак (1967)] понятие относительной энтропии. Рассмотрим его более подробно. Если имеются два распределения P { p1 ,..., pn } и Q {q1 ,..., qn } , заданные на множестве n {x1 , x2 ,..., xn } , то информационным количеством Кульбака-Лейблера или относительной энтропией распределения P относительно Q называется величина KL( P, Q) pi log( pi / qi ) (1.6) Формулу (1.6) можно записать в виде KL( P, Q) pi log( pi ) pi log(qi ) EP ( log(q( x))) W ( P) (1.7) Мы укажем два важных свойства относительной энтропии KL(P,Q): 1. KL( P, Q) 0 , причем равенство имеет место тогда и только тогда, когда P = Q; 2. KL( P,U ) W (U ) W ( P) где распределение, соответствующее полной неопределенности 1 ( u1 u2 ... un ). n Предположим, что истинное распределение случайной величины X есть P, в то время, как мы ошибочно полагаем его равным Q.7 Тогда, согласно формуле (1.7), при определении ценности/неопределенности информации мы (в среднем) будем ошибаться на величину выражения, стоящего в правой части формулы (1.7). Таким образом, мы можем интерпретировать число KL(P,Q), как потерю (в среднем) информации при замене истинного распределения (P) на некоторое другое (Q). А. Тейл был один из первых, кто применил методы теории информации в экономических исследованиях. В частности он использовал относительную энтропию для оценки точности прогнозов. Однако наибольшую известность приобрел индекс Тейла для измерения социального неравенства [Theil (1967)], который является обобщением энтропии Шеннона. В заключении к этому разделу мы покажем, как введенные понятия обобщаются на случай непрерывных случайных величин. Предположим, что случайная величина X принимает значения на открытом подмножестве конечномерного евклидова пространства с непрерывной плотностью распределения f(x) > 0. При таком представлении вероятность случайной величины как бы «размыта» по множеству , а не сконцентрирована в отдельных точках, как в дискретном случае. Дифференциальная энтропия (Шеннона) определяется формулой U – W ( X ) W ( f ) f ( x) ln f ( x)dx , (1.8) 7 Например, при применении модели с распределением Q. 4 Условие нормализации (1.2) заменится на f ( x)dx 1 (1.9) Относительная энтропия Кульбака-Лейблера для непрерывных распределений p и q является непосредственным обобщением формулы (1.6) для дискретного случая: KL( p, q) p( x) ln[ p( x) / q( x)]dx (1.10) 2. Вычисление энтропии8 Сформулируем сначала основные свойства энтропии, непосредственно из формулы (1.10) [Cover, Thomas (1991)]: которые следует 1. W(X+h) = W(X) (инвариантность относительно сдвига); 2. W ( X1 , X 2 ,..., X k ) W ( X i ) для независимых случайных величин X1 , X 2 ,..., X k ; 3. W ( X ) p p 1 ln 2 ln 2 2 2 (2.1) где f(x) плотность р-мерного нормального распределения ( X имеем W (X ) где X 1 (1 ln 2 ln 2 ) 2 N ( , ) ). При p = 1 мы (2.2) N ( , 2 ) . Так как в реальной ситуации f(x) неизвестна, то для оценки энтропии по наблюдениям x1 , x2 ,..., xn 9 поступают одним из следующих способов: 1. Вычисления происходят в два этапа. Сначала определяется ядерная оценка плотности fn(x), а затем находится интеграл в правой части формулы (1.10). 2. Первый этап такой же, как и п. 1, а для вычисления интеграла используется формула (1.6): Wn ( X ) 1 n ln f ( xi ) n i 1 (2.3) Так как в дальнейшем мы будем иметь дело только с дифференциальной энтропией, то слово «дифференциальная» будет опускаться. 9 Наблюдения x1 , x2 ,..., xn расположены в порядке возрастания. 8 5 3. Васисек [Vasicek (1976)] предложил следующую формулу, которая учитывает специфику подынтегрального выражения в формуле (1.11): 1 nm n ln ( xi m xi ) n i 1 m где m берется равным O(n1/3). Wmn ( X ) (2.4)10 3. Энтропия продовольственной инфляции в РФ за 2002-2010 гг. Мы оценивали энтропию помесячного изменения инфляции 22 видов продовольственных товаров взятых с сайта Росстата (www.gks.ru) с помощью формулы (2.4). Результаты приведены на рис. 1. -2 -2.2 -2.4 -2.6 -2.8 -3 -3.2 -3.4 -3.6 -3.8 -4 Рис. 1. Динамика энтропии помесячного изменения инфляции продовольственных товаров в РФ в 2002-2010 гг. Пики значений энтропии на рис. 1 приходятся на сентябрь - октябрь 2007 г. Как раз в это время в Россию начались скачки цен, вызванные мировым продовольственным кризисом 2007- 2008 гг. Засухе 2010 г. также соответствуют высокие значения энтропии. Мы можем сделать вывод, что ценовая неопределенность выражается в большом разбросе изменений в росте цен, то есть, увеличении энтропии. Список литературы 10 Формула (2.4) является небольшой модификацией формулы, предложенной Васисеком. 6 Колмогоров А. Н. (2005). Теория передачи информации, Избранные труды в 6 томах. Том 3, Теория информации и теория алгоритмов. М.: Наука. Кульбак С. (1967). Теория информации и статистика. М.: Наука. Cover, T. M., Thomas, J. A. (1991). Elements of Information Theory. New York: John Wiley. Shannon C. E. (1948). A Mathematical Theory of Communication // Bell System Technical Journal, Vol. 27, pp. 379-423. (Имеется русский перевод: Шеннон К. (1963). Математическая теория связи в книге «Работы по теории информации и кибернетике». М.: ИЛ, 243-332.) Theil H. (1967). Economics and Information Theory. North-Holland. Vasicek O. (1976). A test for normality based on sample entropy // J. Roy. Statist. Soc. Ser. B 38, 54-59. 7