КЛАСТЕРНЫЙ АНАЛИЗ СОЦИАЛЬНО-ЭКОНОМИЧЕСКИХ ДАННЫХ Н.Ю. Благовещенский, А.А. Рубчинский Аннотация доклада При исследовании систем, в которых человеческий фактор является определяющим, трудно надеяться на достаточно адекватное представление реальности в виде стандартных (или, как теперь часто говорят, жёстких) математических моделей. Поэтому кластерный анализ, т.е. выделение из всей рассматриваемой совокупности нескольких групп в том или ином смысле похожих объектов, является одним из наиболее подходящих инструментов исследования в подобных плохо формализуемых ситуациях. Обычно для кластерного анализа требуется информация о степени похожести (или непохожести) пар рассматриваемых объектах. При этом в некоторых методах (в том числе и в используемом в данной работе) используется значительно более «мягкая» порядковая информация о похожести объектов. Точнее: для каждого объекта имеется список нескольких объектов, которые являются более похожими на данный объект, чем все остальные объекты. На основании этой информации строится так называемый граф соседства и все дальнейшие операции осуществляются уже только с этим графом, без привлечения других данных. Некоторое представление о характере возникающих при кластерном анализе трудностей могут дать следующие условные изображения. На рис.1а представлены данные, которые выделяются почти любым методом. На рис.1б показано другое исходное множество, в котором выделение кластеров выглядит не столь очевидным. На рис.1в указаны кластеры для данных рис. 1б, которые в точности совпадают с кластерами рис.1а. Наконец, на рис.1г показаны те же самые кластеры в несколько более «смазанной» ситуации, когда нет столь чётких границ. Приведённые рисунки носят иллюстративный характер. Как правильность, так и неправильность результатов кластеризации для множеств точек на плоскости усматривается непосредственно. Тем не менее, такие картинки позволяют «отсечь» многие методы, поскольку вряд ли можно ожидать разумных результатов в сложных случаях, если они не справляются с гораздо более простыми множествами точек на плоскости. В рассмотренных реальных ситуациях объектами были акции различных компаний (из США, России и Швеции) и депутаты государственной Думы. В качестве расстояний между объектами использовались коэффициенты корреляции между курсами акций (с октября 2008 по ноябрь 2010) и обычное евклидово расстояние между результатами голосований любых двух депутатов. Данные по голосованиям рассматривались в каждом месяце по отдельности (200 – 400 голосований в месяц оказывается достаточным для содержательных выводов). Присущая этим, как и многим другим социально-экономическим данным, нестабильность и «размазанность» инициировали использование искусственной рандомизации и многократного повторения процесса выделения кластеров. Это позволило дать точную характеристику устойчивости кластеров и, главное 1 а б в г Рис.1 повторения процесса выделения кластеров. Это позволило дать точную характеристику устойчивости кластеров и, главное 1) найти кластеры, которые не обнаруживаются другими известными методами; 2) дать обоснованный ответ о полном отсутствии кластеров там, где их нет. На рис.2 условно показана часть использованного алгоритма кластеризации, относящаяся Рис.2 к рандомизации и повторениям алгоритма. Кластер из семейства Q встречается при всех 4-ёх 2 реализациях, кластер из семейства Р – при трёх и кластер из семейства R – при двух реализациях. Для определения устойчивости кластера учитывается не только число их появлений, но и то, насколько совпадают кластеры из разных реализаций. Используемый новый алгоритм построения кластеров подробно описан в работе [1]. Кратко опишем некоторые экспериментальные результаты. 1. При анализе акций 500 компаний США на основе матрицы корреляций было выявлено 8 кластеров. Почти все кластеры объединяли фирмы, занятые одним и тем же (или близким) видам деятельности: добыче золота, добыче нефти, газа и угля, страхованию, инвестициям и пр. Коэффициенты корреляции внутри групп оказались порядка 0,65. Для российской биржи (151 компания) было найдено два кластера. Оба состоят из компаний, занятых производством электроэнергии. Интересно, что коэффициенты корреляции внутри кластеров, в отличие от данных по США, оказались низкими – порядка 0,2. Однако детальный анализ показал, что коэффициенты корреляции с остальными акциями ещё ниже. Наконец, для шведской биржи (266 компаний) кластеры не были выделены, что говорит об отсутствии фирм, занятых какой-то особой от других деятельностью, которая в период кризиса приводит к заметно отличному от остальных характеру спроса на их акции. 2. Были проанализированы результаты голосований в 3-ей государственной думе в период с 01.09.2001 по 31.01.2002. Период был выбран, поскольку 01.12.2001 произошло знаковое политическое событие – создание партии «Единая Россия» в результате объединения «Единства» и ОВР. Разбиение думы на фракции было сопоставлено с найденными разбиениями по результатам голосований. В результате сопоставления для каждой фракции был определён коэффициент, названный «однородностью». Динамика этого коэффициента такова: 09.2001 10.2001 11.2001 12.2001 01.2002 «Единство» 0,71 0,90 0,68 0,92 0,84 ОВР 0,42 0,63 0,38 0,77 0,90 Можно сделать следующие грубые выводы. До объединения однородность у фракции «Единство» была значительно выше, чем у фракции ОВР. Но после объединения однородность заметно выросла у обеих фракций. Эти данные показывают, что ведущей силой (и, возможно, инициатором) объединения была партия «Единство», а ОВР была ведомой. В то же время низкий уровень однородности у ОВР свидетельствует о реальной возможности раскола. Можно предположить, что объединение с более сильным и устойчивым партнёром помогло этого избежать. Литература 1. Rubchinsky A. Divisive-Agglomerative Classification Algorithm Based on the Minimax Modification of Frequency Approach: NRU HSE, Moscow. Working paper WP7/2010/07. – 48 p. 3