УДК 004.4(06) Технологии разработки программных систем Ю.Ю. ВОЕВОДИН, Н.И. ТИХОНОВА Научный руководитель – Л.Г. КОМАРЦОВА, д.т.н., профессор Калужский филиал МГТУ им. Н.Э. Баумана ИССЛЕДОВАНИЕ МЕТОДОВ КЛАСТЕРИЗАЦИИ В ДИНАМИЧЕСКИХ ИНТЕЛЛЕКТУАЛЬНЫХ СИСТЕМАХ Проведено сравнение методов кластеризации для построения динамических, эволюционно развивающихся интеллектуальных систем Основные проблемы, которые необходимо решать для интеллектуальной обработки информации в реальном масштабе времени, связаны с выбором соответствующего метода кластеризации. Наиболее известным методом кластеризации является k-means, который находит k различных групп данных (кластеров) и их кластерных центров как среднее векторов данных, находящихся внутри кластеров. Эта процедура минимизирует расстояние каждого вектора до его ближайшего кластерного центра. Обычно это достигается путем значительного числа итераций. On-line версия k-means алгоритма [1] основывается на априорном знании о распределении входных данных. Для каждого нового вектора обновляется только ближайший кластерный центр. Это правило известно как «локальный» k-means (или победитель забирает все), который может работать с данными, поступающими в интеллектуальную систему непрерывно. Другие известные методы кластеризации DSA (Dynamic Clustering Algorithm) [2], FCMC (Fuzzy C-means Clustering) [3] хотя и являются эффективными методами, работают в режиме off-line и требуют, как и алгоритм k-means, заранее определенного числа кластеров. Менее известным является эволюционный кластерный метод (Evolving Clastering Method –ECM) [4], который обеспечивает кластеризацию на протяжении всего жизненного цикла системы при непрерывном поступлении входных данных. Он предназначен для on-line кластеризации, хотя и включает специальную методику для уточнения кластерных центров при обучении в режиме off-line, что позволяет проводить смешанное обучение при функционировании ИС. Основное достоинство алгоритма заключается в том, что, в отличие от других методов кластеризации, число кластеров заранее не определяется и может меняться в режиме on-line по мере поступления входных данных. Ограничение заключается в том, что для каждого кластера ищется максимальное расстояние между примером и ближайшим кластерным центром, и это расстояние не может быть больше заданной величины Dist. Однако в процессе эволюции (в режиме on-line) эта величина может меняться в зависимости от текущей ошибки кластеризации. Сравнение алгоритмов кластеризации осуществлялось на тех же тестовых функциях, что и в [5]. Метод K-means (off-line) Fuzzy C-means (off-line) ECM (on-line) Ошибка E –обучение 3.3 1.4 1.2 Ошибка E-обобщение 6.3 5.8 5.3 Эксперименты показали, что ошибка классификации на обучающей и тестовой выборке для ECM, обучающегося в режиме on-line, даже меньше, чем для традиционных методов. Основные достоинства ECM: более высокая скорость работы; не требуется предварительное определение числа кластеров; создание кластеров в on-line режиме; возможность трассировки данных. Основная трудность реализации алгоритмов online без учителя, в отличие от обучения с учителем, – возможность не достижения минимума ошибки обучения. Поэтому целесообразно чередовать циклы обучения с учителем и без учителя. Список литературы 1. MacQueen J. Some methods for classification and analysis of multivariante observations. In Proc. Fifth Berkely Symposium of Mathematical, Statistical and Probability.Vol.1.1967.pp.281-297 2. Moody J., Darken C. Fast learning in networks of locally-turned processing units. Neural Computation, 1(2), 281-294. 3. Bruske J., Ahrns L., Sommer G. An integrated architecture for learning of reactive behaviors based on dynamic cell structures. Robotics and Autonomous Systems. 22, 1998. pp. 81-102. 4. Bezdek (ed.) Analysis of fuzzy information . Vols. 1,2, 3. CRC Press. 1987. 5. Kasabov N. Song Q. DENFIS: Dynamic evolving neuro-fuzzy inference system and its application for time-series prediction. IEEE. Trans. Fuzzy system, 10(2).pp. 144-154. _______________________________________________________________________ ISBN 5-7262-0710-6. НАУЧНАЯ СЕССИЯ МИФИ-2007. Том 16 1