Ю.Ю. ВОЕВОДИН, Н.И. ТИХОНОВА Научный руководитель – Л.Г. КОМАРЦОВА, д.т.н., профессор

реклама
УДК 004.4(06) Технологии разработки программных систем
Ю.Ю. ВОЕВОДИН, Н.И. ТИХОНОВА
Научный руководитель – Л.Г. КОМАРЦОВА, д.т.н., профессор
Калужский филиал МГТУ им. Н.Э. Баумана
ИССЛЕДОВАНИЕ МЕТОДОВ КЛАСТЕРИЗАЦИИ
В ДИНАМИЧЕСКИХ ИНТЕЛЛЕКТУАЛЬНЫХ СИСТЕМАХ
Проведено сравнение методов кластеризации для построения динамических, эволюционно развивающихся интеллектуальных систем
Основные проблемы, которые необходимо решать для интеллектуальной обработки информации в реальном масштабе времени, связаны с выбором соответствующего метода кластеризации. Наиболее известным методом кластеризации является k-means, который находит k различных групп данных (кластеров) и их
кластерных центров как среднее векторов данных, находящихся внутри кластеров. Эта процедура минимизирует расстояние каждого вектора до его ближайшего кластерного центра. Обычно это достигается путем
значительного числа итераций.
On-line версия k-means алгоритма [1] основывается на априорном знании о распределении входных данных. Для каждого нового вектора обновляется только ближайший кластерный центр. Это правило известно
как «локальный» k-means (или победитель забирает все), который может работать с данными, поступающими в интеллектуальную систему непрерывно.
Другие известные методы кластеризации DSA (Dynamic Clustering Algorithm) [2], FCMC (Fuzzy C-means
Clustering) [3] хотя и являются эффективными методами, работают в режиме off-line и требуют, как и алгоритм k-means, заранее определенного числа кластеров.
Менее известным является эволюционный кластерный метод (Evolving Clastering Method –ECM) [4], который обеспечивает кластеризацию на протяжении всего жизненного цикла системы при непрерывном поступлении входных данных. Он предназначен для on-line кластеризации, хотя и включает специальную методику для уточнения кластерных центров при обучении в режиме off-line, что позволяет проводить смешанное обучение при функционировании ИС.
Основное достоинство алгоритма заключается в том, что, в отличие от других методов кластеризации,
число кластеров заранее не определяется и может меняться в режиме on-line по мере поступления входных
данных. Ограничение заключается в том, что для каждого кластера ищется максимальное расстояние между
примером и ближайшим кластерным центром, и это расстояние не может быть больше заданной величины
Dist. Однако в процессе эволюции (в режиме on-line) эта величина может меняться в зависимости от текущей ошибки кластеризации.
Сравнение алгоритмов кластеризации осуществлялось на тех же тестовых функциях, что и в [5].
Метод
K-means (off-line)
Fuzzy C-means (off-line)
ECM (on-line)
Ошибка E –обучение
3.3
1.4
1.2
Ошибка E-обобщение
6.3
5.8
5.3
Эксперименты показали, что ошибка классификации на обучающей и тестовой выборке для ECM, обучающегося в режиме on-line, даже меньше, чем для традиционных методов. Основные достоинства ECM:
более высокая скорость работы; не требуется предварительное определение числа кластеров; создание кластеров в on-line режиме; возможность трассировки данных. Основная трудность реализации алгоритмов online без учителя, в отличие от обучения с учителем, – возможность не достижения минимума ошибки обучения. Поэтому целесообразно чередовать циклы обучения с учителем и без учителя.
Список литературы
1.
MacQueen J. Some methods for classification and analysis of multivariante observations. In Proc. Fifth Berkely Symposium of Mathematical, Statistical and Probability.Vol.1.1967.pp.281-297
2.
Moody J., Darken C. Fast learning in networks of locally-turned processing units. Neural Computation, 1(2), 281-294.
3.
Bruske J., Ahrns L., Sommer G. An integrated architecture for learning of reactive behaviors based on dynamic cell structures. Robotics and Autonomous Systems. 22, 1998. pp. 81-102.
4.
Bezdek (ed.) Analysis of fuzzy information . Vols. 1,2, 3. CRC Press. 1987.
5.
Kasabov N. Song Q. DENFIS: Dynamic evolving neuro-fuzzy inference system and its application for time-series prediction. IEEE.
Trans. Fuzzy system, 10(2).pp. 144-154.
_______________________________________________________________________
ISBN 5-7262-0710-6. НАУЧНАЯ СЕССИЯ МИФИ-2007. Том 16
1
Скачать