Информатика, вычислительная техника и инженерное образование. – 2014. − № 3 (18) УДК 681.3.06 Л.А. Гладков, Н.В. Гладкова, В.Н. Гордиенко* ПРОБЛЕМЫ И ПЕРСПЕКТИВЫ РЕШЕНИЯ ЗАДАЧ КЛАССИФИКАЦИИ ДАННЫХ В СОВРЕМЕННЫХ ИНФОРМАЦИОННЫХ СИСТЕМАХ В статье рассматриваются актуальные проблемы построения эффективных систем извлечения и обработки данных. Сформулирована постановка задачи классификации данных, приведены примеры построения классификации систем по их сложности и числу входящих в них элементов. Описаны некоторые популярные методы классификации данных. Проведен анализ их достоинств и недостатков. Предложены новые перспективные подходы к построению подсистем и методов классификации данных на основе использвания гибридных интеллектуальных моделей и методов вычислительного интеллекта. Извлечение данных, задача классификации, классификация систем, гибридные интеллектуальные системы. Gladkov L.A., Gladkova N.V., Gordienko V.N. PROBLEMS AND PROSPECTS OF THE DECISION OF PROBLEMS OF CLASSIFICATION OF DATA IN MODERN INFORMATION SYSTEMS In article actual problems of construction of effective systems of data mining processing are considered. Statement of a problem of classification of data is formulated, examples of construction of classification of systems on their complexity and number of elements entering into them are resulted. Some popular methods of classification of data are described. The analysis of their highs and lows is carried out. New perspective approaches to construction of subsystems and methods of classification of data on a basis использвания hybrid intellectual models and methods of computing intelligence are offered. Data mining, classification problem, classification of systems, hybrid intellectual systems. Введение. Проблемы повышения качества и сложности создаваемых автоматизированных устройств и систем в различных областях экономики и техники связывают с возможностью их интеллектуализации, т.е. придания создаваемым техническим объектам и системам ряда функций обычно выполняемых человеком. В этом смысле одной из важнейших задач является создание эффективных средств обработки и интеллектуального анализа данных, извлечения знаний, а также средств поиска закономерностей для использования их в системах принятия решений. Задача интеллектуального анализа и извлечения знаний (Data Mining) подразумевает необходимость разработки новых эффективных технологий выявления в больших массивах данных неявной и неструктурированной информации, неочевидных, но полезных закономерностей. * Работа выполнена при финансовой поддержке РФФИ (грант № 14-07-00829) 1 Информатика, вычислительная техника и инженерное образование. – 2014. − № 3 (18) Основное отличие методов Data Mining от традиционных методов анализа данных состоит как раз в возможности поиска скрытых закономерностей, и выработки на их основе прогнозов и гипотез. Такая постановка задачи предопределяет и основные недостатки технологий Data Mining. К ним можно отнести [1]: сложность разработки и эксплуатации; сложность подготовки данных; большой процент недостоверных или бессмысленных решений; высокая стоимость. Отличительная особенность Data Mining – это гибкое сочетание возможностей математических методов и последних разработок в области создания интеллектуальных информационных систем [2]. Так, например, искусственные нейронные сети эффективно используются для решения задач прогнозирования и оценки, эволюционные и генетические алгоритмы представляют собой мощное средство поиска оптимальных решений на больших объемах данных, математический аппарат нечеткой логики является признанным инструментом, основой для построения различных систем логического вывода и представления знаний и т.д. [3] По мнению различных экспертов из-за существенных различий между инструментами разработчиков программного обеспечения технологии Data Mining перед применением необходимо тщательно изучить на предмет их совместимости и корректности будущих результатов. При этом справедливо считается, что результаты применения технологий Data Mining на восемьдесят процентов зависят от уровня подготовки исходных данных, который выполняется до начала работы собственно алгоритма [4]. Для успешного решения большинства из перечисленных проблем необходимо привлечение к разработке специалистов из различных предметных областей, тщательный предварительный анализ и выбор модели данных, а также эффективная проверка адекватности полученных моделей. Задача классификации. Классификация является наиболее распространенной и часто решаемой задачей в Data Mining. Решение задачи класссификации подразумевает распределение рассматриваемых предметов или явлений по категориям в соответствии с некими признаками, отражающими природу изучаемых явлений, и расположение их в определенном порядке, отражающем степень их сходства [1]. Тогда с формальной точки зрения процесс классификации – это разбиение множества исследуемых объектов на подмножества в соответствии с заданным критерием. Важно понимать, что классификация − это только модель реальности, и, как любая другая модель она выстраивается относительно какого-то заданного признака, и не может обладать свойством полноты. Сама классификация выступает в качестве инструмента системного анализа. С ее помощью структурируется объект исследования, а построенная классификация является моделью этого объекта. В соответствии с задачами системного исследования можно выделить два типа определения системы – дескриптивное и конструктивное. Дескриптивное (описательное) – определение системы через ее свойства, через внешние проявления. Например, ключ – это предмет, легко открывающий замок. Конструктивное определение – описание через элементы системы, связанные с основным системообразующим фактором – с функцией. В конструктивном плане 2 Информатика, вычислительная техника и инженерное образование. – 2014. − № 3 (18) система рассматривается как единство входа, выхода и процессора (преобразователя), предназначенных для реализации определенной функции. Существует ряд подходов к разделению систем по сложности. К сожалению, нет единого определения этому понятию, нет и четкой границы, отделяющей простые системы от сложных. Разными авторами предлагались различные классификации сложных систем. Например, признаком простой системы считают сравнительно небольшой объем информации, требуемый для ее успешного управления. Системы, в которых не хватает информации для эффективного управления, считают сложными. Также можно встретить такую оценочную шкалу сложности систем в зависимости от числа их элементов: - малые системы (10–103 элементов); - сложные системы (104–106); - ультрасложные (107–1030 элементов); - суперсистемы (1030–10200 элементов). Простые − это наименее сложные системы. Сложные − это системы, отличающиеся разветвленной структурой и большим разнообразием, внутренних связей. Интерес представляет еще одна крассификация сложности систем охватывающая неживые природные системы, также животные, растительные и социальные системы (табл. 1) [5]. Таблица 1 Классификация систем по уровню сложности Тип системы Уровень сложности Примеры Неживые Статические структуры (остовы) Кристаллы системы Простые динамические структуры с Часовой механизм заданным законом поведения Кибернетические системы с управляе- Термостат мыми циклами обратной связи Живые си- Открытые системы с самосохраняемой Клетки стемы структурой (первая ступень, на которой возможно разделение на живое и неживое) Живые организмы с низкой способно- Растения стью воспринимать информацию Живые организмы с более развитой Животные способностью воспринимать информацию, но не обладающие самосознанием Системы, характеризующиеся самосо- Люди знанием, мышлением и нетривиальным поведением Социальные системы Социальные организации Трансцендентные системы или системы, лежащие в настоящий момент вне нашего познания При изучении любых объектов и процессов, в том числе и систем, постоянно решаются задачи классификации. С развитием информационных технологий при3 Информатика, вычислительная техника и инженерное образование. – 2014. − № 3 (18) обрели актуальность методы классификации и кодирования информации. В бывшем СССР существовали довольно хорошая научно-методическая база и широкая система классификаторов технико-экономической информации. Однако современные рыночные условия в экономике потребовали существенной модернизации действующих классификаторов и создания новых. В Российской Федерации принята Государственная программа перехода на принятую в международной практике систему учета и статистики в соответствии с требованиями развития рыночной экономики. Объектами классификации и кодирования выступают: статистическая информация, макроэкономическая финансовая и правоохранительная деятельность, банковское дело, бухгалтерский учет, стандартизация, сертификация, производство продукции, предоставление услуг, таможенное дело, торговля и внешнеэкономическая деятельность. Методы классификации. В классификаторах применяется два метода классификации: иерархический и фасетный. Выбор между этими двумя методами зависит от особенностей конкретной предметной области. При выборе системы классификации необходимо учитывать ряд требований: достаточная емкость и необходимая полнота, которые гарантируют охват всех объектов классификации в заданных границах; оправданная глубина; обеспечение возможности решения комплекса задач различного уровня; возможность расширения множества классифицируемых объектов и внесения необходимых изменений в структуры классификации; обеспечение возможности сопряжения с другими классификациями однородных объектов; обеспечение простоты ведения классификатора. Каждый из перечисленных методов имеет свои достоинства и недостатки [5]. Основными преимуществами иерархического метода является большая информационная емкость, традиционность и привычность применения, возможность создания для объектов классификации мнемонических кодов, несущих смысловую нагрузку. Серьезным недостатком иерархической классификации является недостаточная гибкость структуры, обусловленная фиксированным основанием деления и заранее установленным порядком следования, не допускающим включение новых объектов и классификационных группировок. Таким образом, при изменении состава объектов классификации и характеристик объектов, требуется коренная переработка всей классификационной схемы. Основным преимуществом классификации с использованием фасетного метода является гибкость её структуры построения. Изменения в любом из фасетов не оказывают существенного влияния на все остальные. Большая гибкость обуславливает хорошую приспособляемость метода к меняющемуся характеру решаемых задач. При фасетной классификации появляется возможность агрегации объектов и осуществления информационного поиска по любому сочетанию фасетов. Основными недостатками фасетного метода классификации являются неполное использование емкости, нетрадиционность и иногда сложность применения. В процессе классификации набор исследуемых экземпляров данных случайным образом делится на два непересекающихся подмножества, называемых обучающей последовательностью и тестовой последовательностью. Тестовая последовательность полностью доступна алгоритму добычи данных, поэтому у него есть 4 Информатика, вычислительная техника и инженерное образование. – 2014. − № 3 (18) доступ к атрибутам экстраполяции и целевому атрибуту для каждого экземпляра данных. Цель алгоритма – получить связь между атрибутами экстраполяции и целевым атрибутом с помощью обучающей последовательности. Для этого алгоритм получает доступ, как к атрибутам экстраполяции, так и к целевому атрибуту всех элементов обучающей последовательности. Полученная связь затем используется для экстраполяции класса (значения целевого атрибута) экземпляров данных в тестовой последовательности. Важным вопросом является точность полученнаемых оценок, их близость к действительности по всему неизвестному заранее распределению наборов данных. Вообще, чем больше проверочное множество, тем более точной будет оценка (меньше ее разброс), но в любом случае полезно определить, насколько высока степень точности получаемых оценок. Это можно сделать, вычисляя доверительный интервал для данного уровня статистического значения. Первое, что стоит отметить − когда мы измеряем степень точности классификации на независимом проверочном множестве, мы фактически выполняем случайный эксперимент, так как проверочное множество − случайная выборка исходных данных. Если мы повторяем этот эксперимент много раз, каждый раз с различной случайной выборкой, используемой в качестве независимого проверочного множества, мы ожидаем, что степень точности изменится по различным проверочным множествам. Степень точности на конкретном проверочном множестве выражается случайной переменной после биномиального распределения. Поскольку число экспериментов растет, биномиальное распределение может быть приближено к нормальному распределению. Пусть Accs - степень точности классификации классификатора на независимом проверочном множестве S, и пусть AccD − истинная степень точности классификации по всему неизвестному распределению D. Отметим, что Accs − объективная оценка AccD, но не идеальная оценка последнего. Мы ожидаем, что Accs изменится в зависимости от конкретного преобразования проверочной установки S, как упомянуто выше. Чтобы определить, насколько точна оценка Accs, мы вычисляем доверительный интервал для данной степени точности CL следующим образом (применяя нормальное приближение к биномиальному распределению): Accs + zCL-StdDevs, где zCL − значение стандартной нормальной случайной переменной, связанной с заданной степенью точности CL, а StdDevs − стандартное отклонение оценки Accs от значения zCL для различных степеней точности (выраженные в %). Классифика́тор − систематизированный перечень наименованных объектов, каждому из которых в соответствие дан уникальный код. Классификация объектов производится согласно правилам распределения заданного множества объектов на подмножества (классификационные группировки) в соответствии с установленными признаками их различия или сходства. Применяется в Автоматизированных системах управления и обработке информации. Классификатор является стандартным кодовым языком документов, финансовых отчётов и автоматизированных систем. В контексте правил прогнозирования, общепринятой практикой является оценка качества обнаруженных правил по отношению к их прогнозируемой точности. Важно иметь ввиду, что точность должна определяться на отдельном наборе тестов, содержащих образцы данных, которые не видны в процессе прохождения этих тестов. 5 Информатика, вычислительная техника и инженерное образование. – 2014. − № 3 (18) Вместе с тем, расширение поля толкований различных признаков в названии информационных систем и проектная документация к ним, так или иначе, должны быть унифицированы, опираться на действующую систему международных и отечественных стандартов и принятую отраслевую онтологию информационных систем. Без этого невозможно достижение сбалансированного соответствия трёх уровней проектного соглашения: управленческое, языковое/платформенное (кросплатформенное), онтологическое соглашение. Комплексное разрешение этой проблемы видится в создании и использовании в качестве основания для описания названий и признаков информационных систем в той или иной отрасли соответствующего отраслевого классификатора информационных систем, отражающего требования указанных выше стандартов и принятое поле онтологических понятий и толкований. Структура такой системы основана на использовании ассоциативной памяти, дополнительная логика которой обеспечивает адресацию слов по содержанию. Ассоциативную систему (ассоциативный процессор) можно представить в общем случае как систему, обладающую следующими двумя свойствами: 1) данные, находящиеся в памяти, могут выбираться на основании их содержания или части их содержания (по их адресам); 2) операции преобразования данных, как арифметические, так и логические, могут осуществляться над несколькими множествами аргументов при помощи одной команды. Все это обусловливает необходимость использования в системах классификации математических методов и последних разработок в области создания интеллектуальных информационных систем, таких, например, как искусственные нейронные сети, кластерный анализ, байесовские сети, эволюционное программирование и генетические алгоритмы, методы визуализации данных и др. Как показывает практика использования различных информационных систем, разработка математически обоснованных четких моделей и методов, либо экономически неприемлемо, либо практически нереализуемо. В то же время системы, функционирующие на основе использования интегрированных, нечетких гибридных механизмов и моделей прекрасно зарекомендовали себя при решении такого рода задач, и представляют собой наиболее разумный компромисс [6]. Еще одним перспективным подходом к организации структуры методов Data Mining является использование мультиагентных архитектур. Понятие агента применительно к различным информационным системам может трактоваться по-разному. Многоагентная система может рассматриваться как популяция простых и независимых агентов, каждый агент которой самостоятельно реализуется в локальной среде и взаимодействует с другими агентами. Связи между различными агентами являются горизонтальными, а глобальное поведение агентов определяется на основе расплывчатых правил. Заключение. Интеграция различных направлений и методов вычислительного интеллекта и создание на этой основе новых гибридных технологий решения слабоформализованных задач одно из перспективных направлений исследований в области Data Mining в целом, и задачах классификации данных в частности. Основой для подобной интеграции является их терпимость к нечеткости и противоречивости используемых данных, гибкость и относительно низкая себестоимость [7]. Примерами таких гибридных технологий являются нечеткие нейронные сети, нечеткие генетические, эволюционные и адаптивные алгоритмы и т.д. Активная разработка новых форм и направлений подобной интеграции сейчас активно ведется, как России, так и за рубежом. 6 Информатика, вычислительная техника и инженерное образование. – 2014. − № 3 (18) БИБЛИОГРАФИЧЕСКИЙ СПИСОК 1. Чубукова И.А. Data Mining. Учебное пособие. – М.: Интернет-Университет Информационных Технологий; БИНОМ. Лаборатория знаний, 2006. 2. Карпов В.Э., Карпова И.П. К вопросу о принципах классификации систем // Информационные технологии, 2002. 3. Гладков Л.А., Гладкова Н.В. Проблемы и перспективы развития технологий интеллектуального анализа и извлечения данных // Конгресс по интеллектуальным системам и информационным технологиям «AIS-IT’09». Труды конгресса.– М.: Физматлит, 2009. − Т. 1. − С. 454-458. 4. Курейчик В.М. Особенности построения систем поддержки принятия решений // Известия ЮФУ. Технические науки. – 2012. − № 7. – С. 92-98. 5. Маковский А.Л., Новиков Д.Б., Силкина А.В. Концепция системы классификации. − 1999. 6. Гладков Л.А., Гладкова Н.В. Новые подходы к построению систем анализа и извлечения знаний на основе гибридных методов. // Известия ЮФУ. Технические науки. − 2010. − № 7 (108). − С. 146-154. 7. Борисов В.В., Круглов В.В., Федулов А.С. Нечеткие модели и сети. – М.: Горячая линия – Телеком, 2007. Статью рекомендовала к опубликованию д.т.н., профессор Л.С. Лисицына. Гладков Леонид Анатольевич Федеральное государственное автономное образовательное учреждения высшего профессионального образования «Южный федеральный университет». Факультет «Автоматики и вычислительной техники». E-mail: leo@tgn.sfedu.ru. 347928, г. Таганрог, Некрасовский, 44. Тел.: 8-8634-3716-25. Кафедра «Системы автоматизированного проектирования; к.т.н, доцент. Гладкова Надежда Викторовна Федеральное государственное автономное образовательное учреждения высшего профессионального образования «Южный федеральный университет». Факультет «Автоматики и вычислительной техники». E-mail: nadyusha.gladkova77@mail.ru. 347928, г. Таганрог, Некрасовский, 44. Тел.: 8-909-402-5380. Кафедра «Дискретной математики и методов оптимизации»; старший преподаватель. Гордиенко Виталий Николаевич Федеральное государственное автономное образовательное учреждения высшего профессионального образования «Южный федеральный университет». Факультет «Автоматики и вычислительной техники». E-mail: nonit3250@yandex.ru. 347928, г. Таганрог, Некрасовский, 44. Тел.: 8-919-889-93-67. Кафедра «Системы автоматизированного проектирования»; студент. Gladkov Leonid Anatolievich 7 Информатика, вычислительная техника и инженерное образование. – 2014. − № 3 (18) Federal State-Owned Educational Establishment of Higher Vocational Education “Southern Federal University”. The College of Automation and Computer Engineering. E-mail: leo@tgn.sfedu.ru. 347928, Nekrasovsky lane, 44, Taganrog, Russia. Phone: 8-8634-3716-25. Computer-aided design of department; PhD, assistant professor. Gladkova Nadezhda Victorovna Federal State-Owned Educational Establishment of Higher Vocational Education “Southern Federal University”. The College of Automation and Computer Engineering. E-mail: nadyusha.gladkova77@mail.ru. 347928, Nekrasovsky lane, 44, Taganrog, Russia. Phone: 8-909-402-5380. Department of the discrete mathematics and optimizarion methods; senior teacher. Gordienko Vitaliy Nikolaevich Federal State-Owned Educational Establishment of Higher Vocational Education “Southern Federal University”. The College of Automation and Computer Engineering. E-mail: nonit3250@yandex.ru. 347928, Nekrasovsky lane, 44, Taganrog, Russia. Phone: 8-919-889-93-67. Department of "Computer Aided Design»; student. 8