68 ПРИМЕМЕНЕНИЕ НОВЫХ МЕТОДОВ ПОИСКА ЗНАНИЙ В ЗАДАЧАХ ОЦЕНКИ СТОИМОСТИ ЖИЛЬЯ1 Д.П. Ветров2, Д.А. Кропотов3 Московский государственный университет им. М.В. Ломоносова, факультет ВМиК, 119992, Москва, ГСП-2, Ленинские горы, 1, vetrovd@yandex.ru 3 Вычислительный центр им А.А. Дородницына РАН, 119333, Москва, ул. Вавилова, д. 40, ВЦ РАН, dkropotov@yandex.ru 2 В работе рассматриваются вопросы применения методов поиска знаний в задачах оценивания стоимости жилья. Кратко изложен подход, позволяющий проводить автоматическое извлечение из массивов данных знаний, допускающих непосредственную интерпретацию. Описана схема принятия решения, которая может функционировать как в автономном режиме, так и непосредственно во взаимодействии с экспертом. Приведено решение одной важной практической задачи, представлен анализ полученных результатов и экспериментальное сравнение предложенного подхода с существующими аналогами. Введение Во многих задачах машинного обучения наряду с информацией, представленной в виде обучающей выборки, существуют априорные знания об исследуемом процессе. Эти знания (экспертная информация) могут быть выражены в виде качественных соотношений между признаками объекта и прогнозируемой величиной. Обычно эти вопросы относят к компетенции эксперта. С другой стороны, часто возникает обратная ситуация. Кроме решения собственно задачи прогноза скрытой переменной, необходимо понять механизмы, определяющие связь между наблюдаемой (признаки) и ненаблюдаемой переменной. В условиях, когда адекватную модель исследуемого процесса построить невозможно (например, эксперту не хватает информации), приемлемым средством оказывается система качественных зависимостей между признаками и прогнозируемой переменной. В случае, если эти зависимости выражены в доступных эксперту терминах, возникает возможность «обратной связи», при которой эксперт может вносить изменения во множество закономерностей. Удобным средством работы с качественными зависимостями является аппарат нечетких множеств [2]. _______________________________________ В данной работе описана идея использования нечеткой логики при проектировании нечетких экспертных систем и показана ее применимость на примере одной практически важной задачи оценки стоимости жилья. В главе 2 кратко описана идея построения нечеткого контроллера по множеству прецедентов. Основное внимание уделено проблеме автоматической генерации множества закономерностей. В третьей главе описывается решаемая задача, результаты применения нечеткого контроллера, анализ получившихся правил, сравнение с другими методами восстановления регрессии. Схема работы нечеткого контроллера В дальнейшем считаем, обучающая выборка что имеется n ( X ,T ) , ( x , t ) j j j 1 состоящая из наборов векторов признаков x Rd и значений прогнозируемой переменной Требуется по t . обучающей информации построить решающее правило, которое бы по вектору признаков x возвращало бы значение прогноза переменной t. Разобьем каждый признак x i на пересекающиеся нечеткие Работа выполнена при поддержке РФФИ (проекты №№06-01-08045, 05-01-00332, 05-07-90333, 07-01-00211, 07-01-12020) 1 69 множества A1i ,..., Aip принадлежности с функцией 1 A ( xi ) . 2 i 1 x (lk rk ) / 2 1 1 i (rk lk ) / 2 Здесь и - параметры гладкости, общие у всех множеств данного признака, а l и r - параметры, определяющие примерное положение данного множества на оси значений признака, причем Каждому такому rk lk 1 , k 1, p 1 . множеству поставим в соответствие лингвистическую переменную. Будем искать зависимости между признаками и прогнозируемой переменной в виде следующих лингвистических конструкций (правил): R : ЕСЛИ xi1 Aki11 И ... И xir Akirr , ТО y Bk* i k Обозначим посылку правила i1 ir Cons( R) ( Ak1 ,..., Akr ) , а следствие правила через Res( R) Bk* . порядком правила. Назовем число r Процесс генерации нечетких правил (метод эффективных сужений) подробно описан в работе [1]. Ключевыми понятиями для описания процесса генерации служат репрезентативность и эффективность правила. Определение 1. Репрезентативность правила определяется по формуле n rep( R) Аппарат нечеткой логики позволяет с помощью правил пересчитывать степени принадлежности к различным множествам в пространстве признаков в степени принадлежности в пространстве прогнозируемой переменной по следующей формуле R ( y) min( Ai1 ( xi1 ),..., Air ( xir ), Res ( R ) ( y)) . k1 kr Данная формула определяет т.н. контроллер Мамдани [2]. Предположим, что множество правил не пусто. Тогда прогноз осуществляется следующим образом M Frcst ( y ) решении задач со многими признаками правила, которые используют подмножества признаков, могут «накладываться» друг на друга. Для учета этого эффекта авторами предложено проводить взвешенное голосование по всем правилам. Окончательная формула прогноза получается с помощью дефаззификации множества по правилу центра тяжести. Параметры и , определяющие геометрию нечетких множеств, подбираются с помощью метода наименьших квадратов путем минимизации невязки прогноза на обучающей выборке. w m 1 m Rm M w m 1 ( y) , m где wm - вес правила Rm . Заметим, что последняя формула отличается от взятия максимума, обычно используемого в нечетких контроллерах, и степень принадлежности к множеству результата прогноза Frcst может быть больше единицы. Это связано с тем, что при j 1 Cons ( R ) (x j ) , n где Cons ( R ) ( x) min( Ai1 ( xi1 ),..., Air ( xir )) . k1 kr Определение 2. Эффективность правила определяется по формуле n eff ( R) min( j 1 Cons ( R ) ( x j ), Res ( R ) ( y)) . rep( R)n Обе величины принимают значения от нуля до единицы и, очевидно, определяют качество правила, его описательную способность. Опишем метод эффективных сужений. Шаг 1. Составляем все возможные правила первого порядка из имеющихся нечетких множеств, т.е. правила вида «ЕСЛИ X i1 Aik11 , ТО Y Bk ». Отбрасываем правила с репрезентативностью ниже определенного порога C1 . Правида с эффективностью выше порога C2 , объявляем искомыми правилами вывода. Шаг 2. Из правил, у которых репрезентативность оказалась выше C1 , а эффективность – ниже C2 , строим правила 70 второго порядка с целью повышения эффективности путем пересечения (сужения) посылок. Полученные правила, имеющие репрезентативность и эффективность выше соответствующих порогов, добавляем к множеству правил вывода. Заведомо неприемлемые правила второго порядка исключаются. Шаг i. Правила (i-1)-ого порядка, имеющие объединяем в rep( R) C1 , eff ( R) C2 , правила i-го порядка по следующему принципу: объединение любых двух правил, которые сужаются к некоторому правилу большего порядка, равно посылке нового правила, причем его порядок равен i. Заведомо неприемлемые правила порядка i исключаются. Данная процедура повторяется для каждого нечеткого множества в пространстве прогнозируемой переменной. 3. Доля промышленных территорий в районе. 4. Концентрация NO (долей на 10 миллионов). 5. Среднее количество комнат в домах района. 6. Доля ветхого жилья, построенного ранее 1940г. 7. Среднее расстояние до основных бостонских центров занятости. 8. Показатель доступности к радиальным магистральным дорогам. 9. Средняя сумма, уплачиваемая в виде налога на имущество. 10. Количество учеников в районе на одного учителя. 11. Неравномерность расового состава населения района. 12. Процент бедных слоев среди населения района. В работах [1], [3] описаны различные модификации и обобщения предложенного алгоритма, получены аналитические условия заведомой неприемлемости правил, предложены способы корректного выбора порогов C1 и C2 . В частности, доказано, что метод эффективных сужений позволяет находить все правила минимального порядка с эффективностью и репрезентативностью выше пороговых. В заключение стоит отметить, что предложенный способ построения нечетких экспертных систем на каждом шаге допускает как автоматический режим работы, так и установку всех характеристик в ручном режиме. Данные признаки использовались для создания базы знаний. В качестве обучающей использовалась выборка из 250 объектов. В процессе генерации знаний было найдено 246 правил. Наиболее значимыми (обладающими высокой репрезентативностью и эффективностью) явились следующие лингвистические зависимости: ЕСЛИ транспортные проблемы – существуют, ТО цены на жилье – средние; ЕСЛИ доля ветхого жилья – высокая И центры занятости – далеко, ТО цены на жилье – низкие; ЕСЛИ концентрация NO – высокая, ТО цены на жилье – низкие; ЕСЛИ уровень преступности – низкий, ТО цены на жилье – высокие; ЕСЛИ концентрация NO – низкая И расовый состав – однородный, ТО цены на жилье – высокие. Задача оценки стоимости жилья Для демонстрации возможностей системы использовалась задача оценки стоимости жилья в различных пригородах г.Бостона, взятая из UCI репозитория (http://www.ics.uci.edu/~mlearn/MLRepositor y.html). По 12 признакам необходимо определить среднюю стоимость стандартного частного жилого дома. В качестве признаков использовались следующие показатели: 1. Уровень преступности в районе (кол-во преступлений на душу населения). 2. Доля жилых зон в районе. Весь процесс генерации правил занял 4 секунды. Анализ самых значимых правил позволяет сделать вывод, что основными факторами, влияющими на цены на недвижимость, являются уровень преступности (4 вхождения в 20 самых значимых правил), среднее количество комнат в домах района и доля малообеспеченных слоев населения (последние признаки образуют правила с 71 наибольшими значениями эффективности и репрезентативности). Наименее важными факторами являются индекс доступности к радиальным транспортным дорогам и средняя сумма, уплачиваемая в виде налога на имущество (по 1 вхождению в 20 самых значимых правил). Найденные правила использовались для последующей оценки стоимости жилья 251 объекта тестовой выборки. Результаты работы представлены на рис.1 и в таблице. Цены на жилые дома 60 Тыс. $ 50 40 30 20 10 0 1 24 47 70 93 116 139 162 185 208 231 Реальная стоимость Прогноз Рис. 1. Результат работы нечеткого контроллера Для оценки качества прогноза было проведено сравнение с популярными методами восстановления регрессии: линейной (LR), обобщенной линейной регрессией (GLR), методом релевантных векторов (RVR) [6], а также методом релевантных собственных векторов (REVR) [4]. В таблице приведены средние квадратичные ошибки на обучающей и тестовой выборках. Таблица. Сравнение точности прогноза различных методов Метод TrainErr TestErr LR 3.17 7.79 GLR 1.77 7.04 RVR 3.19 7.2 REVR 3.21 6.97 ExSys 5.48 6.95 Из таблицы видно, что все методы склонны к переобучению (ошибка на обучении существенно ниже тестовой). Меньшая подверженность переобучению у нечеткого контроллера связана с тем, что каждое найденное правило подвергалось специальной проверке на статистическую достоверность. Это позволило избежать настройки на выбросы и шумы, содержащиеся в обучающей выборке. Заключение В работе была представлена модель генерации знаний, выраженных в виде связок вида «ЕСЛИ… ТО…», основанная на использовании аппарата нечетких множеств. Разработан специальный метод, позволяющий за минимальное время находить все правила, удовлетворяющие критерию значимости, обеспечивающему статистическую достоверность и высокую обобщающую способность найденных закономерностей. Процесс создания нечеткой экспертной системы разбит на ряд шагов, каждый из которых может быть проведен с привлечением эксперта или в автоматическом режиме. Применимость предлагаемого подхода продемонстрирована на примере одной важной задачи, традиционно решаемой с привлечением экспертов. Следует отметить, что достигнутый результат был получен при использовании системы в полностью автоматическом режиме. Список литературы 1. О.М.Васильев, Д.П.Ветров, Д.А.Кропотов. Представление и обнаружение знаний в экспертных системах для задач распознавания образов // ЖВМиМФ. – 2007. – Т.47, №8. – С.1431-1457. 2. Л.А. Заде. Понятие лингвистической переменной и его применение к принятию приближенных решений. Мир, М., 1978. 3. D.Kropotov, D.Vetrov. An Algorithm for Fuzzy Rules Generation in Fuzzy Expert Systems // Proc. of 17th International Conference on Pattern Recognition. - 2004. – Vol.1. - P. 212-215. 4. D.Kropotov, D.Vetrov. On One Method of NonDiagonal Regularization in Sparse Bayesian Learning // Proc. of ICML2007. 5. E.Mamdani. Advances in the linguistic synthesis of fuzzy controllers // Proc. 6th Internat. Symp. Multiple-Values Logic. - 1976. - P.196–202. 6. M.E. Tipping. Sparse Bayesian learning and the relevance vector machine // Journal of Mach. Learn. Res. – 2001. – Vol.1. – P.211-244.