УДК 519.25 Применение комбинаторных оценок переобучения пороговых решающих правил для отбора признаков Ш.Х. Ишкина1 1 Федеральный исследовательский центр «Информатика и управление» Российской академии наук Во многих задачах классификации, в частности, в задачах медицинской диагностики [1] и категоризации текстов [2], хорошо зарекомендовал себя синдромный алгоритм. Он заключается в следующем. Для каждого класса по обучающей выборке выделяется набор из K информативных признаков, и если объект тестовой выборки обладает хотя бы M из них, то объект относится к данному классу. Частными случаями являются линейные классификаторы, еще более частными – наивные байесовские линейные классификаторы. Обычно они выводятся из предположения, что признаки являются независимыми случайными величинами и описываются нормальными, биномиальным или пуассоновским распределением. Несмотря на жесткость сделанных предположений, классификаторы данного типа оказываются успешными в некоторых прикладных задачах, причем часто в таких, где предположения о независимости признаков заведомо не выполняются. Это означает, что имеет смысл искать альтернативные обоснования этих алгоритмов, находящиеся вне байесовской теории классификации. В данной работе исследуется обобщающая способность алгоритмов обучения линейных классификаторов, основанных на оценивании индивидуальных информативностей признаков. Линейный классификатор имеет вид 𝑎 𝑥 = Σ 𝑤! 𝑓! (𝑥) ≥ 𝑤! , где [] – предикат, равный единице, когда выражение внутри скобок истинно, и нулю в противном случае, 𝑓! – признаки, 𝑤! – веса признаков, 𝑤! - порог, x – классифицируемый объект. Линейный классификатор возращает метку класса, к которому отнесен объект x. Веса и порог настраиваются по некоторому конечному множеству объектов, называемому обучающей выборкой, с известными для каждого объекта метками классов. Обобщающая способность характеризует способность построенного классификатора верно классифицировать объекты на произвольной тестовой выборке, на которой метки классов неизвестны. Выбор K наиболее значимых признаков является простейшим методом отбора признаков. В некоторых прикладных задачах классификации он показывает достаточно высокое качество и удивительно низкий уровень переобучения. Применение переборных методов дискретной оптимизации (жадный Add-Del, полужадные методы поиска в ширину, эволюционные алгоритмы, случайный поиск с адаптацией) может, с одной стороны, приводить к выбору лучшего подмножества признаков и улучшению качества классификации, с другой стороны, – к росту переобучения. Для разрешения данной дилеммы при отборе признаков предлагается применить комбинаторные оценки вероятности переобучения и ожидаемой частоты ошибок скользящего контроля [3, 4]. Рассматривается случай, когда признаки имеют вещественные веса, поэтому семейство пороговых классификатором с настраиваемым порогом М порождает последовательность бинарных векторов ошибок, называемое цепью классификаторов. Для таких семейств ранее [5, 6] были получены точные оценки вероятности переобучения и показано, что в зависимости от свойств расслоения и связности этой цепи величина переобучения может меняться во много раз. Оценки вероятности переобучения и ожидаемой частоты ошибок скользящего контроля используются в качестве критерия отбора признаков в задаче медицинской для решения прикладной задачи диагностики заболеваний внутренних органов человека методами информационного анализа электрокардиосигналов по В. М. Успенскому [1]. Эксперимент проводится следующим образом. Объекты представляют из себя символьные последовательности в алфавите из 6 символов. Признаки – частоты встречаемости триграмм, то есть всего 216 признаков. Имеется априорная информация о том , что K = 40 – оптимальное число признаков для болезней РО (онкопатология различной локализации) и ХГ (хронический гастрит). При построении классификатора отбираем признаки жадным способом. На каждом шаге добавляется признак, в композиции с которым у построенного линейного классификатора достигается наименьшая ожидаемая частота ошибок скользящего контроля. При этом мы перебираются не все признаки, а только top(K + M) по значению некоторого критерия информативности S. Параметр M варьируется, принимая значения 10, 20, 30. Критерий информативности S для каждой триграммы w – это количество объектов класса 0, в которых представлена триграмма w. Рисунок 1. Разность значений AUC на тестовой и обучающей выборках. Болезнь ХГ. Рисунок 2. Значения AUC на тестовой выборке для раличных алгоритмов. Болезнь ХГ. В качестве критерия качества используется AUC (Area Under Curve) на отложенной тестовой (Hold-Out, HO) и обучающей выборках (Train). На графиках сравнивается четыре алгоритма. В первых трех используется жадный отбор при разных M (10, 20, 30), в четвертом - отбор с помощью критерия информативности S. Этот же критерий используется в первых трех алгоритмах, когда выбирается top-(K + M) признаков. Строится два графика зависимости: 1) Разности AUC на Train и Hold-Out от количества признаков для разных алгоритмов. На легенде алгоритмы 1- 3 обозначены как “S:12, M: ….” (10, 20, 30), алгоритм 4 обозначен как “S:1”. Результаты представлены на рисунках 1 и 3. 2) AUC на Hold-Out от количества признаков для разных алгоритмов. Здесь черной горизонтальной линией отмечен HO-AUC у top-40 по критерию S (то есть оптимального по критерию S набора признаков). На легенде алгоритмы 1-3 обозначены как “S:12, M: ….” (10, 20, 30), алгоритм 4 обозначен как “S:1,K:40”. Результаты представлены на рисунках 2 и 4. Рисунок 3. Разность значений AUC на тестовой и обучающей выборках. Болезнь РО. Рисунок 4. Значения AUC на тестовой выборке для раличных алгоритмов. Болезнь РО. Результаты подтверждают гипотезу, что с помощью более сложных переборных методов возможно отбирать наборы признаков с контролируемой переобученностью, превосходящие по качеству классификации метод отбора по индивидуальной информативности. Исследование выполнено при финансовой поддержке РФФИ в рамках научных проектов №№ 14-07-00847, 15-37-50350 мол_нр. Литература [1] Успенский В. М. Информационная функция сердца. Теория и практика диагностики заболеваний внутренних органов методом информационного анализа электрокардиосигналов. – М.: Экономика и информатика, 2008. – 116 с. [2] Lui M., Lau J.H., Baldwin T. Automatic Detection and Language Identification of Multilingual Documents. – Transactions of the Association for Computational Linguistics. – 2014. – Vol. 2. – P. 27–40. [3] Vorontsov K. V., Ivahnenko A. A. Tight combinatorial generalization bounds for threshold conjunction rules. – 4-th Int’l Conf. on Pattern Recognition and Machine Intelligence (PReMI’11), June 27 – July 1, 2011. Lecture Notes in Computer Science. Springer-Verlag, 2011. — P. 66–73. [4] Vorontsov K. V. Exact combinatorial bounds on the probability of overfitting for empirical risk minimization. – Pattern Recognition and Image Analysis. — 2010. — Vol. 20, No. 3. — P. 269–285. [5] Ишкина Ш. Х. Ивахненко А.А. Комбинаторные оценки переобучения пороговых решающих правил. – Математические методы распознавания образов:16-я Всероссийская конференция, г. Казань, 6-12 сентября 2013 г.: Тезисы докладов. – М.: Торус Пресс, 2013. – С.23. [6] Ишкина Ш. Х. Комбинаторные оценки переобучения одномерных пороговых классификаторов. – Математические методы распознавания образов: Тезисы докладов 17-й Всероссийской конференции с международным участием, г. Светлогорск, 2015 г. М.: Торус Пресс, 2015. – С.76–77.