ISBN 5-7262-0634-7. НЕЙРОИНФОРМАТИКА – 2006. Часть 1 А.В. ХОМИЧ Сибирский государственный технологический университет, Красноярск supremum76@rambler.ru, ho76@mail.ru ДОВЕРИТЕЛЬНЫЙ ИНТЕРВАЛ НАДЕЖНОСТИ КЛАССИФИКАТОРА С УЧИТЕЛЕМ Предложен метод определения доверительного интервала надежности классификатора с учителем. Для использования метода не требуется явного знания о характеристиках распределений. Может применяться для анализа надежности нейросетевых и других классификаторов обучаемых на примерах с известным решением. Показана проблема надежности результатов выбора лучшего классификатора из набора классификаторов. Приводится ее частичное решение и сравнение с другими методами определения доверительного интервала надежности. Введение Пусть имеется конечный набор векторов. Каждому вектору неким «учителем» сопоставлен его класс. В качестве «учителя» может выступать эксперт, измерительный прибор и т. п. Вектор с указанным классом называют примером. Набор имеющихся примеров является выборкой из генеральной совокупности всех возможных в данной предметной области примеров. Требуется создать классификатор, правильно классифицирующий вектора, не участвующие в обучении, основываясь только на анализе имеющихся примеров. Под надежностью классификатора будем понимать вероятность правильной классификации на генеральной совокупности примеров. Все подходы к решению этой задачи условно можно разделить на два случая: Подход, основанный на явном использовании сведений о распределении классов; Подход, основанный на представлении классификатора в виде «черного ящика». Первый подход позволяет провести статистически обоснованный анализ надежности классификатора. Но он применим только в относительно простых задачах, в которых наблюдаются хорошо изученные распределения классов и зависимости восстанавливаются в достаточно узком классе функций. Второй подход, напротив позволяет решать сложные нелинейные задачи, восстанавливая зависимости широкого класса, но вызывает УДК 004.032.26(06) Нейронные сети 88 ISBN 5-7262-0634-7. НЕЙРОИНФОРМАТИКА – 2006. Часть 1 затруднение оценка надежности классификатора. Второй подход особенно широко используется в нейроинформатике [1, 2]. При общепринятом подходе все примеры разделяются на непересекающиеся наборы обучающих и тестовых примеров. Параметры «черного ящика» настраиваются на правильную классификацию обучающих примеров. На тестовых примерах оценивается надежность классификатора. Остается открытым вопрос о способе формирования набора тестовых примеров. В частности, нет четкой методики определения необходимого количества тестовых примеров. При решении прикладных задач количество примеров, доступных для обработки, ограничено. Если количество тестовых примеров мало, то возникают сомнения в точности оценки надежности результатов. Если тестовых примеров взято излишне много, то страдает качество обучения из-за малого количества обучающих примеров. На сегодняшний день, стала традиционной практика «наивного» оценивания надежности, когда рассматривается только соотношение правильно классифицированных тестовых примеров к общему количеству тестовых примеров. Встречаются работы, в которых тестирование проводиться всего лишь на 20-30 примерах, не проводиться вовсе или не указывается количество тестовых примеров. При этом не проводится никакого анализа возможного отклонения оценки от реального значения надежности классификатора. Все это вызывает справедливую критику со стороны специалистов по статистическому анализу. Доверительный интервал надежности Пусть m – число бинарных позиций, принимающих значение 0 или 1; k – число позиций принявших единичное значение. Выполняется условие m k. Тогда число возможных вариантов размещения k единиц среди m бинарных позиций [5] выражается формулой N m, k m! . m k !k! Допустим, имеется классификатор с учителем, верно определяющий класс с вероятностью Ptrue . Будем кодировать правильный ответ классификатора как 1, а неверный ответ как 0. Если примеры независимы, то события правильной классификации также независимы. При тестировании на m примерах количество возможных результатов тестирования с k правильными ответами равно N m, k . Событие ошибочной классификации являУДК 004.032.26(06) Нейронные сети 89 ISBN 5-7262-0634-7. НЕЙРОИНФОРМАТИКА – 2006. Часть 1 ется противоположным событию правильной классификации. Следовательно, его вероятность равна 1 Ptrue . Вероятность результата теста с k из m правильными ответами, равна Ptrue 1 Ptrue . Это следует из формулы вероятности совместного наступления независимых событий [3, 4]. Так как не имеет значения, какая именно последовательность правильных и неверных ответов при тестировании реализуется, то можно применить формулу вероятности наступления любого события из группы несовместных событий [3, 4]. Тогда вероятность получить k из m правильных ответов при вероятности правильного ответа Ptrue может быть определена формулой k mk Pprobe F m, k , Ptrue , (1) где F m, k , P N m, k P k 1 P . Функция F является функцией распределения вероятности отклонения оценки от реальной надежности классификатора. Если m и k фиксированы, F достигает максимума при условии Ptrue k / m . Пусть в результате однократного тестирования на m примерах получено k верных ответов и соответственно получена оценка вероятности правильной классификации (оценка надежности) mk Pest k . m (2) Понятно, что оценка может оказаться как больше, так и меньше действительной вероятности правильной классификации Ptrue . Для более полного анализа надежности классификатора необходимо определить доверительный интервал. Обозначим нижнюю границу доверительного интервала Ptrue как Pbelow , а верхнюю границу как Pabove или Pbelow Ptrue Pabove . Границы доверительного интервала определяются условиями Pbelow max , Pbelow Pest , F m, k , Pbelow , Pabove min , Pabove Pest , F m, k , Pabove , где – коэффициент надежности доверительного интервала. Можно утверждать, что с вероятностью 1 надежность классификатора находится в границах доверительного интервала ( 1 – доверительная вероУДК 004.032.26(06) Нейронные сети 90 ISBN 5-7262-0634-7. НЕЙРОИНФОРМАТИКА – 2006. Часть 1 ятность). Графический способ определения доверительного интервала представлен на рис. 1. P k est mPest , k below mPbelow , k above mPabove , m const F m, k , Pabove F m, k , Pbelow k below k est k above k Рис. 1. Графический способ определения доверительного интервала Наибольший интерес в большинстве случаев вызывает нижняя граница доверительного интервала. Она показывает, какую минимальную надежность классификации можно гарантировать. В табл. 1 и 2 приведены значения Pbelow для различных m, Pest и . Таблица 1 Значения нижней границы доверительного интервала при 0.05 m Pest 10 20 30 40 50 0.6 0.7 0.8 0.9 1.0 0.32 0.41 0.51 0.61 0.74 0.42 0.51 0.62 0.73 0.86 0.46 0.56 0.66 0.77 0.90 0.49 0.59 0.69 0.80 0.92 0.50 0.60 0.71 0.81 0.94 Таблица 2 Значения нижней границы доверительного интервала при 0.1 m Pest 10 20 30 40 УДК 004.032.26(06) Нейронные сети 50 91 ISBN 5-7262-0634-7. НЕЙРОИНФОРМАТИКА – 2006. Часть 1 0.6 0.7 0.8 0.9 1.0 0.38 0.48 0.57 0.68 0.79 0.47 0.57 0.67 0.77 0.89 0.52 0.61 0.71 0.81 0.92 0.54 0.64 0.73 0.83 0.94 0.56 0.65 0.75 0.84 0.95 Необходимо, отметить, что существуют и другие методы определения доверительного интервала надежности классификатора. Например, оценка, предложенная Вапником В.Н. [6] Pest ln 2 ln 2 . Ptrue Pest 2m 2m Значения нижней границы доверительного интервала по Вапнику при 0.1 приведены в табл. 3. Сравнение табл. 2 и 3 показывает, что предлагаемый метод точнее метода Вапника. Предлагаемый метод показывает меньшее отклонение нижней границы доверительного интервала от оценки надежности на тестовых примерах. Известен также минимаксный подход к классификации [7]. Он позволяет найти гарантированную ошибку классификации для всех возможных распределений, удовлетворяющих заданным средним значениям и матрице ковариаций. К сожалению, для этого варианта имеются решения только для линейных классификаторов [7]. Кроме того, возникает проблема точности оценки средних значений и матрицы ковариаций по выборкам ограниченного объема. Таблица 3 Значения нижней границы доверительного интервала по Вапнику ( 0.1 ) m Pest 10 20 30 40 50 0.6 0.7 0.8 0.9 1.0 0.21 0.31 0.41 0.51 0.61 0.33 0.43 0.53 0.63 0.73 0.38 0.48 0.58 0.68 0.78 0.41 0.51 0.61 0.71 0.81 0.43 0.53 0.63 0.73 0.83 Многократные испытания УДК 004.032.26(06) Нейронные сети 92 ISBN 5-7262-0634-7. НЕЙРОИНФОРМАТИКА – 2006. Часть 1 Для получения классификатора с удовлетворительной надежностью классификации чаще всего приходиться тестировать набор различных вариантов классификаторов. Перебор вариантов и их оценка может осуществляться автоматически. Исследователь тестирует набор различных классификаторов и, основываясь на результатах тестирования, выбирает самый надежный. Иногда несколько классификаторов объединяют в комитет [1, 2]. Покажем, что в этом случае проблема расхождения оценки и реальной надежности классификации становиться особенно острой. Пусть n различных классификаторов тестируются на m примерах. Допустим, истинная надежность всех классификаторов равна Ptrue . Все классификаторы тестируются независимо друг от друга. Вероятность случайно получить, в ходе исследования, удовлетворительную оценку надежности Pwell определяется формулой (1) и (2) PPest Pwell Pprobem, mPwell , Ptrue . Но надо учитывать и случаи, когда получена оценка больше Pwell . Иными словами, надо учитывать все случаи, когда возможное число правильных ответов будет равно mPwell , mPwell 1, mPwell 2,..., m . Согласно формуле описывающей наступление любого несовместного события [3, 4], вероятность получения оценки не меньшей Pwell определяется выражением: PPest Pwell m 1 Pwell Pprobem, mPwell i 0 i, Ptrue . Вероятность, того, что такая оценка при n испытаниях ни разу не будет получена, подчиняется закону совместного наступления независимых событий PPest n m1 Pwell Pwell 1 Pprobem, mPwell i, Ptrue . i 0 Обратная вероятность показывает вероятность того, что хотя бы одному классификатору удастся при тестировании показать оценку надежности не меньше Pwell УДК 004.032.26(06) Нейронные сети 93 ISBN 5-7262-0634-7. НЕЙРОИНФОРМАТИКА – 2006. Часть 1 m1 Pwell 1 1 Pprobem, mPwell i, Ptrue . i 0 n Pdeception В случае, если Ptrue Pwell величина Pdeception показывает вероятность получить завышенную оценку надежности. Для демонстрации значимости этой проблемы приведем один пример. Пусть тестируется 1000 классификаторов на 100 тестовых примерах. Все классификаторы обладают надежностью 0.5. Вероятность случайной демонстрации надежности не меньшей 0.65 при однократном тестировании равна 0.0015. Вероятность случайно получить оценку надежности не меньшей 0.65, хотя бы при одном испытании из 1000, равна 0.79. Как видно, вероятность получения существенно разнящейся оценки и истинной надежности при многократных испытаниях может быть большой даже при малой вероятности при однократном испытании. Нижняя граница доверительного интервала надежности для случая * многократных испытаний Pbelow определяется условиями * * * Pbelow max , Pbelow Pbest , 1 1 Pprobe m, mPbest , Pbelow n , где n – количество испытаний; – коэффициент надежности доверительного интервала ( 1 – доверительная вероятность); Pbest – лучшая, полученная в ходе испытаний, оценка надежности классификации. Многократные испытания могут быть организованы более сложным, чем описанным здесь, способом. Например, в генетическом алгоритме серии испытаний разбиты в соответствии с оцениваемыми популяциями. Кроме того, для определения доверительного интервала надежности может быть привлечена дополнительная информация. Например, дисперсия и среднее арифметическое оценки надежности по серии испытаний. Поэтому вопрос определения доверительного интервала в случае многократных испытаний требует дальнейших исследований. Заключение Представленная методика позволяет определить доверительный интервал надежности классификатора и обоснованно выбирать количество тестовых примеров. Как видно из табл. 1 и 2 для оценки надежности класУДК 004.032.26(06) Нейронные сети 94 ISBN 5-7262-0634-7. НЕЙРОИНФОРМАТИКА – 2006. Часть 1 сификатора рекомендуется использовать не менее 50 тестовых примеров. При использовании 50 или менее тестовых примеров следует наряду с полученной оценкой указывать и нижнюю границу доверительного интервала надежности классификатора. При испытаниях набора различных классификаторов следует увеличить число тестовых примеров и/или повысить требование к оценке надежности классификации. Список литературы 1. Горбань А.Н., Дунин-Барковский В.Л., Кирдин А.Н. и др. / Нейроинформатика - Новосибирск: Наука. Сибирское предприятие РАН, 1998.-296 с. 2. Горбань А.Н. Обучение нейронных сетей. М.: изд. СССР-США СП "ParaGraph", 1990.-160 с. 3. Гмурман В.Е. Теория вероятностей и математическая статистика. – 9-е изд., стер. М.: Высш. шк., 2003.-479 с. 4. Кендалл М., Стьюарт А. Статистические выводы и связи. – М.: Наука, 1973.-900 с. 5. Нефедов В.Н., Осипова В.А. Курс дискретной математики. М.: Изд-во МАИ, 1992, 263 с. 6. Алгоритмы и программы восстановления зависимостей / Под редакцией В.Н. Вапника. - М.: Наука, Главная редакция физико-математической литературы, 1984.-816 с. 7. G. Lanckriet, L. El Ghaoui, C. Bhattacharyya, and M.I. Jordan. A robust minimax approach to classification. Journal of Machine Learning Research, 3:555-582, Dec 2002. УДК 004.032.26(06) Нейронные сети 95