5 КОЛЛЕКТИВ НЕПАРАМЕТРИЧЕСКИХ АЛГОРИТМОВ РАСПОЗНАВАНИЯ ОБРАЗОВ, ОСНОВАННЫЙ НА РАНДОМИЗИРОВАННОМ МЕТОДЕ ИХ ОПТИМИЗАЦИИ1 А.В. Лапко2, В.А. Лапко2 2Институт вычислительного моделирования Сибирского отделения Российской академии наук; 660036, Красноярск, Академгородок 50, стр. 44; lapko@icm.krasn.ru Предлагаются непараметрические алгоритмы распознавания образов, основанные на рандомизированном методе их оптимизации. Идея рассматриваемого подхода состоит в признании случайного характера коэффициентов размытости ядерных функций и выборе параметров закона их распределения при оптимизации непараметрических решающих правил. Исследуются свойства разработанных классификаторов и анализируются результаты их сравнения с традиционными непараметрическими алгоритмами распознавания образов. Введение Существующий парадокс традиционных методов идентификации стохастических моделей состоит в сопоставлении конечной случайной выборке наблюдений переменных изучаемых объектов конкретного набора параметров модели, оптимальных в некотором смысле. Предлагается принципиально новый рандомизированный подход определения коэффициентов размытости непараметрических алгоритмов распознавания образов, основанных на ядерной оценке плотности вероятности типа Розенблатта - Парзена. Впервые методика случайного выбора коэффициентов размытости ядерных функций при синтезе непараметрической оценки плотности вероятности была предложена в 1975 году Т. Вагнером [1]. Формирование случайной последовательности коэффициентов размытости при оценивании плотности вероятности p x осуществляется из выборки расстояний между исходными наблюдениями x , i 1, n и их k -ми ближайшими соседями. Несмотря на кажущуюся простоту подхода, остаётся i _______________________________________ Работа выполнена в рамках гранта РФФИ №07-01-00006а. 1 открытой проблема выбора значения k и обоснование последствий такого выбора. В данной работе асимптотических непараметрической на основе оценки анализа свойств px плотности вероятности p x показана возможность нахождения рационального закона распределения pc c 0 , h коэффициентов размытости c в классе степенных функций. Полученные результаты использованы при синтезе непараметрических алгоритмов распознавания образов в условиях случайных значений коэффициентов размытости ядерных функций. Рандомизированный метод оптимизации Обоснование рандомизированного метода оптимизации непараметрических алгоритмов распознавания образов рассмотрим на примере оценивания плотности вероятности. Пусть V x i , i 1, n n - выборка из статистически независимых наблюдений случайной величины x R с плотностью вероятности p x , вид которой неизвестен. 1 Будем считать, что p x ограничена и 6 непрерывна со всеми своими производными до второго порядка включительно. В качестве приближения по эмпирическим данным искомой V плотности вероятности p x примем статистику типа Розенблатта-Парзена [4] n 1 x xi 1 ~ p x n i i , (1) i 1 c c ядерные функции, где удовлетворяющие положительности, нормированности. условиям симметричности и Коэффициенты i размытости c являются случайными величинами и характеризуются плотностью вероятности p h c c t , t 1 h t 1 c 0 , h . (2) Левая граница интервала изменения c следует из условий асимптотической p x : cn 0 при несмещённости увеличении объёма исходных данных n . Асимптотическое выражение среднеквадратического отклонения p x p x при случайных значениях от коэффициентов размытости ядерных функций в непараметрической оценки плотности вероятности p x имеет вид h W p h W c pc dc ~ 0 ~ t 1 n h1 2 x dx t 4 2 t 1 h p x , 5t 4 2 (3) а смещение W p1 h h M ~px px pc dc ~ 0 h 2 t 1 2 ~ p x . 2 t 3 (4) Анализ выражений (3), (4) показывает, что непараметрическая оценка плотности ~ px вероятности со случайными значениями коэффициентов размытости (1) обладает свойствами асимптотической несмещённости и состоятельности. Она характеризуется более низким значением смещения (4) и несколько большим значением среднеквадратического отклонения (3) по сравнению с традиционной непараметрической оценкой плотности вероятности ядерного типа. Следует ожидать проявления потенциальной эффективности непараметрической оценки плотности вероятности (1) при конечных объёмах статистических данных. Модифицированный непараметрический алгоритм классификации Определим коэффициенты размытости ядерных функций в виде c v c v , где v - оценка среднеквадратических отклонений xv , v 1, k параметров классифицируемых объектов, а c случайная величина с плотностью вероятности p h c c 0 ; h . Примем процедуру формирования последовательности параметров c сh 1 t 1 (5) на основании случайной величины 0 ; 1 с равномерным законом распределения. Сформируем на основании процедуры (9) последовательность коэффициентов размытости и сопоставим случайным образом её элементам ядерные функции в непараметрических оценках плотностей вероятности байесовского уравнения разделяющей поверхности, соответствующего критерию максимума апостериорной вероятности [2]. Тогда непараметрическая оценка уравнения разделяющей поверхности со случайными коэффициентами размытости ядерных функций для двуальтернативной задачи распознавания образов запишется в виде 7 ~ f12 x x v x vi i i i k v 1 c c v n v i 1 i где 1 k n 1 , v 1 - «указания учителя» из обучающей выборки x , i , i 1 , n , i 1 x i 1 , i 1 x i 2 . Оптимизация непараметрического алгоритма распознавания образов ~ x , если f12 x 0 1 ~ x : (6) m 12 ~ x 2 , если f12 x 0 , по правой границе h области определения p h c плотности вероятности осуществляется из условия минимума эмпирической ошибки классификации методом «скользящего экзамена». Коллектив непараметрических алгоритмов классификации Используем принципы синтеза коллектива решающих правил для повышения эффективности непараметрических алгоритмов распознавания образов в условиях случайных значений коэффициентов размытости ядерных ~ x , j 1, M функций. Пусть m 12 непараметрические решающие правила для двуальтернативной задачи распознавания образов, которые построены по одной и той же обучающей выборке j V x i , i , i 1 , n в соответствии с изложенной выше методикой. Решающие правила характеризуются одним и тем же оптимальным параметром h правой границы области определения плотности p h c вероятности коэффициента размытости, но разными их случайными последовательностями c i j , i 1, n , j 1, M . Воспользуемся одним из известных подходов коллективного оценивания [3], например, методом «голосования» построим решающее правило и M1 M 2 x , если 1 ~ M M ~ m12 x : , (7) M M 2 x , если 1; 2 M M где M j , j 1 , 2 - число «решений», которые принимают члены коллектива о принадлежности объекта с набором признаков x в пользу j -го класса. В многоальтернативной постановке задачи распознавания образов каждый член ~ x , j 1 , M использует коллектива m 12 решающее привило типа (6). Окончательное вывод, например x t , принимается, если частота решений членов t -го класса коллектива в пользу максимальное. j Применение коллектива (6) позволяет повысить достоверность принимаемых решений в условиях случайных значений коэффициентов размытости непараметрических алгоритмов. Результаты вычислительного эксперимента Исследования осуществлялись при решении двуальтернативной задачи распознавания образов в k - мерном пространстве признаков. Анализ результатов вычислительных экспериментов показывает, что статистические оценки законов распределения эмпирических ошибок распознавания образов традиционного непараметрического алгоритма распознавания образов и его модификации (6) при случайных значениях коэффициентов размытости достоверно не отличаются. Однако, возможная неточность при определении оценок оптимальных значений коэффициентов размытости приводит к снижению эффективности традиционного непараметрического алгоритма распознавания образов по сравнению с его модификацией. 8 Данный факт объясняется существенно большей устойчивостью эффективности непараметрического алгоритма со случайными коэффициентами размытости от изменения параметра h . Потенциальные возможности рандомизированного метода оптимизации наиболее полно реализуются при использовании коллектива (7) непараметрических алгоритмов распознавания образов (6). Наблюдается достоверное преимущество решающего правила (7) при количестве его элементов над традиционным M 10 непараметрическим классификатором, их коллективом и алгоритмом распознавания образов (6) со случайными коэффициентами размытости ядерных функций. С увеличением размерности k пространства признаков классифицируемых объектов при фиксированном объёме обучающей выборки n снижение эффективности сравниваемых непараметрических алгоритмов распознавания образов не наблюдается Однако, преимущество коллектива непараметрических решающих правил со случайными коэффициентами размытости сохраняется и особо проявляется при больших значениях k >10. При значениях параметра t закона распределения p h c больше 4-х оценки ошибок модифицированного (6), традиционного непараметрического алгоритмов распознавания образов и его коллектива достоверно не отличаются при k 2 ; 20 . Преимущество коллектива алгоритмов (7) со случайными коэффициентами размытости над коллективом традиционных непараметрических классификаторов отмечается при всех t 1 , 7 k 2 , 20 . и Его эффективность, по сравнению с традиционным непараметрическим решающим правилом их коллективом, может быть обоснована использованием переменных ядерных мер близости между точками в пространстве признаков классифицируемых объектов, которые определяются законом распределения коэффициентов размытости. Применение принципов коллективного оценивания позволяет придать переменным мерам близости, свойственным модифицированным непараметрическим алгоритмам со случайными коэффициентами размытости, более устойчивый характер. Заключение Предложен рандомизированный метод оптимизации непараметрических алгоритмов распознавания образов, основанный на выборе параметров закона распределения случайных значений коэффициентов размытости ядерных функций из условия минимума эмпирической ошибки классификации. Получаемые при этом решающие правила обладают значительной устойчивостью к погрешностям определения их оптимальных параметров. Применение коллектива непараметрических алгоритмов, соответствующих различным последовательностям случайных значений коэффициентов размытости, обеспечивает достоверное снижение ошибки распознавания образов по сравнению с традиционными непараметрическими классификаторами. Перспективность данного направления исследований состоит в возможности создания алгоритмических средств доверительного оценивания непараметрической оценки уравнения разделяющей поверхности и её коэффициентов размытости. Список литературы 1. Деврой Л., Дьерди Л. Непараметрическое оценивание плотности ( L1 - подход). – М.: Мир, 1988. – 407 с. 2. Лапко А.В., Лапко В.А., Соколов М.И., Ченцов С.В. Непараметрические системы классификации. - Новосибирск: Наука, 2000. 240с. 3. Растригин Л.А. Гибридное распознавание // Автоматика и телемеханика, 1993. - № 4. -С.3-20. 4. Parzen, E. On the estimation of a probability density function and mode // Ann. Math. Statist., 1962. - P. 1065.