УТВЕРЖДАЮ Генеральный директор ФГУ НИИ РИНКЦЭ доктор экономических наук, профессор ________________ В.Л. Белоусов “_____” ноября 2005 г. ОТЗЫВ ведущей организации на диссертацию Некрасова Ивана Валериевича "Разработка и исследование метода классификации библиографической текстовой информации", представленной на соискание ученой степени кандидата технических наук по специальности 05.13.01 "Системный анализ, управление и обработка информации" В условиях стремительного роста количества текстовой информации, содержащейся в Интернет, становится ясно, что невозможно решать "сегодняшние" задачи анализа информации "вчерашними" методами. В сложившейся ситуации особое теоретическое и практическое значение приобретают работы по синтезу новых оригинальных методов обработки текстовых данных, усовершенствованию уже имеющихся алгоритмов. Одним из наиболее эффективных и востребованных на практике механизмов обработки и анализа документов являются методы классификации. В этой связи представляется актуальной диссертационная работа Некрасова И.В., в которой разработан и исследован новый метод классификации текстовых документов, получивший название модифицированного метода ближайшего соседа (ММБС). Отличительной особенностью предложенного метода является проведение упорядочивания элементов обучающей выборки по отношению к специально вводимым опорным точкам, что позволяет существенно снизить время, затрачиваемое на классификацию новых документов. Диссертация состоит из введения, четырех глав, заключения, списка цитируемой литературы из 102 наименований и 4 приложений. Общий объем диссертации составляет 152 страницы, основная часть составляет 125 страниц, включая 31 рисунок и 5 таблиц. Автореферат в полной мере отражает содержание диссертации. Во введении автор определяет цель исследования, обосновывает актуальность работы и приводит основные положения, вынесенные на защиту. В первой главе рассматривается процесс классификации текстовой информации, проводится обзор методов классификации текстовых документов, анализируются характерные особенности классификации текста, рассматриваются модели представления документов, проводится сравнительный анализ наиболее известных методов. Во второй главе детально рассматривается метод ближайшего соседа, указываются его достоинства и недостатки, подходы к устранению указанных недостатков, проводится разработка модифицированного метода ближайшего соседа с использованием опорных точек, исследуется влияние настраиваемых параметров метода и выбор опорных точек на ошибку и время классификации, даются рекомендации по выбору настраиваемых параметров метода, проводится сравнительный анализ модифицированного метода ближайшего соседа и метода k-ближайших соседей. В третьей главе представлены исследования влияния внешних факторов на ошибку и время классификации модифицированного метода ближайшего соседа, оценивается ошибка классификации библиографических документов несколькими методами классификации (методом центроидов, наивным байесовским методом, методом k-ближайших соседей и модифицированным методом ближайшего соседа). Основное внимание уделено исследованию характеристик разработанного модифицированного метода ближайшего соседа на различных выборках из библиографических документов. В четвертой главе проводится обзор программных средств для классификации текстовых документов, рассматриваются функциональные возможности разработанного программного комплекса “СКАТ”, описывается методика использования разработанного программного комплекса, приводятся результаты автоматического отслеживания и классификации библиографических научно-технических статей, опубликованных на сайтах электронных журналов в сети Internet. В заключении кратко перечислены основные результаты работы. В приложениях приведено описание библиографической научнотехнической базы данных COMPENDEX, рассмотрен процесс приведения HTML-документов к структурированному виду, приведены результаты классификации статей Интернет-журналов и акт о внедрении в эксплуатацию разработанного программного комплекса (ПК) “СКАТ”. К числу основных научных результатов, полученных автором следует отнести: разработан новый метод классификации – модифицированный метод ближайшего соседа (ММБС), исследованы характеристики ММБС на различных группах выборок, для данного метода получена оценка вычислительной сложности, проведено сравнение ошибки и времени классификации ММБС с ошибкой и временем классификации других методов. Важной особенностью работы является ее практическая направленность на решение конкретной задачи – автоматизации процесса получения и анализа научно-технических статей с Интернет-сайтов издательств. Для этого разработан ПК “СКАТ”, реализующий все этапы классификации текстовых документов, разработана методика использования ПК “СКАТ” для классификации библиографических научно-технических документов с Интернетсайтов журналов. ПК “СКАТ” используется в ФГУ НИИ РИНКЦЭ для автоматического получения и классификации англоязычных публикаций по профильным научно-техническим тематикам с сайтов электронных издательств. Достоверность результатов диссертации обеспечивается корректным использованием методов математической статистики и теории вероятностей, численных методов, а также корректно спланированными экспериментальными исследованиями. Значимость результатов диссертации для науки и практики заключается в развитии теории классификации, ее обогащении новым методом, обладающим эффективным соотношением точность/быстродействие. Разработанный метод применен для решения практических задач и обеспечивает высокое качество обработки и анализа текстовой информации. Для полномасштабного практического использования полученных в работе результатов представляется целесообразно ознакомить с ее основными положениями следующие организации, занимающиеся обработкой и анализом библиографических текстовых документов: Всероссийском институте научной и технической информации (ВИНИТИ), Всероссийском институте межотраслевой информации (ВИМИ), Институте научной информации по общественным наукам (ИНИОН), Международном центре научно- технической информации (МЦНТИ). По диссертации могут быть сделаны следующие замечания: ориентация на обработку и анализ англоязычных публикаций сокращает области возможного использования разработанных алгоритмов и программного обеспечения; в методике использования ПК “СКАТ” было бы целесообразно более подробно изложить принципы отбора наиболее ценных (релевантных для пользователя) журналов для последующей классификации публикуемых в них документов (библиографических описаний); для настройки параметров методов классификации было бы целесообразно использовать k-кратную перекрестную проверку (k-fold crossvalidation). Эти замечания не влияют на положительную оценку выполненной работы и не ставят под сомнение основные выводы диссертации. Диссертация написана ясным языком, четко структурирована. Каждая глава заканчивается содержательными выводами, что облегчает понимание материала. Данная диссертационная работа представляет собой завершенную научно-исследовательскую работу, выполненную на высоком профессиональном уровне, содержит новые теоретические результаты, позволяющие эффективно решать ряд практических задач классификации библиографических тестовых документов. Работа удовлетворяет требованиям ВАК, предъявляемым к кандидатским диссертациям, а ее автор И.В. Некрасов заслуживает присуждения ученой степени кандидата технических наук по специальности 05.13.01 "Системный анализ, управление и обработка информации". Отзыв на диссертацию и автореферат составлен кандидатом технических наук В.Б. Стяжкиным и обсужден на заседании ученого совета ФГУ НИИ РИНКЦЭ “___” ноября 2005 г. протокол № ____. Кандидат технических наук Ученый секретарь В.Б. Стяжкин