УДК 004(06) Компьютерные системы и технологии А.С. АЛЁШКИН, Д.О. ЖУКОВ Московская государственная академия приборостроения и информатики МОДЕЛИ ПОСТРОЕНИЯ ЛЕКСИЧЕСКИХ АНАЛИЗАТОРОВ В представленной работе рассматриваются вопросы создания программ пакетного анализа входной информации, представленной на естественном языке. В современном обществе обработка возрастающих потоков информации играет наиважнейшую роль во всех отраслях деятельности и невозможна без помощи соответствующих аппаратных и программных средств. Как известно, большинство информационных сообщений представлено на естественном языке, зачастую в неструктурированном виде. Поток таких сообщений необходимо обрабатывать вычислительными средствами. Результатами такой обработки могут быть совершенно различные данные, как, например: 1. Тексты, содержащие информацию, но уже в логически сжатом виде. 2. Тексты, содержащие наиболее важные места сообщений. 3. Результат сравнения текстов с целью выделения подобий. Каждый из результатов рождает свой, совершенно определенный, класс задач, например "сжатие" текстовой информации можно свести к задаче "аннотирования", отсев информации ставит задачу "изложения", а поиск подобий – задачу "сравнения". Единственно в чем сходятся данные классы задач, это в том, что во всех случаях входной и выходной информацией является некий текст. Для решения поставленных задач необходимо разработать модели лексического анализа, основанные на формализованном подходе. Использование для всех классов задач обобщенного формализованного подхода позволяет получить обобщенный инструмент для решения множества задач. Например, выделение смыслового центра предложения – слова, от которого строится основная мысль. Нами предлагается следующая модель формального подхода. При анализе неизвестного текста первым этапом является этап построения так называемого "дерева разбора" текста. Под деревом разбора в данном случае следует понимать систему составляющих, отображающих синтаксическую связь слов в предложении. Такое дерево всегда существует в силу того, что одним из общих свойств схемы синтаксической связи является отсутствие циклов в пределах простого ISBN 5-7262-0555-3. НАУЧНАЯ СЕССИЯ МИФИ-2005. Том 12 136 УДК 004(06) Компьютерные системы и технологии предложения [1]. Данная трудоемкая задача также решается в несколько этапов. Сначала разбираемый текст разбивается на простые предложения и отдельные слова. Эти слова, или лексические единицы, соотносятся с заранее определенным списком синтаксических классов (существительное, предлог и т.д.). После построения дерева разбора текста получаются числовые характеристики текста. По определенным параметрам можно с уверенностью судить о смысловой части разобранного текста (дерево подразумевает наличие корня, а, следовательно, наличие главного слова в предложении). В дальнейшем эти числовые характеристики могут быть переданы другому, более мощному, анализатору для решения прикладных задач. Этот анализатор может быть построен на основе математических моделей, реализующих специфичные функции, например, различные статистические оценки или, например, линейные и нелинейные нейронные сети. Данный формальный подход был опробован для процедурных, т.е. жестко формализованных языков. В частности был создан транслятор, строящий дерево разбора языка программирования Паскаль. Результаты разбора, а именно числовая последовательность, передавалась для анализа во внешний модуль. Модуль анализа реализован с помощью математического аппарата теории нейронных сетей. Заложенная в нем двунаправленная автоассоциативная память решала задачу сравнения исходных текстов между собой для поиска уникальных и повторяющихся решений. Полученное решение оказалось приемлемым для создания Web-ориентированной системы контроля обучению процедурным языкам [2]. Список литературы 1. Сухотин Б.В. Исследование грамматики числовыми методами //Ответственный редактор А.А. Зализняк. — М.: Наука, 1990г. – 176 с. илл. 2. Центр новых информационных технологий МГАПИ, 2004 год http://cnit.mgapi.edu ISBN 5-7262-0555-3. НАУЧНАЯ СЕССИЯ МИФИ-2005. Том 12 137