Автоматический анализ и синтез текста 1. Понятие автоматического анализа текста. Автоматический анализ текста – это обработка текста на естественном человеческом языке компьютером согласно заданному алгоритму. При автоматическом анализе текст последовательно преобразуется в его лексемно-морфологические, синтаксические и семантические представления, понятные компьютеру. Автоматический анализ текста включает ряд этапов: графематический анализ: выделение границ слов, предложений, абзацев и других элементов текста (например, врезок в газетном тексте); морфологический анализ: определение исходной формы каждого использованного в тексте слова и набора морфологических характеристик этого слова; синтаксический анализ: выявление грамматической структуры предложений текста; семантический смысла фраз. анализ: определение 2. Графематический анализ. Понятие токенизации. Графематический анализ определяется также как токенизация (от англ. token – отдельное слово, фраза или любой другой значимый элемент текста). Формальные элементов: ► пробелы, словами сигналы обозначающие границ текстовых границы между ► прописные буквы и знаки препинания, обозначающие границы между предложениями и составными частями предложений ► абзацные отступы, обозначающие границы между связанными по смыслу группами предложений и т.п. 3. Морфологический анализ. Морфологический анализ включает в себя несколько этапов, первым из которых является нормализация словоформ (лемматизация), т.е. сведение различных словоформ к исходной форме (лемме). Лемма – это словарная форма лексемы (любого слова определенного языка). В языках с богатым словоизменением (флективного и агглютинативного типа) для сохранения всех возможных словоформ потребуются значительные ресурсы памяти. В этом случае в качестве исходной формы, к которой возводится слово, удобнее использовать его основу. Машинная основа (квазиоснова) – это последовательность букв от начала словоформы, общая для всех словоформ, входящих в формообразовательную парадигму данного слова. Если в слове встречается чередование букв (сидеть — сижу, друг — друзья и т.п.), то машинной основой здесь выступает часть слова без словоизменительных морфем и без чередующихся букв: си# и дру#. Стемминг – это возведение словоформ к одной квазиоснове. разных Частеречный тегинг – это определение частеречной принадлежности каждой словоформы в тексте. Машинные окончания — элементы, описывающие формоизменение конкретной лексемы и представляемые в виде парадигм. Числа, стоящие после знака #, называют типами формообразования – они обозначают те наборы суффиксов и окончаний (машинных окончаний), которые необходимо присоединить к основе, чтобы получить соответствующие грамматические формы слов. Далее производится полный морфологический анализ — приписывание грамматических характеристик словоформе. Парсеры — специальные компьютерные программы для автоматического анализа слов. По машинным окончаниям осуществляется полная морфологическая характеристика каждой словоформы мыла {мыть = V, несов = прош, ед, изъяв, жен, перех | мыло = S, сред, неод = им, мн | = S, сред, неод = род, ед | = S, сред, неод = вин, мн} Девочка {девочка = S, жен, од = им, ед} пол {пол = S, муж, неод = им, ед | = S, муж, неод = вин, ед | = А, кратк, муж, им, ед}. 4. Синтаксический анализ. При синтаксическом анализе необходимо определить роли слов в предложении и их связи между собой. Результатом является представление синтаксических связей каждого предложения в виде моделей. Проблема заключается многозначности: синтаксического анализа в синтаксической три пальто → (сколько?) три (чего?) пальто три пальто → (что делай?) три (что?) пальто Возникновение синтаксической многозначности обусловлено: ►лексико-морфологической многозначностью словоформ; ► неоднозначностью правил разбора. В модели непосредственно составляющих синтаксическая структура делится на пары элементов: В дереве зависимостей исходным пунктом анализа выступает сказуемое (V): Чтобы выбрать правильную модель, отражающую синтаксические отношения в конкретном предложении, в подобных случаях необходимо привлечь семантику. 5. Семантический анализ. Проблемы многозначности (омонимии). Семантический анализ предполагает установление семантических отношений между словами в тексте. Семантический анализ позволяет решить проблемы многозначности (омонимии), возникающей при автоматическом анализе. Лексическая омонимия: совпадение звучания и/или написания слов, не имеющих общих элементов смысла: рожа —лицо и вид болезни. Морфологическая омонимия: совпадение форм одного и того же слова (лексемы): словоформа пол соответствует Им.п. и В.п. существительного пол. Лексико-морфологическая омонимия: совпадение словоформ двух разных лексем (мыла — глагол мыть в ед. ч., ж.р., пр. вр. и существительное мыло в ед. ч., Р.п. Синтаксическая омонимия: несколько интерпретаций синтаксической структуры: Эти типы стали есть в цехе (словоформа стали может интерпретироваться как существ. или как глагол), Flying planes can be dangerous (словоформа Flying может интерпретироваться либо как прилаг., либо как существ). 6. Автоматический синтез текста Автоматический синтез текста – это обратный процесс преобразования семантических, синтаксических, морфологических и графематических представлений в текст на естественном языке. Семантический синтез представляет собой переход от смысловой записи фразы к ее синтаксической структуре. Синтаксический синтез – это переход от синтаксической структуры фразы к цепочке лексико-грамматических характеристик ее словоформ. При морфологическом синтезе по нормальной форме слова и его параметрам программа находит соответствующую словоформу. Графематический синтез объединяет слова в единый текст, следит за соответствием фрагментов входного текста фрагментам выходного. Одна из первых компьютерных программ, синтезирующих письменный диалог на английском языке – «Элиза» (1966 г.). Эта программа имитировала диалог с психотерапевтом. Целью программы было не моделирование мышления в точном смысле, а лишь моделирование речевого поведения. Men are all alike. IN WHAT WAY? They 're always bugging us about something or other. CAN YOU THINK OF A SPECIFIC EXAMPLE? Well, my boyfriend made me come here. YOUR BOYFRIEND MADE YOU COME HERE He says I'm depressed much of the time. I AM SORRY TO HEAR YOU ARE DEPRESSED It's true. I am unhappy. DO YOU THINK COMING HERE WILL HELP YOU NOT TO BE UNHAPPY? I need some help, that much seems certain На современном этапе создан специальный язык разметки для искусственного интеллекта AIML (Artificial Intelligence Markup Language), используемый для создания виртуальных агентов (ботов). Боты, моделирующие диалог с собеседником, используются в компьютерных играх и на веб-страницах (для ответов на вопросы пользователей). Функциональность большинства современных программ ограничивается возможностью ведения незатейливой беседы. Обработка естественного языка — острая проблема искусственного интеллекта. Современные программы-собеседники — лишь попытки имитировать разумный диалог с машиной. Любой виртуальный собеседник имеет базу знаний. В простейшем случае она представляет собой наборы возможных вопросов пользователя и соответствующих им ответов. Наиболее распространённые методы выбора ответа в этом случае следующие Реакция на ключевые слова Совпадение фразы Совпадение контекста Элиза DIALA ρBot PARRY A.L.I.C.E. Программы — виртуальные собеседники Chat Master Душка Женя Густман Electronic Brain WildAI