3.1. Назначение онтологий. Информационный поиск. Информационный поиск Поиск информации (Information Retrieval) и задача извлечения документов (Document Retrieval) Постановка задачи DR Дано: 1) Коллекция документов на естественном языке ЕЯ (одном или нескольких); 2) Запрос на ЕЯ. Требуется: Выбрать из коллекции документы релевантные запросу и только их. И, возможно, упорядочить выборку по релевантности. Возникли вопросы? Откуда взялись документы? Чем отличается естественный язык от искусственного? Кто и как формулирует запрос? Что такое релевантность? Ответы – далее... Основные понятия (1) Коллекция документов множество текстов, описывающих некоторую область знаний и собранных вместе (коллекция текстов по гидродинамике) локальные и глобальные коллекции экстремальный случай – коллекция документов, доступных по Internet (область знаний?) Основные понятия (2) Естественный язык используется для общения людей многозначный был и останется основным языком представления знаний человека Искусственный язык в отличие от ЕЯ, сконструирован целенаправленно как правило, не многозначен Основные понятия (3) Информационная потребность внутреннее состояние психики человека причина возникновения: несоответствие между тем, что есть и тем, что хотелось бы иметь (в плане информации) выражается на ЕЯ словами «Хотелось бы знать...» реализуется в виде поискового запроса по коллекции документов Основные понятия (4) Запрос к поисковой системе может быть задан на ЕЯ, но чаще задается на некотором ИЯ. обычный вопрос: «Как проехать в аэропорт?» запрос к Яндекс, Google: «аэропорт проезд». Поисковик не способен понимать ЕЯ. Он способен обрабатывать только поисковые образы – внутренние представления запросов (ПОЗ) и документов (ПОД) на информационно-поисковом языке. Основные понятия (5) Релевантность мера близости документа и запроса может определяться человеком (экспертом), но обычно вычисляется поисковой машиной релевантные запросу документы формируют релевантную выборку... ... но удовлетворяют ли они информационную потребность пользователя? К сожалению, удовлетворение информационной потребности это – не задача, а проблема (трудно формализовать понятие «инф. потребность») Существующие подходы к решению задачи DR Обработка документов и запросов Индексирование по ключевым словам Двоичный поиск Ранжированный поиск (vector-space model) Вероятностная модель Индексирование по ключевым словам Информационный поиск начинается не с написания запроса, а с индексирования документов. Каждому документу сопоставляется ПОД. Пример: документ – книга, ПОД – алфавитный указатель в конце книги. Инвертированный словарь каждая запись содержит: термин, количество документов коллекции, в которых термин появился, частоту появления в документах коллекции, ссылку на структуру, описывающую появление термина в каждом из документов. DocNo 67 424 1376 Freq 2 Word Position 279 283 * 1 24 * 7 137 189 481… … 206 1 170 * 4819 2 426 321 … Двоичный поиск ПОЗ – формула. Термины и логические связки (AND, OR, NOT) ПОЗ можно рассматривать как двоичную маску. Способ наложения маски: каждому операнду сопоставляется подмножество документов, затем над множествами выполняются соответствующие операции (пересечение, объединение, дополнение) Ровно 2 значения релевантности: true, false. Ранжированный поиск (vector space model) ПОД и ПОЗ представляют собой векторы в пространстве терминов значения элементов векторов задаются некоторой функцией наиболее популярна tf*idf Релевантность – близость векторов ПОД и ПОЗ в пространстве терминов (косинус угла между ними) Вероятностная модель Основана на вычислении вероятности того, что документ релевантен запросу. Делается ряд допущений: документ либо релевантен запросу, либо нет термины распределены по документам коллекции независимо релевантность одного документа не зависит от других В целом качество поиска не лучше, чем у модели vector space Оценка качества поисковых систем конференции TREC, CLEF, РОМИП важные параметры качества поиска полнота (recall, R) – доля релевантных документов в выборке, по отношению ко всем релевантным документам коллекции точность (precision, P) – доля релевантных документов в выборке, по отношению ко всем документам в выборке. Релевантные Извлечены A Неизвлечены C A+ C=n Нерелевантные B D B+ D= N- n N – число документов в коллекции n – число релевантных документов в коллекции m – число документов в выборке А – число релевантных документов в выборке R = A / n; P=A/m A+ B= m C + D = N– m A+ B + C+ D= N Как улучшить поиск? Отказ от идеи независимости («ортогональности») терминов: понятия могут быть связаны в семантические сети (представлены как тезаурусы или онтологии) Использование онтологий и тезаурусов расширение запроса было «бегемот» стало «бегемот, гиппопотам» недостатки подхода: «поисковый шум» Вопросы к лекции Перечислите традиционные подходы к решению задачи DR. Чем критерий полноты отличается от критерия точности? Назовите способы улучшения поиска при помощи тезаурусов и онтологий.