present3-1

реклама
3.1. Назначение онтологий.
Информационный поиск.
Информационный поиск
Поиск информации
(Information Retrieval)
и задача извлечения документов
(Document Retrieval)
Постановка задачи DR
Дано:
1) Коллекция документов на естественном языке ЕЯ (одном или нескольких);
2) Запрос на ЕЯ.
Требуется:
Выбрать из коллекции документы релевантные
запросу и только их. И, возможно, упорядочить
выборку по релевантности.
Возникли вопросы?
 Откуда взялись документы?
 Чем отличается естественный язык от
искусственного?
 Кто и как формулирует запрос?
 Что такое релевантность?
Ответы – далее...
Основные понятия (1)
 Коллекция документов



множество текстов, описывающих некоторую
область знаний и собранных вместе
(коллекция текстов по гидродинамике)
локальные и глобальные коллекции
экстремальный случай – коллекция
документов, доступных по Internet (область
знаний?)
Основные понятия (2)
 Естественный язык



используется для общения людей
многозначный
был и останется основным языком
представления знаний человека
 Искусственный язык


в отличие от ЕЯ, сконструирован
целенаправленно
как правило, не многозначен
Основные понятия (3)
 Информационная потребность




внутреннее состояние психики человека
причина возникновения: несоответствие
между тем, что есть и тем, что хотелось бы
иметь (в плане информации)
выражается на ЕЯ словами «Хотелось бы
знать...»
реализуется в виде поискового запроса по
коллекции документов
Основные понятия (4)
Запрос к поисковой системе может быть задан
на ЕЯ, но чаще задается на некотором ИЯ.
обычный вопрос: «Как проехать в аэропорт?»
запрос к Яндекс, Google: «аэропорт проезд».
Поисковик не способен понимать ЕЯ.
Он способен обрабатывать только поисковые
образы – внутренние представления запросов
(ПОЗ) и документов (ПОД) на
информационно-поисковом языке.
Основные понятия (5)
 Релевантность




мера близости документа и запроса
может определяться человеком (экспертом),
но обычно вычисляется поисковой машиной
релевантные запросу документы формируют
релевантную выборку...
... но удовлетворяют ли они информационную
потребность пользователя?
К сожалению, удовлетворение информационной
потребности это – не задача, а проблема (трудно
формализовать понятие «инф. потребность»)
Существующие подходы к
решению задачи DR
 Обработка документов и запросов




Индексирование по ключевым словам
Двоичный поиск
Ранжированный поиск (vector-space model)
Вероятностная модель
Индексирование по ключевым
словам
 Информационный поиск начинается не с
написания запроса, а с индексирования
документов.
 Каждому документу сопоставляется ПОД.

Пример: документ – книга, ПОД – алфавитный
указатель в конце книги.
Инвертированный словарь
каждая запись содержит:
термин,
количество документов коллекции, в которых
термин появился, частоту появления в документах
коллекции, ссылку на структуру, описывающую появление
термина в каждом из документов.
DocNo
67
424
1376
Freq
2
Word Position
279 283
*
1
24
*
7
137 189 481… …
206
1
170
*
4819
2
426 321
…
Двоичный поиск
 ПОЗ – формула. Термины и логические
связки (AND, OR, NOT)
 ПОЗ можно рассматривать как двоичную
маску.
 Способ наложения маски: каждому
операнду сопоставляется подмножество
документов, затем над множествами
выполняются соответствующие операции
(пересечение, объединение, дополнение)
 Ровно 2 значения релевантности: true, false.
Ранжированный поиск
(vector space model)
 ПОД и ПОЗ представляют собой векторы в
пространстве терминов
 значения элементов векторов задаются
некоторой функцией

наиболее популярна tf*idf
 Релевантность – близость векторов ПОД и
ПОЗ в пространстве терминов (косинус
угла между ними)
Вероятностная модель
 Основана на вычислении вероятности
того, что документ релевантен запросу.
 Делается ряд допущений:



документ либо релевантен запросу, либо
нет
термины распределены по документам
коллекции независимо
релевантность одного документа не
зависит от других
 В целом качество поиска не лучше, чем у
модели vector space
Оценка качества поисковых систем
 конференции TREC, CLEF, РОМИП
 важные параметры качества поиска


полнота (recall, R) – доля релевантных документов в выборке,
по отношению ко всем релевантным документам коллекции
точность (precision, P) – доля релевантных документов в
выборке, по отношению ко всем документам в выборке.
Релевантные
Извлечены
A
Неизвлечены
C
A+ C=n
Нерелевантные
B
D
B+ D= N- n
N – число документов в коллекции
n – число релевантных документов в коллекции
m – число документов в выборке
А – число релевантных документов в выборке
R = A / n;
P=A/m
A+ B= m
C + D = N– m
A+ B + C+ D= N
Как улучшить поиск?
 Отказ от идеи независимости
(«ортогональности») терминов: понятия
могут быть связаны в семантические сети
(представлены как тезаурусы или онтологии)
 Использование онтологий и тезаурусов

расширение запроса



было «бегемот»
стало «бегемот, гиппопотам»
недостатки подхода: «поисковый шум»
Вопросы к лекции
 Перечислите традиционные подходы к
решению задачи DR.
 Чем критерий полноты отличается от критерия
точности?
 Назовите способы улучшения поиска при
помощи тезаурусов и онтологий.
Скачать