Статистические языковые модели в информационном поиске Никита Спирин, PhD candidate University of Illinois at Urbana-Champaign, Department of Computer Science Московский Физико-Технический Институт, Факультет Управления и Прикладной Математики nikita.spirin@phystech.edu spirin2@illinois.edu Skype: spirinus Что есть информационный поиск (IR)? • “information retrieval is a field concerned with the structure, analysis, organization, storage, searching, and retrieval of information” [Salton,68] – Information в большинстве случаев есть текст, но может быть и изображением, видео. – Retrieval в основном есть поиск по запросу, но может быть и классификация, фильтрация, резюмирование,.. Зачем поиск? • Twitter генерирует 250 000 000 сообщений в день. • 6 000 000 000 фотографий в месяц загружается на Facebook. • Более 560 000 00 профессиональных фотографий загружается в год на Flickr. • Размер индекса Google (нижняя оценка на размер Интернета) в 2008 году достиг 1 000 000 000 000 страниц. Ключевые компоненты поисковой системы? Интернет Краулер Поисковый Индекс Ранжирующая функция План доклада • Базовые понятия – Обзор моделей ранжирования – Введение в статистические языковые модели • Базовая модель ранжирования на основе статистических языковых моделей • Продвинутые модели ранжирования на основе статистических языковых моделей • Модель ранжирования на основе вероятностного расстояния статистических языковых моделей • Заключение План доклада • Базовые понятия – Обзор моделей ранжирования – Введение в статистические языковые модели • Базовая модель ранжирования на основе статистических языковых моделей • Продвинутые модели ранжирования на основе статистических языковых моделей • Модель ранжирования на основе вероятностного расстояния статистических языковых моделей • Заключение Обзор моделей ранжирования • • • • 1950 – 1960: зарождение данного научного направления – Гипотеза об автоматической индексируемости коллекций (Luhn) – Первые эксперименты и выработка принципов оценки работы поисковых систем (Cleverdon’s Cranfield 1 и Cranfield 2) – Ранние эксперименты по разработке векторной модели ранжирования (Salton’s прототип-система SMART) 1970 – 1980: бурное развитие информационного поиска – Становление векторной модели ранжирования – Модели ранжирования на основе вероятностного подхода (PRP) 1990: дальнейшее развитие информационного поиска (новые приложения и теоретизирование подходов и моделей) – Статистические языковые модели – Разработка коллекций для объективного сравнения поисковых систем 2000++: Веб поиск, масштабируемость поисковых систем, антиспам – Машинное обучение ранжированию – MapReduce, Hadoop, GFS, … Постановка задачи ранжирования • Дано: – Словарь для данного языка ; – Множество запросов обучения , где каждое слово из запроса содержится в словаре; – Коллекция документов , где каждый документ есть упорядоченное множество слов из словаря; – Для обучающего множества пар запрос/документ задана оценка релевантности • Найти: – Для нового запроса множество релевантных документов (возможно упорядоченное) из коллекции . Вычисление релевантности: упорядоченное множество или нет? • Стратегия 1 (фильтрация документов) – R(q) = { dC | f(d,q)=1 }, где f(d,q) {0,1} есть классификатор, индикаторная функция – Алгоритм должен предсказать абсолютную оценку о релевантности документа запросу. • Стратегия 2 (ранжирование документов) – R(q) = { dC | f(d,q)> }, где f(d,q) есть ранжирующая функция; порог фильтрации – Алгоритм должен предсказать относительную релевантность документов и подобрать оптимальный порог фильтрации. Вычисление релевантности: упорядоченное множество или нет? 1 + + ++ 0 -- + Реальная релевантность R(q) - + + - + + + - - - Классификация f(d,q)=? - - - - R’(q) - - - + - - - - Ранжирование f(d,q)=? 0.98 d1 + 0.95 d2 + 0.83 d3 0.80 d4 + 0.76 d5 0.56 d6 0.34 d7 0.21 d8 + 0.21 d9 - R’(q) Вычисление релевантности: упорядоченное множество или нет? • Стратегия 1 (фильтрация документов) – R(q) = { dC | f(d,q)=1 }, где f(d,q) {0,1} есть классификатор, индикаторная функция – Алгоритм должен предсказать абсолютную оценку о релевантности документа запросу. • Стратегия 2 (ранжирование документов) – R(q) = { dC | f(d,q)> }, где f(d,q) есть ранжирующая функция; порог фильтрации – Алгоритм должен предсказать относительную релевантность документов и подобрать оптимальный порог фильтрации. Модели на основе текстовой близости (1) • Принцип: – Релевантность документа запросу коррелирует с текстовой близостью запроса и документа • Векторная модель ранжирования (VSM) – Документ и запрос представляются, как векторы в пространстве терминов (10 000++ компонент); – Каждому термину присвоен вес, характеризующий его информативность, уникальность; – Релевантность оценивается как некоторая мера близости векторов; Модели на основе текстовой близости – формально (2) • Документ есть ; • Запрос есть ; • Вес термина определяется на основе TFIDF, которая учитывает – Частоту слова в документе TF; – Встречаемость слова в коллекции IDF; – Длину документа; • Близость определяется на основе нормированного скалярного произведения (косинусная мера). Модели на основе текстовой близости (3) • Преимущества векторной модели ранжирования (VSM): – Дает наилучшие результаты по сравнению с другими классическими моделями; – Очень проста и понятна в реализации; – Существует множество кейсов применения, коллекций и benchmark’ов для сравнения и экспериментов; • Недостатки: – Основана на эвристиках, допускает независимость терминов в запросе и документе; – Сложно расширяема для добавления предметного знания; – Требует тщательной настройки параметров экспертом; – Не объясняет как представлять документы и запросы. Вероятностный Принцип Ранжирования, PRP (1) • Дано и требуется восстановить отображение . • Выпишем функцию правдоподобия и функцию апостериорного распределения параметров модели Вероятностный Принцип Ранжирования, PRP (2) • Выпишем функцию распределения финального ответа для нового прецедента • Определим функцию потерь при и при , а также байесовский риск , тогда Модели на основе вероятностных соображений (1) • Принцип: – Какова вероятность того, что данный документ релевантен данному запросу? • Вероятностная модель ранжирования (PRM): – Рассматриваются три случайные величины (запрос, документ, релевантность R {0,1}); – Цель: упорядочить документы коллекции по убыванию вероятности соответствия документов запросу, P(R=1|Q,D); – Возможны различные способы оценки вероятности в формуле P(R=1|Q,D). Модели на основе вероятностных соображений (2) • Дискриминативный подход (оценить вероятность напрямую, построить отображение): – Определить признаки на парах Q x D, например, # совпавших слов, длина документа, величина IDF самого популярного слова на странице, предсказания базовых ранжирующих функций baseR(Q,D),… – Используя обучающее множество (запросы, документы, и известные оценки релевантности на парах), оценить параметры модели ранжирования – Для нового документа породить признаки и применить обученную модель Модели на основе вероятностных соображений (3) • Генеративный подход (факторизация вероятности в произведение случайных величин, оценка релевантности не напрямую) – Вычислить O(R=1|Q,D) по правилу Байеса – Определить порождающую модель P(Q,D|R) P( R 1 | Q, D) P(Q, D | R 1) P( R 1) O( R 1 | Q, D) P( R 0 | Q, D) P(Q, D | R 0) P( R 0) • Возможные случаи Не влияет на ранжирование – Генерация документов: P(Q,D|R)=P(D|Q,R)P(Q|R) – Генерация запросов: P(Q,D|R)=P(Q|D,R)P(D|R) Модели на основе вероятностных соображений – генерация документа P ( R 1 | Q, D ) P(Q, D | R 1) P( R 0 | Q, D) P(Q, D | R 0) P ( D | Q, R 1) P(Q | R 1) P ( D | Q, R 0) P(Q | R 0) P ( D | Q, R 1) Модель релевантных документов для Q P( D | Q, R 0) Модель нерелевантных документов для Q Допустим независимость величин A1… Ak Пусть D=d1…dk, где dk {0,1} есть значение величины Ak (тоже самое для Q=q1…qm ) P ( Ai d i | Q, R 1) P ( R 1 | Q, D ) P ( R 0 | Q, D) i 1 P ( Ai d i | Q, R 0) P ( Ai 1 | Q, R 1) P ( Ai 0 | Q, R 1) i 1, d i 1 P ( Ai 1 | Q, R 0) i 1, d i 0 P ( Ai 0 | Q, R 0) P ( Ai 1 | Q, R 1) P ( Ai 0 | Q, R 0) i 1, d i 1 P ( Ai 1 | Q, R 0) P ( Ai 0 | Q, R 1) P ( Ai 1 | Q, R 1) P ( Ai 0 | Q, R 0) ( Пусть P ( Ai 1 | Q, R 1) P ( Ai 1 | Q, R 0), при qi 0) P ( A 1 | Q , R 0 ) P ( A 0 | Q , R 1 ) i 1, d i qi 1 i i Модели на основе вероятностных соображений – генерация документа log O( R 1 | Q, D) Rank i 1, d i qi 1 log pi (1 qi ) qi (1 pi ) (RSJ модель) Необходимо оценить по 2 параметра для каждого термина Ai: pi = P(Ai=1|Q,R=1): вероятность, что Ai ассоциирован с релевантным классом документов; qi = P(Ai=1|Q,R=0): вероятность, что Ai ассоциирован с нерелевантным классом документов. Как оценить данные параметры? # (rel. doc with Ai ) 0.5 pˆ i # (rel.doc) 1 # (nonrel. doc with Ai ) 0.5 qˆi # (nonrel.doc) 1 Модели на основе вероятностных соображений – генерация запроса P (Q, D | R 1) P (Q, D | R 0) P (Q | D, R 1) P ( D | R 1) P (Q | D, R 0) P ( D | R 0) P ( D | R 1) P (Q | D, R 1) ( Пусть P (Q | D, R 0) P (Q | R 0)) P ( D | R 0) O ( R 1 | Q, D ) Вероятность запроса p(q| d) При допущении о равномерной априорной вероятности получим Априорная релевантность документа O( R 1 | Q, D) P(Q | D, R 1) Следовательно, вопрос заключается в том как оценить P(Q | D, R 1) вероятность запроса по документу? Процесс состоит из 2 ключевых стадий: • оценить лингвистическую модель для каждого документа D • вычислить релевантности документов запросу на основе этих моделей. Другие модели ранжирования • Подход на основе графических моделей – Принцип: вывести по-байесовски, что запрос релевантен документу • Подход на основе генетических алгоритмов и символьной регрессии – Принцип: порождение моделей и отбор наиболее перспективных • Подход на основе оптимизации эмпирического риска • Эвристический подход на основе структурных свойств функции ранжирования План доклада • Базовые понятия – Обзор моделей ранжирования – Введение в статистические языковые модели • Базовая модель ранжирования на основе статистических языковых моделей • Продвинутые модели ранжирования на основе статистических языковых моделей • Модель ранжирования на основе вероятностного расстояния статистических языковых моделей • Заключение Статистические языковые модели - SLM (определение) • Вероятностное распределение на множестве словарных последовательностей: – p(“Мама мыла раму”) 0.001; – p(“Рама мыла маму”) 0.0000000000001; – p(“Матрица Грамма в унитарном пространстве эрмитова”) 0.00001. • Может быть использована для порождения текста, если рассматривать как случайный процесс семплирования слов из данного вероятностного распределения. Поэтому также можно встретить термин генеративная модель языка. • Зависит от коллекции, тематики, типа модели. Статистические языковые модели (примеры применения) • Позволяет вероятностно описывать естественный язык в рамках теоретически обоснованной гибкой модели. • С помощью SLM можно отвечать на вопросы: – Для словосочетания “Мама мыла”, какова вероятность того, что следующим словом будет “раму”? А “машину”? А “танк”? (распознавание речи) – Если слово “Евро” встретилось 1 раз и “футбол” 4 раза в статье, какова вероятность, что данная статья про спорт по сравнению с финансами? (информационный поиск, категоризация текста) – Если пользователь любит футбол, какова вероятность того, что он употребит слово “гол” в запросе?(информационный поиск на основе SLM) Простейшая статистическая языковая модель – Unigram Language Model (ULM) • Текст генерируется последовательно посредством выбора с возвращением так, что слова в последовательности независимы. • То есть p(w1 w2 ... wn)=p(w1)p(w2)…p(wn). • Параметры модели: {p(wi)} таковы, что p(w1)+…+p(wN)=1, где (N размер словаря V) • Формально, ULM есть мультиномиальное распределение на множестве слов. Простейшая статистическая языковая Text Generation with Unigram LM модель – Unigram Language Model (ULM) ULM с вектором параметров Документ d Семплирование с возвращением p(w| ) … Тема 1: Математика вектор 0.1 базис 0.05 матрица 0.1 след 0.02 … мяч 0.00001 Учебник по аналитической геометрии … … Тема 2: Спорт базис 0.0005 игра 0.25 мяч 0.1 тренировка 0.2 … Новость по футболу Простейшая статистическая языковая модель – Unigram Language Model (ULM) ULM с вектором параметров Документ d Подсчет встречаемости, обучение p(w| ) … … 1/1000 50/1000 20/1000 10/1000 базис 0.001 игра 0.05 мяч 0.02 тренировка 0.01 базис 1 игра 50 мяч 20 тренировка 10 Всего # слов гонка 0 = 1000 100/1000 футбол 0.1 … … футбол 100 … Как оценить качество модели? Является ли данная модель хорошей? Модель восстановленная по данному документу присваивает наибольшую вероятность данному документу, но обобщающая способность такой модели низкая => сглаживание (рассмотрим далее) Оценка статистических Evaluation языковых of SLMs моделей • Прямая оценка качества: Как хорошо модель предсказывает данные, по которым она была обучена? – Примеры: правдоподобие, perplexity, кросс энтропия, KL-divergence (в общем и в целом все эквивалентны) • Косвенная оценка качества: Способствует ли данная модель повышению качества конечной задачи (перевод, поиск, ..)? – Конкретная метрика проблемно-зависимая – В случае IR мы смотрим на то, как данная модель повышает качество поиска, что в свою очередь оценивается эвристическими метриками типа (DCG, MRR, MAP, ..) – Предпосылка данного подхода: более качественная лингвистическая модель приводит к повышению качества решения конечной задачи, но не факт! Более сложные статистические языковые модели • N-gram модель – Имеет вид, p(w1 w2 ... wn)=p(w1)p(w2|w1)…p(wn|w1 …wn-1); – n-gram означает, что модель генерации зависит от предыдущих n-1 слов; – Например, модель на основе биграмм имеет вид p(w1 ... wn)=p(w1)p(w2|w1) p(w3|w2) …p(wn|wn-1). • Модели, учитывающие удаленные взаимодействия терминов (Maximum Entropy Language Model, etc.). • Структурные языковые модели (probabilistic contextfree grammar, PCFG). • В случае информационного поиска используются в большинстве случаев только Unigram Language Model. Почему используются только языковые модели нулевого порядка (ULM)? • Сложность перехода к более мощным языковым моделям: – Требуется настраивать больше параметров => требуется больше данных для качественной настройки (Модель, восстановленная по 100 документам, ужасна). – Приводят к значительным вычислительным проблемам по времени отклика при запросе и по затратам на хранение. • Учет структуры текста/предложений не нужен/малоэффективен для выявления тематической релевантности. Однако, используется активно в IE. • Но применение более сложных моделей может и должно привести в общем случае к повышению качества конечных приложений, в частности поиска! План доклада • Базовые понятия – Обзор моделей ранжирования – Введение в статистические языковые модели • Базовая модель ранжирования на основе статистических языковых моделей • Продвинутые модели ранжирования на основе статистических языковых моделей • Модель ранжирования на основе вероятностного расстояния статистических языковых моделей • Заключение Базовая модель ранжирования с использованием ULM, правдоподобие запроса (1) Лингвистическая модель Документ Статья по Байесовским сетям … text ? mining ? inference ? Bayes ? … спорт ? … Статья-обзор о чемпионате Европы 2012 … сегодня? матч ? продуктивно ? гол ? … Запрос Q = “машинное обучение” ? Какая модель наиболее вероятно породила данный запрос? Базовая модель ранжирования с использованием ULM, правдоподобие запроса (2) LMs документов d1 d2 d1 p(q| d1) d2 p(q| d2) q p(q| dN) … dN Правдоподобие запроса dN 2 ключевых вопроса: • Какую вероятностную модель следует использовать? • Как эффективно вычислить di? Различные языковые модели генерации текста • Multi-Bernoulli: моделирует наличие/отсутствие слов – q= (x1, …, x|V|), xi =1 если слово wi есть в документе; xi =0 если нет; |V | p (q ( x1 ,..., x|V | ) | d ) p( wi xi | d ) i 1 |V | i 1, xi 1 p( wi 1| d ) |V | i 1, xi 0 p( wi 0 | d ) – Параметры: { p(wi=1|d), p(wi=0|d)}, так что p(wi=1|d)+ p(wi=0|d) = 1. • Мультиномиальное (ULM): моделирует частоту слов – Q = q1,…qm , где qj есть слово из запроса – c(wi,q) есть частота слова wi в запросе Q – Parameters: {p(wi|d)} таковы, что p(w1|d)+… p(w|v||d) = 1. m |V | j 1 i 1 p(q q1...qm | d ) p(q j | d ) p ( wi | d )c ( wi ,q ) Большинство работ используют мультиномиальное распределение, что показывает наилучшие результаты согласно вычислительным экспериментам. Ключевой принцип/задача в SLM-IR • • Задача поиска => Задача оценки лингвистической модели документа p(wi|d) В лингвистических моделях сглаживание играет ключевую роль, что в свою очередь является ключевым фактором в различии соответствующих ранжирующих функций. Методы сглаживания • Все методы сглаживания основаны на идее: – Дисконтировать вероятность слов, существующих в документе; – Перераспределить “отобранную” вероятность среди слов, несуществующих в документе. • Лапласовское сглаживание (additive smoothing) предлагает прибавлять единицу к частоте каждого слова и нормализовывать. Частота w в d c( w, d ) 1 p( w | d ) | d | |V | Лапласов фактор Размер словаря Длина документа d (общее число слов) Иллюстрация идеи сглаживания LM P(w) Оценка по ММП p ML ( w ) count of w count of all words Сглаженная LM Word w Развитие идеи: Сглаживание на основе коллекции документов (Jelinek-Mercer) • Правильно ли рассматривать все слова одинаково? – Нет. • Мы можем использовать языковую модель, построенную на основе коллекции для персонифицированной обработки слов. Дисконтированная ММП оценка if w is seen in d pDML ( w | d ) p( w | d ) d p( w | REF ) otherwise Языковая модель коллекции Развитие идеи: Сглаживание на основе коллекции документов c априорным распределением (Dirichlet) • Формально распределение Дирихле есть , где . • Примечательным свойством распределения Дирихле является его связь с мультиномиальным: • А следовательно, согласно Байесовскому выводу, имеем: Сравнение простых моделей ранжирования на основе статистических языковых моделей Query T yp e Title Long Jelinek- M ercer 0.228 0 .2 78 D irichlet 0 .2 56 0.276 A b s. D isco unt ing 0.237 0.260 Relative performance of JM, Dir. and AD precision 0.3 TitleQuery 0.2 LongQuery 0.1 0 JM DIR Method AD Почему сглаживание особенно важно в случае информационного поиска? Общая формула сглаживания Принцип ранжирования со сглаживанием в общей форме Дисконтированная оценка ММП if w is seen in d pDML ( w | d ) p( w | d ) d p( w | REF ) otherwise ULM коллекции log p (q | d ) c( w, q ) log p ( w | d ) wV wV ,c ( w , d ) 0 c(w, q) log wV ,c ( w , d ) 0 d p ( w | REF ) c( w, q ) log pDML ( w | d ) c( w, q ) log d p ( w | REF ) c( w, q ) log wV ,c ( w , d ) 0 c( w, q ) log pDML ( w | d ) wV ,c ( w , d ) 0 wV c(w, q) log wV ,c ( w , d ) 0 pDML ( w | d ) | q | log d c( w, q ) log p ( w | REF ) d p ( w | REF ) wV d p ( w | REF ) Сравнение с классическими эвристиками информационного поиска TF вес log p(q | d ) Нормализация длины документа (длинные документы дисконтируются меньше) c( w, q) log wV ,c ( w, d ) 0 c ( w, q ) 0 Суммирование по словам из запроса и документа pDML ( w | d ) | q | log d c( w, q) p( w | REF ) d p( w | REF ) wV IDF-дисконтирование Не важно для ранжирования • Сглаживание коллекцией p(w|C) есть TFIDF + норм. длины, а следовательно сглаживание есть реализация классических эвристик информационного поиска. • SLM-IR с простым сглаживанием может быть также эффективно вычислена, как и классические модели ранжирования. Двустадийное сглаживание (Dirichlet + Jelinek-Mercer) Стадия 1 Сглаживание пропущенных слов по-байесовски Стадия 2 Моделирование шума в запросе LM коллекции Языковая модель пользователя (аппроксимация по коллекции p(w|C)) План доклада • Базовые понятия – Обзор моделей ранжирования – Введение в статистические языковые модели • Базовая модель ранжирования на основе статистических языковых моделей • Продвинутые модели ранжирования на основе статистических языковых моделей • Модель ранжирования на основе вероятностного расстояния статистических языковых моделей • Заключение Перечень продвинутых моделей ранжирования на основе SLM • Языковые модели, учитывающие интеракции терминов и структуру запросов (n-gram, PCFG) • Кластерное сглаживание (cosine, LDA, PLSI) • Транслитерационная модель (семантическое сглаживание, кросс-языковое сглаживание) • Модель на основе полного Байесовского вывода • Модель, моделирующая шум в запросе на основе смеси распределений (определение информативных и неинформативных терминов в запросе) Перечень продвинутых моделей ранжирования на основе SLM • Языковые модели, учитывающие интеракции терминов и структуру запросов (n-gram, PCFG) • Кластерное сглаживание (cosine, LDA, PLSI) • Транслитерационная модель (семантическое сглаживание, кросс-языковое сглаживание) • Модель на основе полного Байесовского вывода • Модель, моделирующая шум в запросе на основе смеси распределений (определение информативных и неинформативных терминов в запросе) Языковые модели с “длинным” горизонтом • Учитывают последовательные интеракции терминов в запросе: • Учитывают структуру запроса и документа: • Данные модели не приводят к значительному повышению качества поиска, так как: – Требуется настройка колоссального числа параметров; – Эффект от моделирования последовательности слов в запросе не значителен и учитывается косвенно в ULM. Кластерное сглаживание (1) • Идея: – Кластеризовать документы и сгладить языковую модель документа на основе языковой модели соответствующего кластера документов. • Согласно экспериментам данный подход не приводит к значимому увеличению качества. • Причина: жесткая кластеризация и неудачная настройка параметров приводят к тому, что модель дисконтирует ключевые слова из данного кластера. Кластерное сглаживание - Dirichlet (2) • Предпосылка: – Коллекция документов состоит из k тем. – Каждый кластер представляется как нечеткое распределение на множестве тем. • По результатам экспериментов данный подход явно показывает положительный эффект от кластерного сглаживания. • Однако, данный подход не используется на практике для больших коллекций из-за трудоемкости построения LDA для больших коллекций. Кластерное сглаживание – центрирование на документах (3) • Что делать если документ находится на границе кластеров? • Осуществляем сглаживание на основе соседей. Транслитерационная языковая модель ранжирования • Мотивация: – Все рассмотренные модели осуществляют поиск на основе слов непосредственно указанных в запросе. Теряем ли мы часть важных документов при этом? – Да. • Транслитерационная модель учитывает семантические связи между словами в запросе и документах m p (Q | D, R ) i 1 w j V pt (qi | w j ) p ( w j | D ) Транслитерационная модель Обычная LM • Позволяет увеличить качество поиска значительно (полнота), но в свою очередь возникают новые вопросы, связанные с обучением транслитерационной модели и эффективностью исполнения запросов. План доклада • Базовые понятия – Обзор моделей ранжирования – Введение в статистические языковые модели • Базовая модель ранжирования на основе статистических языковых моделей • Продвинутые модели ранжирования на основе статистических языковых моделей • Модель ранжирования на основе вероятностного расстояния статистических языковых моделей • Заключение Модель ранжирования на основе вероятностного расстояния статистических языковых моделей • Мотивация: – Модели ранжирования на основе близости документов и вероятностных методов генерации документов легко позволяют учитывать обратную связь по предпочтениям пользователей. – Модели на основе правдоподобия запроса (на основе статистических языковых моделей) не позволяют легко учитывать данную информацию. • Подход: – Аналогично векторной модели ранжирования мы представим документ и запрос в одном пространстве (теперь вероятностном) и определим меру близости для оценки релевантности. Обратная связь в классической векторной модели ранжирования Релевантные документы Новый запрос Нерелевантные документы Исходный запрос - - ++ +++ - + ++ + - q + + + + + + + + - - - -- - q + - - - - - - - -- -- Обратная связь в моделях на основе вероятностного принципа ранжирования Генерация документов: O( R 1| Q, D) P( D | Q, R 1) P( D | Q, R 0) Правдоподобие запроса O( R 1| Q, D) P(Q | D, R 1) (языковая модель): (q1,d1,1) (q1,d2,1) (q1,d3,1) P(D|Q,R=1) (q1,d4,0) (q1,d5,0) P(D|Q,R=0) (q3,d1,1) (q4,d1,1) (q5,d1,1) (q6,d2,1) (q6,d3,0) P(Q|D,R=1) Релевантные док. Нерелевантные док. Модель “релевантных” запросов Прямой запрос: - P(Q|D,R=1) языковая модель достигает лучшего качества. Обратная связь: - P(D|Q,R=1) улучшаема для данного запроса и новых документов - P(Q|D,R=1) улучшаема, но для новых запросов и данного документа. Модель ранжирования на основе вероятностного расстояния статистических языковых моделей • Компоненты: – Модель представления: статистическая языковая модель; – Функция близости: KL-расстояние. Не важно для ранжирования Связь с базовой моделью на основе правдоподобия запроса • ММП оценка языковой модели запроса имеет вид: • Выпишем формулу ранжирования документов на основе KL-расстояния: Модель учета обратной связи Документ D D D( Q || D ) Запрос Q Q Q ' (1 ) Q F Модель обратной связи F Алгоритм разделения смеси Поисковая выдача Обратная связь F={d1, d2 , …, dn} План доклада • Базовые понятия – Обзор моделей ранжирования – Введение в статистические языковые модели • Базовая модель ранжирования на основе статистических языковых моделей • Продвинутые модели ранжирования на основе статистических языковых моделей • Модель ранжирования на основе вероятностного расстояния статистических языковых моделей • Заключение Сравнение классических моделей ранжирования и на основе статистических языковых моделей • Преимущества: – Теоретическое обоснование (понятная настройка параметров, обоснованные вероятностные предположения, обобщает существующие подходы). – Расширяема для специальных задач (тематики, поиск отзывов..). – Масса исследований в смежных областях (NLP, сигналы,..). – Достигает превосходного качества ранжирования и сравнима, либо доминирует классические модели ранжирования. – Позволяет учитывать обратную связь о релевантности документов. • Недостатки: – Требует задание генеративного подхода (трудно оценить). – Вычислительно более дорогостоящая для достижения схожего качества ранжирования. Статистические языковые модели в информационном поиске – status quo • Теоретическое обоснование применения языковых моделей в поиске. • Эмпирически модели данного семейства показывают превосходное качество в задаче ранжирования: – Базовая модель ранжирования с сглаживанием по Дирихле – Базовая модель ранжирования + предметные априорные оценки релевантности документов (URL, PageRank,..). – Транслитерационная модель учитывает семантические связи между словами одного и разных языков. – Модель с KL-расстоянием – наилучший способ учесть обратную связь о релевантности документов. – Продвинутые модели (смеси распределений, байесовский вывод) демонстрируют как можно расширять модель. • Полностью автоматическая настройка параметров. Спасибо за внимание! • Никита Спирин, PhD candidate • University of Illinois at Urbana-Champaign, Department of Computer Science • Московский Физико-Технический Институт, Факультет Управления и Прикладной Математики nikita.spirin@phystech.edu spirin2@illinois.edu Skype: spirinus