Цели и задачи Метод решения Эксперименты Отбор тем в вероятностных тематических моделях Плавин Александр Московский физико-технический институт Факультет управления и прикладной математики Кафедра интеллектуальных систем Научный руководитель д.ф-м.н. К. В. Воронцов 23 июня 2015 года Результаты Цели и задачи Метод решения Эксперименты План 1 Цели и задачи Задача тематического моделирования Проблема определения числа тем 2 Метод решения 3 Эксперименты Набор данных Результаты 4 Результаты Результаты Цели и задачи Метод решения Эксперименты Результаты Задача выявления тем в коллекции документов Дано: Коллекция текстовых документов: ndw — число вхождений слова w ∈ W в документ d ∈ D. Каждое вхождение каждого слова порождается некоторой неизвестной темой. Цели и задачи Метод решения Эксперименты Результаты Задача выявления тем в коллекции документов Найти: T — множество тем, распределения: Θ ≡ {θtd } ≡ {p(t|d)} — тем в документах, Φ ≡ {φwt } ≡ {p(w |t)} — слов в темах, такие, что: X p(t|d)p(w |t). p̂(w |d) ≈ p(w |d) = t∈T Решение: PLSA Максимизация правдоподобия: !ndw Y Y X L (Φ, Θ) = p(w |d)ndw = θtd φwt → max d∈D,w ∈d d,w t∈T Φ,Θ Цели и задачи Метод решения Эксперименты Результаты Проблема определения числа тем Число тем — задаваемый извне параметр. Важен для интерпретируемости: Задано мало тем ⇒ различные темы сливаются вместе. Задано много тем ⇒ появляются дубликаты, комбинации уже имеющихся. HDP — иерархические процессы Дирихле — популярный подход к определению числа тем. Однако, введение дополнительных требований к модели затруднено, число тем определяется им неустойчиво. Цели и задачи Метод решения Эксперименты Базовый метод: ARTM Подход ARTM (аддитивная регуляризация тематических моделей) — максимизация регуляризованного логарфима правдоподобия: ln L (Φ, Θ) + X τi Ri (Φ, Θ) → max . i Φ,Θ Здесь: Ri (Φ, Θ) — регуляризаторы, задающие дополнительные требования к модели, τi — коэффициенты регуляризации, устанавливающие баланс между этими требованиями. Результаты Цели и задачи Метод решения Эксперименты Результаты Обучение модели: EM-алгоритм E-шаг — формула Байеса: p(t|d, w ) ∝ p(w |t)p(t|d) = φwt θtd M-шаг — принцип максимума правдоподобия: X ∂R , где nwt = ndw p(t|d, w ) φwt ∝ nwt + φwt ∂φwt + d∈D θtd ∂R ∝ ntd + θtd , ∂θtd + где ntd = X w ∈W ndw p(t|d, w ) Цели и задачи Метод решения Эксперименты Результаты Предлагаемый метод: регуляризатор в ARTM Будем максимизировать расстояние (KL-дивергенцию) между равномерным распределением pU (t) = R(Φ, Θ) = KL (pU kp) = KL 1 |T | и модельным p(t): ! 1 nd X θtd . |T | n d Формулы M-шага: φwt ∝ nwt , θtd n 1 ∝ ndt 1 − τ |T | nt + Цели и задачи Метод решения Эксперименты Результаты Набор данных Исходная коллекция: 1 ): Статьи с конференции NIPS (обозначим ndw |D| = 1740, |W | ≈ 1.3 · 104 , n ≈ 2.3 · 106 . Синтетические данные: 1 с 50 На основе сгенерированной простой модели коллекции ndw темами: 0 ndw = nd · p(w |d) ≡ nd · (ΦΘ)wd . Параметрическое семейство смешанных данных: α = αn1 + (1 − α)n0 — Для α ∈ [0, 1] определим ndw dw dw смешанные данные. Цели и задачи Метод решения Эксперименты Результаты Определение истинного числа тем Получаемое число тем при различных значениях параметра α и коэффициента регуляризации τ : 100 Параметр α 0 0.25 0.5 0.75 1 Число тем 75 50 25 0 0.00 0.25 0.50 0.75 Коэффициент регуляризации, τ 1.00 Цели и задачи Метод решения Эксперименты Результаты Устойчивость получаемых значений 400 Число тем Число тем 75 300 200 50 25 100 0 0.25 0.5 1.0 0.50 1.5 Количество запусков Количество запусков 40 20 0 0 5 10 Разброс (a) HDP 0.75 1.00 τ Параметр η 15 600 400 200 0 0 5 10 Разброс (b) ARTM 15 Цели и задачи Метод решения Эксперименты Удаление линейно зависимых тем Данные: 0 + добавленные линейные Синтетическая коллекция ndw комбинации тем. Выбран оптимальный коэффициент регуляризации τ . Число тем 100 Всего Исходные Комбинации 75 50 25 0 0 100 200 Итерации ARTM Результаты Цели и задачи Метод решения Эксперименты Результаты Доля исходных тем в конце Удаление линейно зависимых тем 1.00 0.75 0.50 Тем в комбинации 1 2 5 20 0.25 0.00 0.4 0.5 0.6 0.7 0.8 Доля исходных тем в начале Цели и задачи Метод решения Эксперименты Результаты Время работы 100 Время, сек Время, сек 2.0 75 50 25 0 1.5 1.0 0.5 0.0 0 100 200 Число тем (c) HDP 300 0 100 200 300 400 500 Число тем (d) ARTM Например, при 200 темах и 500 итерациях прирост скорости около 100 раз: 7 часов для HDP против 4.5 минут для ARTM. Цели и задачи Метод решения Эксперименты Результаты Результаты, выносимые на защиту Предложен регуляризатор последовательного отбора тем для модели ARTM. Показано, что он определяет число тем намного устойчивее и значительно быстрее, по сравнению со стандартным методом HDP. Показано, что он удаляет в первую очередь комбинации тем и расщеплённые темы. Показано, что он позволяет определять истинное число тем, если оно существует. Цели и задачи Метод решения Эксперименты Результаты Публикации Плавин А.В. Оптимизация числа тем в вероятностных тематических моделях с помощью регуляризатора строкового разреживания // Конференция МФТИ, 2014. Плавин А.В. Отбор тем в вероятностных тематических моделях // Ломоносов-2015, МГУ. Vorontsov K. V., Potapenko A. A., Plavin A. V. Additive Regularization of Topic Models for Topic Selection and Sparse Factorization // The Third International Symposium On Learning And Data Sciences (SLDS 2015). April 20-22, 2015. Royal Holloway, University of London, UK.