Приложение к программе курса «Дискретные структуры

реклама
С.О. Кузнецов
Приложение к программе курса «Теория решеток для
интеллектуального анализа данных» («Дискретные структуры»)
Методические рекомендации (материалы) преподавателю:
Тема 1. Введение. Отношения и графы.
Рекомендуется вначале дать обзор курса и указать на интересные приложения излагаемого
формального аппарата в задачах анализа данных. Для студентов прикладной математики
это будет важной мотивацией овладеть кругом довольно сложных и часто непривычных
понятий. Основное внимание на первых лекциях направлено на связь отношений с
графами. Важно привить навыки быстрого установления связи между свойствами
отношений и свойствами соответствующих графов, умение быстрого перехода с одного
языка на другой. Часто бывают проблемы с различением свойств несимметричности,
асимметричности и антисимметричности бинарных отношений. Помочь запомнить
определения этих свойства помогает представление отношения в виде таблицы и
сопоставление свойства отношения логической функции от симметричных относительно
главной диагонали элементов. Для симметричного отношения такой функцией является
функция эквивалентности, для асимметричного и антисимметричного – сложение по
модулю 2 (с разницей в том, что отношение асимметричное отношение иррефлексивно),
для не симметричного - отсутствие функционального выражения. Интерпретация на
ориентированных графах: симметричность если есть дуга в одну сторону, то есть и в
противоположную, антисимметричность – для каждой пары есть не больше одной дуги,
асимметричность: для каждой пары вершин есть не больше одной дуги и нет петель.
Тема 2 Порядки и графы.
Часто студенты не могут отвыкнуть от ложного представления о том, что порядок всегда
линеен. Здесь самый фундаментальный навык – умение рисовать диаграммы (Хассе)
порядка и мыслить в его терминах и образах. Необходимо указать на недопустимость
«треугольников» в диаграмме (они часто появляются в работах даже самых лучших
учеников). Очень хороший вопрос для понимания сути формального определения
частичного порядка и соответствующего строгого порядка: «Является ли отношение
строгого порядка антисимметричным» (этим проверяется также владение понятием
материальной импликации из логики). Задание представить порядок ориентированным
графом и диаграммой быстро убеждает учащихся в предпочтительности второго
представления. Привести пример «фундаментальных» частичных порядков на разбиениях,
мультимножествах и делителях натуральных чисел. Попросить студентов нарисовать
пример диаграмм таких порядков.
Тема 3. Решетки и полурешетки. Соответствия Галуа.
Введение понятия решетки через инфимум и супремум в порядке с иллюстрацией на
диаграмме порядка. Необходимо сразу показать связь понятия решетки с ограничениями
на вид диаграммы. Только затем вводится эквивалентное определение решетки как
алгебраической системы с двумя операциями. Для иллюстрации понятия решетки полезно
показать того, что решетками и полурешетками, являются все естественные таксономии.
Привести пример известной всем решетки – булевой, сказав о том, что там выполняются
дополнительные свойства (например, дистрибутивность и свойства дополнения).
Привести «фундаментальные примеры» решеток разбиений, решеток мультимножеств и
решеток делителей натуральных чисел.
Тему соответствий Галуа лучше начинать с частного случая соответствия Галуа,
задаваемого бинарным отношением. Проиллюстрировать на простом примере с бинарной
объектно-признаковой таблицей. Затем можно переходить к общему определению
соответствий Галуа между двумя упорядоченными множествами. Можно рассказать о
происхождении соответствий Галуа, упомянув теорию Галуа и связь между полями
многочленов и их группами. Рассмотреть свойства операторов Галуа и определяемых с их
помощью операторов замыкания.
Тема 4. Анализ формальных понятий (АФП).
Взяв таблицу из примера к теме 4, рассмотреть общие свойства каких-либо объектов и
общие объект какого-либо множества свойств. Дать определение формального понятия,
определить естественное отношение общности на понятиях и показать, что оно является
частичным порядком. Указать на логико-философскую традицию рассмотрения понятий,
обратное соотношение между объемами и содержанием понятий (Логика Пор-Рояля).
Привести пример из естественных таксономий (например, царства животных). Далее
хорошо перейти к диаграмме порядка, не забыв особо оговорить понятия, связанные с
пустым множеством объектов и пустым множеством свойств. На примере диаграммы
увидеть, что понятия образуют решетку. Доказать это свойство в общем виде. На примере
диаграммы показать, что такое супремум и инфимум-неразложимые элементы решетки.
Дать формальное определение. показать на примере, как решетку можно представить с
помощью бинарного отношения. Доказать основную теорему АФП (о возможности такого
представления в общем случае). Показать пример контекста, решетка понятий которого
булева. Указать при этом на возможное экспоненциальное соотношение между размером
контекста и размером решетки понятий. Ввести определения «стрелок» и привести пример
того как с помощью стрелок описывается свойство дистрибутивности решеток «уже на
уровне» контекста.
Переходя к теме импликаций, необходимо указать на примере на некую, интуитивно
понятную, зависимость признаков в контексте. Дать формальное определение импликации.
Спросить о том, как по мнению учащихся число понятий в контексте (при фиксированном
размере множеств объектов и множеств признаков) соотносится с числом нетривиальных
импликаций: часто у студентов вначале бывает неверное представление о том, что при
большем числе понятий бывает большое число импликаций. Указать на связь импликаций
в контексте с материальной импликацией из логики высказываний, указать на отличия.
Особо оговорить случай импликации, когда посылка содержит множество признаков, не
встречающееся ни в одном объектном содержании. Указать интерпретацию импликаций на
диаграмме решетки понятий.
Определить многозначный контекст и функциональные зависимости, описав в общих
чертах их важность для теории реляционных баз знаний (средство декомпозиции).
Показать, что правила Армстронга выполняются как для импликаций, так и для
функциональных зависимостей. После этого доказать сводимость импликаций к
функциональным зависимостям и обратную сводимость.
Правила Армстронга приводят к естественной идее базиса импликаций – такому их
подмножеству, из которого выводятся все остальные. Первая естественная идея базиса –
прямой базис. Но он часто бывает слишком большим, показать на примере, когда можно
получить гораздо меньший по размеру базис, чем прямой.
Идея базиса Дюкенна-Гига и квазисодержание как сущность, добавление которой не
меняет импликаций. Рекурсивное определение псевдосодержания (Гантер) и
нерекурсивное определение (Дюкен-Гиг) - первое удобно для вычислений, а второе удобно
для доказательств трудновычислимости. Псевдосодержания как минимальные (по
вложению) квазисодержания.
Установить связь базиса импликаций Дюкенна-Гига с типом соответствующих решеток
(например, базисы с одноэлементными посылками соответствуют дистрибутивной решетке
понятий). Обсудить триаду «контекст (бинарное отношение) – решетка (понятий) – базис
импликаций контекста», и то, как каждый элемент этой триады определяет остальные два.
Тема 5. Модели представления знаний, машинного обучения и разработки данных
через соответствия Галуа и решетки понятий.
Решетки понятий как средство для построения таксономий и мерономий (системы классов,
связанных отношением «быть частью»).
Онтология как философское понятие. Современное использование онтологий в
вычислительных науках. Различные определения онтологий. Онтология как частичноупорядоченное множество с дополнительным отношением на элементах. Слияние
онтологий. Программные средства построения и слияния онтологий: Protégé, Prompt.
Онтологии как решетки понятий и их автоматическое порождение по объектнопризнаковым таблицам (контекстам).
Дать определения машинного обучения, основное из них – по Т. Митчеллу. Ввести
определение пространства версий. Рассмотреть простейший случай конъюнктивного
описания примеров и классификаторов (на основе унарных предикатов). Привести пример
когда пространство версий не одноэлементно. Привести пример когда пространство
версий пусто. Ввести ДСМ-гипотезы с запретом на контрпример как элементы
положительной решетки понятий. Показать, что даже при пустоте пространства версий
существуют осмысленные гипотезы – связать с введением ограниченной дизъюнкции
(которая действует только на замкнутых множествах признаков). Показать, что гипотезы
являются импликациями в соответствующем контексте. Показать как гипотезы
вычисляются алгоритмом «Замыкай-по-одному». Показать как пространство версий
определяется через соответствия Галуа (между подмножествами примеров и
подмножествами классификаторов). Рассмотреть пространства версий с полурешеточным
упорядочением классификаторов. Показать как другие предикаты ДСМ-метода (обратный,
ситуационный, обобщенный) выражаются на языке соответствий Галуа.
Ввести определение деревьев решений. Объяснить смысл энтропийного функционала при
выборе признаков. Рассмотрев вид функции энтропии от вероятностей значений
признаков рассмотреть другие функционалы – индекс Джини, метрика Хэмминга и др.
Обратить внимание на то, что значения этих функционалов «не чувствительны к
замыканию»: множество признаков и замыкание этого множества имеют одинаковой
значение функционала. Рассмотреть погружение деревьев решений в решетку
полупроизведения шкал. Отличие между этой решеткой и решеткой положительного
контекста, в которой определяются гипотезы: полупроизведение шкал описывает решетку
«всех возможностей» (всех возможных комбинаций признаков), а решетка, в которой
определяются гипотезы, – это решетка «наличных данных» (обобщений наличных
положительных примеров). Обучение в узорных структурах – видимое расширение языка
представления. В то же время, возможно сведение к стандартным контекстам через
основную теорему АФП. Примеры на графах и цепочках. Проекции узорных структур как
средство снижения вычислительной сложности. Импликации и ассоциативные правила на
узорных структурах.
Рекомендуется практические занятия с системой QuDA (с реализованным построением
деревьев решений, гипотез, ассоциативных правил) и системой ConExp, в которой
реализовано построение диаграмм решеток и ассоциативных правил.
Переходя к теме применения методов теории решеток и анализа формальных понятий в
разработке данных (Data mining), можно начать с того, что признаковые импликации в
контекстах, определенные ранее, выражают закономерности без исключений. Сказать о
том, что при анализе реальных данных необходимо допустить возможность некоторого
количества исключений, затем дать формальное определение ассоциативного правила.
Описать сложности, связанные с определением базиса импликаций. Рассмотреть
ассоциативные правила, связанные с ребрами диаграммы решетки. Показать, как
уменьшается степень уверенности при рассмотрении пар понятий, не являющихся
соседями в диаграмме решетки. Этим мотивируется определение базиса ассоциативных
правил через ребра диаграммы решетки (или остовное дерева графа диаграммы),
соответствующим наиболее достоверным правилам (имеющим наименьшее число
исключений).
Тема 6. Алгоритмические проблемы построения решеток замкнутых множеств и
базисов импликаций
Вначале необходимо ввести основные понятия теории алгоритмической сложности.
Временная сложность, сложность по памяти. сложность в худшем случае, сложность в
среднем. Следует сделать некоторый обзор классов сложности, но подробно рассматривать
стоит лишь 3 класса. Полиномиальная сложность, экспоненциальная сложность.
Сводимости задач: по Карпу и по Тьюрингу Классы P, NP, co-NP и PSPACE, полнота в них.
Примеры задач из каждого класса, из книги Гэри и Джонсона. Полиномиальная иерархия.
Класс перечислительных задач #P и полнота в нем, пример – задача вычисления
перманента, числа вершинных покрытий и др.
Анализ вычислительных задач, связанных с решетками понятий: следует начинать с того,
что число возможных понятий может быть экспоненциальным от размера контекста: так у
контрноминальной шкалы булева решетка понятий. Как оценивать эффективность
алгоритма, порождающего возможно экспоненциальное множество объектов – через
введение в оценку сложности алгоритма размера выхода. Что значит эффективный
алгоритм порождения понятий – алгоритм, который «не делает лишнего». Алгоритмы с
(кумулятивной) полиномиальной задержкой вычисления всех понятий и решетки понятий.
Рассматривая алгоритмы Норриса, Гантера и Замыкай-по-одному (ЗО), важно показать их
родственность: все они, явно или неявно, пользуются понятием «каноничности
порождения» понятия. Если для представления вычислений использовать дерево, то видно,
как алгоритм Гантера получается из ЗО сменой движения по дереву на противоположное.
Доказать #P-полноту задачи подсчета числа всех понятий. Провести эксперименты по
вычислению решеток понятий с помощью системы ConExp.
Сложность вычисления псевдосодержаний лучше всего продемонстрировать на примере,
когда число псевдосодержаний экспоненциально от размера контекста. Показать, что
квазизамкнутость проверяется быстро, но задача проверки псевдозамкнутости лежит в
классе co-NP. Доказать #P-полноту задачи подсчета числа всех псевдозамкнутых множеств.
Рассмотреть алгоритм Гантера одновременного вычисления всех замкнутых и всех
псевдозамкнутых множеств.
Тема 7. Кластеризация и устойчивость понятий
Прежде чем обратиться к кластеризации на основе решеток формальных понятий, стоит
сделать небольшой обзор классических методов кластеризации, основанных на отношении
и метриках сходства. Их общий недостаток – в том, что при составлении кластера по
попарному сходству возможно общее несходство объектов. Для устранения этого
недостатка предлагается определение кластера как замкнутого множества объектов с
«большим» общим числом признаков. Замкнутое множество объектов обладает некоторой
«избыточностью», возможность его восстановления по подмножеству всего множества
объектов. Эти соображения лежат в основе определения индексов устойчивости понятия
как мера качества кластера. Показать, что идея устойчивости может воплощаться в разных
определениях, например, уровневых и интегральных индексов устойчивости. Для лучшего
понимания устойчивости необходимо провести параллель между индексами устойчивости
и дисперсией, подсчитанной по методам непараметрической статистики (метод складного
ножа). Устойчивость понятия связана с объектными импликациями в контексте, с
алгебраическими свойствами решетки понятий, так устойчивость каждого понятия в
булевой решетке понятий равна нулю. Между уровневыми индексами устойчивости
существует простая связь: индекс каждого уровня не меньше индекса предыдущего уровня.
Интересна динамика устойчивости при росте числа примеров: интегральная устойчивость
может возрастать до единицы, но падать не ниже определенного уровня выше нулю.
Трудновычислимость устойчивости связана с вычислительной эквивалентностью задачам
сходным с минимизацией монотонной булевой функцией. Тем не менее, очевиден
алгоритм с полиномиальной задержкой для вычисления индексов устойчивости.
Приближенное вычисление устойчивости возможно, например, с использованием свойства
монотонного неубывания индексов устойчивости с ростом уровня в решетке. Полезно
рассказать об опыте применения индексов устойчивости в анализе сообществ, где
объектами являются индивиды, а признаками – признаки их поведения, позволяющие
группировать их в сообщества. Обсудить возможности приближенного вычисления
индексов устойчивости с помощью метода Монте-Карло. Предложить ввести другие
индексы устойчивость и сравнить их свойства с интегральным и уровневыми индексами.
Автор программы
С.О. Кузнецов
Скачать