Задача поиска неточностей в электронной коллекции судебных актов Рогов А.А., Сидоров Ю.В., Бурлак И.Л. Петрозаводский государственный университит Структура Арбитражных судов РФ Арбитражные суды субъектов федерации Арбитражные апелляционные суды Федеральные арбитражные суды округов Высший арбитражный суд Российской Федерации Виды судебных документов Судебные определения Судебные решения Судебные постановления Сайты Арбитражный суд РК Высший арбитражный суд Российской Федерации Петрозаводский городской суд Судебное решение Структура судебного решения Решение состоит из: Вводная часть - набор атрибутов дела (номер дела, судья) Описательная и мотивировочная части - набор фактов в текстовом виде (начинается со слов «установил: …») Резолютивная часть или судебное решение (начинается со слов «Решил: …») Особенности Наличие определенной структуры построения всего текста и отдельных предложений Ограниченность языка и возможность использования словаря судебных терминов 2 основных субъекта отношений Возможен анализ текста при помощи базы статей кодекса (КоАП, АПК) Цель работы: Разработать алгоритм(ы) проверки корректности отнесения того или иного судебного акта к определенной категории спора (классу) и проверки однозначности решений похожих дел. Категории судебных споров: Агентирование Административная ответственность Аренда Банкротство Залог Заем … Для решения поставленной задачи требуется реализовать прототип программного продукта, который будет обладать следующим функционалом: o Поиск в банках судебных решений (http://ras.arbitr.ru) o Предварительная обработка o Извлечение информации o Применения алгоритмов анализа текста o Интерпретация полученных результатов Предварительная обработка Определение частей документа Удаление стоп-слов Стэмминг Приведение к НФ Выделение ключевых слов на основе судебного словаря Выделение номеров статей кодекса Задача классификации Множество категорий: C {c1 ,..., c|C|} Множество документов: D {d1 ,..., d|D|} Неизвестная целевая функция : C D {0,1} Некоторая начальная коллекция R C D размеченных документов разделена на обучающую и проверочную выборки Необходимо построить классификатор Ф’, максимально близкий к Ф Классификация на основе словаря. Уменьшение размерности. Отбрасываются служебные слова Вместо отдельных слов брать группы слов и словосочетания Отбрасываются «непоказательные» слова Использовать только судебный словарь Индексация документов Каждый текст представляется как вектор термов: Ti = {w1, w2, …, wn} wi – частота (или количество) встречаемости или вес слова (TF * IDF) категория / слово Слово 1 Слово 2 Слово 3 Агентирование 0.2 0.5 0.1 Административная 0 ответственность 0.3 0.1 Аренда 0.2 0.15 … 0.1 … Байесовский классификатор Категория 1 Категория 2 Категория 3 Категория 4 Категория 5 Процент правильного определения (%) 80 60 80 60 40 Классификация на основе статей Частотная матрица категория / статья Статья 1 Статья 2 Статья 3 Агентирование 0.2 0.5 0.1 Административная 0 ответственность 0.3 0.1 Аренда 0.2 0.15 … 0.1 … Смешанная классификация Классификация и на основе словаря и на основе статей (задавая весовые коэффициенты между обоими вариантами классификации). Варианты формализации похожих судебных решений Фактологическая часть судебного решения Факт 1 Факт 2 Факт 3 …. Факт N Подходы Fi , j определяется g ( Fi , j ) - мера вины Ni Тогда g ( Di ) g ( Fi , j ) j 1 g(Di) – общая мера вины по делу Di Спасибо за внимание