Структуры заимствований в диссертациях по историческим наукам © П.В. Ботов © Д.В. Вьючнов © Н.С. Суровенко © А.С. Хританков © С.В. Царьков © Ю.В. Чехович ЗАО «Анти-Плагиат» Москва khritankov@antiplagiat.ru Анализ диссертаций по историческим наукам • Исследованы взаимные заимствований текстовых фрагментов в диссертациях кандидатов и докторов наук по историческим специальностям рубрикатора ВАК (07.хх.хх). • С помощью алгоритмических, статистических методов и методов анализа графов и сетей были обнаружены группы сильно связанных по заимствованиям между собой диссертаций. • Обнаружены «скомпилированные» работы и указаны предполагаемые источники таких компиляций. RCDL 2014 2 Исследовательские вопросы • Возможен ли «глубокий анализа» заимствований в объемных текстовых коллекциях на наличие некорректных заимствований? • Какова доля работ с существенными заимствованиями текста из других диссертаций? • Является ли подготовка таких работ частью процессов систематической компиляции, либо это единичные не связанные случаи? RCDL 2014 3 Исходные данные • Более 14 тыс. кандидатских и докторских с кодами исторических наук 07.хх.хх из коллекции диссертаций ЭБД РГБ • 165 документов без текстов или с ошибками в тексте • Поиск общих блоков текста между документами в коллекции системой Антиплагиат RCDL 2014 4 Первичная обработка данных • Система «Антиплагиат» анализирует тексты документов, строит по ним инвертированный индекс групп последовательно идущих слов (n-грамм) и сравнивает документы попарно после нахождения потенциально совпадающих блоков в индексе. • Найденные блоки объединяются в более крупные фрагменты, из которых устраняется «шум» и фрагменты корректного цитирования • В результате получаем для каждой пары документов набор заимствованных фрагментов. Направление заимствования устанавливается по году защиты. RCDL 2014 5 Фильтрация корректных цитат Некорректно • Выделение кандидатов – правила русского языка и ГОСТ Р 7.0.5 – 2008 оформленная цитата • Задача классификации, в целом, удалось на время обуздать 23 признака «самостоятельное – Символы в начале и конце, революционное творчество рядом с цитатой масс» в этой сфере и сохранить преемственность – Размеры слов, длина цитаты, спецсимволы Корректно оформленная цитата Дума гор. Вятки «...единогласно высказалась за признание нового правительства и выразила одушевлявшую всех гласных радость по поводу поражения старого ненавистного режима дружным ура...» 192 . RCDL 2014 6 Результаты выделения цитат • Алгоритм для отбора цитат - дерево решений J48 (C4.5) • Тексты диссертаций по историческим наукам размечены – Обучение: 16320 блоков, из которых 2848 цитат – Контроль: 8159 блоков, из которых 1429 цитат • На обучающей выборке – точность 96,8% – полнота 73,5% • На тестовой выборке – точность 95,8% – полнота 43,8% RCDL 2014 7 Объединение найденных блоков во фрагменты • До и после объединения блоков, разделенных менее чем 30 символами RCDL 2014 8 Распределение фрагментов по размеру и позиции в документах RCDL 2014 9 К определению порогового размера фрагмента для устранения «шума» RCDL 2014 10 Анализ групп диссертаций • Построен граф заимствований между диссертациям, в котором в качестве вершин были диссертации, а ребра определялись заимствованиями из этих работ. • Вес ребра рассчитывался как количество совпадающего текста в символах. • Анализ групп и сообществ в графе заимствований позволяет установить «контекст» заимствований между диссертациями, выделить скрытые внутренние структуры. • Применяются известные алгоритмы поиска сообществ в графах. RCDL 2014 11 Пример сообщества из графа заимствований • Узлы графа – документы • Ребра – суммарные заимствования RCDL 2014 12 К определению порогового объема заимствований • Выделение структуры в зашумленном графе заимствований (шум – мелкие случайные заимствования) • Отсечение по объему попарных заимствований RCDL 2014 13 Найденные сообщества диссертаций RCDL 2014 14 Помощь экспертам • Ежегодно защищается более 25 тыс. новых диссертаций • Даже для автоматизированной экспертной проверки всех диссертаций нужно более 100 постоянных экспертов • Полученные результаты могут использоваться для отбора «подозрительных» диссертаций – Продемонстрирована применимость методов, разработан комплекс программ – Из 14 тыс. не менее 500 диссертаций имеют существенный объем более 33% общих текстовых фрагментов – Обнаружены следы систематической деятельности по компиляции диссертации RCDL 2014 15 Структуры заимствований в диссертациях по историческим наукам Спасибо за внимание! Контакты Антон Хританков khritankov@antiplagiat.ru RCDL 2014 16