И.А. КУЗНЕЦОВ Научный руководитель – М.В. КОПТЕЛОВ, аспирант Национальный исследовательский ядерный университет «МИФИ» ПРОГРАММНЫЕ СРЕДСТВА ДЛЯ АНАЛИЗА ДАННЫХ ОБЩЕСТВЕННОГО МНЕНИЯ О РАЗВИТИИ АТОМНОГО ПРОМЫШЛЕННОГО КОМПЛЕКСА Развитие информационных технологий, когда любой человек может моментально получить или поделиться информацией с кем либо, беспрепятственно высказывать мысли и формировать общественные движения, сохраняя при этом свою анонимность, может иметь определенные последствия. В каждой конкретной ситуации эти движения могут быть как положительными, так и отрицательными. Для контроля текущей ситуации, а также будущих тенденций, необходимо проводить мониторинг общественного мнения. Актуальность данной темы обоснована необходимостью понимания отношения к атомной отрасли со стороны населения. Постоянный мониторинг и контроль средств массовой информации и социальных сетей является весьма эффективным способом для своевременного реагирования в случае возникновения конфликтных ситуаций: антиатомные лозунги, призывы к бойкотированию строительства АЭС и так далее. Среди подходов, наиболее полно соответствующих данной задаче, можно выделить наивный байесовский классификатор, который основан на теореме Байеса [1]: 𝑃(𝐵|𝐴)𝑃(𝐴) 𝑃(𝐴|𝐵) = 𝑃(𝐵) где: P(A) – априорная вероятность гипотезы A P(A|B) – вероятность гипотезы A при наступлении события B P(B|A) – вероятность наступления события B при истинности гипотезы A P(B) – полная вероятность наступления события B Наивный байесовский классификатор представляет собой простой вероятностный классификатор, основанный на применении Теоремы Байеса со строгими (наивными) предположениями о независимости. Принцип работы данного алгоритма заключается в том, что на основе предварительного обученных классов, с указанными классами для этих документов, будет выполняться анализ новых документов. Для реализации классификатора необходима обучающая выборка, где будут проставлены соответствия между классами и текстовыми документами. На этапе классификации для каждого класса необходимо рассчитать значение следующего выражения и определить принадлежность к классу с максимальным значением: log где: 𝐷𝑐 𝑊𝑖𝑐 + 1 + ∑ log |𝑉| + 𝐿𝑐 𝐷 𝑖 ∈𝑄 Dc — количество документов в обучающей выборке принадлежащих классу c; D — общее количество документов в обучающей выборке; |V| — количество уникальных слов во всех документах обучающей выборки; Lc — суммарное количество слов в документах класса c в обучающей выборке; Wic — сколько раз i-ое слово встречалось в документах класса c в обучающей выборке; Q – множество слов классифицируемого документа (включая повторы). При обучении классификатора [2] может использоваться язык программирования Python, который обладает широким набором библиотек, позволяющих реализовывать сложные алгоритмы с минимальными трудозатратами. Реализация описанного подхода по анализу данных является одним из доступных инструментов по отслеживанию общественного мнения. Опираясь на полученные данные можно понять текущую ситуацию вокруг атомной отрасли в обществе, СМИ и социальных сетях, а также спрогнозировать будущие тенденции. Список литературы 1. 2. Гмурман В.Е. Теория вероятностей и математическая статистика//Издание девятое, стереотипное М: Высшая школа, 2003. С.52-53 Сегаран Т. Программируем коллективный разум. – Пер. с англ. – СПб: СимволПлюс, 2008. С.146-149