И.А. КУЗНЕЦОВ Научный руководитель – М.В. КОПТЕЛОВ, аспирант

реклама
И.А. КУЗНЕЦОВ
Научный руководитель – М.В. КОПТЕЛОВ, аспирант
Национальный исследовательский ядерный университет «МИФИ»
ПРОГРАММНЫЕ СРЕДСТВА ДЛЯ АНАЛИЗА ДАННЫХ
ОБЩЕСТВЕННОГО МНЕНИЯ О РАЗВИТИИ АТОМНОГО
ПРОМЫШЛЕННОГО КОМПЛЕКСА
Развитие информационных технологий, когда любой человек может
моментально получить или поделиться информацией с кем либо,
беспрепятственно высказывать мысли и формировать общественные движения,
сохраняя при этом свою анонимность, может иметь определенные последствия. В
каждой конкретной ситуации эти движения могут быть как положительными, так
и отрицательными. Для контроля текущей ситуации, а также будущих тенденций,
необходимо проводить мониторинг общественного мнения.
Актуальность данной темы обоснована необходимостью понимания
отношения к атомной отрасли со стороны населения. Постоянный
мониторинг и контроль средств массовой информации и социальных
сетей является весьма эффективным способом для своевременного
реагирования в случае возникновения конфликтных ситуаций: антиатомные лозунги, призывы к бойкотированию строительства АЭС и так
далее.
Среди подходов, наиболее полно соответствующих данной задаче,
можно выделить наивный байесовский классификатор, который основан
на теореме Байеса [1]:
𝑃(𝐵|𝐴)𝑃(𝐴)
𝑃(𝐴|𝐵) =
𝑃(𝐵)
где:

P(A) – априорная вероятность гипотезы A

P(A|B) – вероятность гипотезы A при наступлении события B

P(B|A) – вероятность наступления события B при истинности
гипотезы A

P(B) – полная вероятность наступления события B
Наивный байесовский классификатор представляет собой простой
вероятностный классификатор, основанный на применении Теоремы
Байеса со строгими (наивными) предположениями о независимости.
Принцип работы данного алгоритма заключается в том, что на основе
предварительного обученных классов, с указанными классами для этих
документов, будет выполняться анализ новых документов.
Для реализации классификатора необходима обучающая выборка, где
будут проставлены соответствия между классами и текстовыми
документами. На этапе классификации для каждого класса необходимо
рассчитать
значение
следующего
выражения
и
определить
принадлежность к классу с максимальным значением:
log
где:






𝐷𝑐
𝑊𝑖𝑐 + 1
+ ∑ log
|𝑉| + 𝐿𝑐
𝐷
𝑖 ∈𝑄
Dc — количество документов в обучающей выборке
принадлежащих классу c;
D — общее количество документов в обучающей выборке;
|V| — количество уникальных слов во всех документах
обучающей выборки;
Lc — суммарное количество слов в документах класса c в
обучающей выборке;
Wic — сколько раз i-ое слово встречалось в документах класса c в
обучающей выборке;
Q – множество слов классифицируемого документа (включая
повторы).
При обучении классификатора [2] может использоваться язык
программирования Python, который обладает широким набором
библиотек, позволяющих реализовывать сложные алгоритмы с
минимальными трудозатратами.
Реализация описанного подхода по анализу данных является одним из
доступных инструментов по отслеживанию общественного мнения.
Опираясь на полученные данные можно понять текущую ситуацию
вокруг атомной отрасли в обществе, СМИ и социальных сетях, а также
спрогнозировать будущие тенденции.
Список литературы
1.
2.
Гмурман В.Е. Теория вероятностей и математическая статистика//Издание
девятое, стереотипное М: Высшая школа, 2003. С.52-53
Сегаран Т. Программируем коллективный разум. – Пер. с англ. – СПб: СимволПлюс, 2008. С.146-149
Скачать