Возможно ли изучение психических состояний при помощи анализа коротких текстовых сообщений?

реклама
Возможно ли изучение психических состояний при помощи анализа коротких
текстовых сообщений?
Аннотация исследования
Контент-анализ сообщений в Твиттер является сравнительно новым подходом в сборе
данных, который благодаря успехам в области математической обработки текстов на
естественном языке, привлекает к себе внимание исследователей. Однако для применения
данного подхода в экономике, менеджменте и других областях знания необходимо
проведение исследования валидности использования контент-анализа сообщений в
качестве методики выявления психического состояния.
Данные предоставляемые пользователями в Интернет являются одним из интереснейших
источников информации. Анализируя данные о запросах в Google, Чой и Вариан смогли
оценить заболеваемость гриппом и получить результаты сопоставимые с данными
официальной статистики в США (Choi, H., Varian, H. 2009). Аналогичные результаты
были получены Пауле и Дрезде, которые провели контент-анализ сообщений
пользователей Твиттер с помощью тематической модели аспектов болезни (Ailment Topic
Aspect Model). Корреляция с официальными данными центров по контролю болезней и
профилактике США (Сenters fo Disease Control and Prevention) составила 0.966. О’Коннор
и его коллеги из университета Карнеги Меллон изучая отношение к политикам и уровень
доверия потребителей отметили высокий уровень корреляции (0.8) между результатами
опросов общественного мнения и результатами анализа сообщений в Твиттер (O'Connor et
al., 2010). Азур и Хаберман, используя данные в Твиттер, смогли предсказать кассовые
доходы фильмов (Asur and Huberman 2010). Стоит отметить, что были сделаны также
попытки не только изучения мнений, но и мониторинга настроений. Миславе совместно с
коллегами опубликовал результаты анализа настроений – «Пульс нации - США»
(http://www.ccs.neu.edu/home/amislove/twittermood/). Боллен и его соавторы, сумели
повысить точность прогноза индекса Доу Джонса за счет контент-анализа сообщений в
Твиттер и выявления эмоциональных состояний пользователей (Bollen et al., 2010).
Однако,
несмотря
на
впечатляющие
результаты,
полученные
исследователями,
анализирующими сообщения пользователей Интернет, нельзя с уверенностью судить о
возможности валидной оценки психических состояний по тональности высказываний.
Наше исследование направлено на восполнение данного пробела. В ходе проекта, мы
планируем разработать методику контент-анализа сообщений в Твиттере для оценки
психических состояний пользователей Интернет и провести изучение ее валидности. Мы
предполагаем, что разработанная методика позволит различать психические состояния
респондентов и данные, получаемые с ее помощью, будут коррелировать с результатами,
полученными с помощью других психологических методик.
Контент-анализ
сообщений
направлен
на
выявление
объекта
сообщения,
его
эмоциональной составляющей, полярности и интенсивности. Для решения задач по
контент-анализу использованы методы и алгоритмы математической лингвистики и
машинного обучения.
Разработанная методика анализа психических состояний может быть использована для
решения широкого круга задач: изучение динамики настроений и эмоций пользователей
Интернет; исследование возможности предсказания российского фондового рынка;
изучение психических состояний сотрудников компаний и т.д.
В исследованиях Твиттер и других социальных медиа для изучения настроения и
эмоциональных состояний применяются методы автоматической обработки текста,
однако их психологическая валидность не доказана ни в одном исследовании. В связи с
этим, исследование будет посвящено проблеме оценке валидности использования методов
анализа тональностей сообщений на естественном языке (контент анализа) для выявления
психологических состояний.
Основные гипотезы:
1. Результаты, получаемые с помощью методики оценки психических состояний
коррелируют с результатами, получаемые по другим методикам (конструктная
валидность)
2. Разработанная методика позволяет различать психические состояния респондентов,
вызванные условиями проведения эксперимента (совпадающая валидность)
В ходе разработки методики контент-анализа с использованием данных загруженных из
Живого Журнала
использована классическая схема автоматического анализа текстов
(обучение с учителем). Загружены тексты из Живого Журнала для которых авторы
указали свое состояние (более 80000 сообщений). Созданная таким образом база данных
разбита на два набора - обучающий и тестирующий (случайным образом, в соотношении
90%-10%).
Обучающий набор использован для определения параметров алгоритмов
машинного обучения (нейронные сети, метод опорных векторов и т.д.) при которых они
наиболее качественно классифицируют сообщения обучающей выборки. Тестирующий
набор использован для проверки работы алгоритмов с заданными параметрами на новых
данных. По результатам тестирования будет определены параметры алгоритма наиболее
качественно классифицирующие сообщения (определяющего эмоции автора текста по его
содержанию). Отдельный алгоритм будет построен для каждой из 6 базовых эмоций.
Сбор и анализ текстовых данных осуществлялся с помощью программ на языке Python.
Вычисления и обработка данных проводились в свободно распространяемых пакетах
RapidMiner, R.
Скачать