Возможно ли изучение психических состояний при помощи анализа коротких текстовых сообщений? Аннотация исследования Контент-анализ сообщений в Твиттер является сравнительно новым подходом в сборе данных, который благодаря успехам в области математической обработки текстов на естественном языке, привлекает к себе внимание исследователей. Однако для применения данного подхода в экономике, менеджменте и других областях знания необходимо проведение исследования валидности использования контент-анализа сообщений в качестве методики выявления психического состояния. Данные предоставляемые пользователями в Интернет являются одним из интереснейших источников информации. Анализируя данные о запросах в Google, Чой и Вариан смогли оценить заболеваемость гриппом и получить результаты сопоставимые с данными официальной статистики в США (Choi, H., Varian, H. 2009). Аналогичные результаты были получены Пауле и Дрезде, которые провели контент-анализ сообщений пользователей Твиттер с помощью тематической модели аспектов болезни (Ailment Topic Aspect Model). Корреляция с официальными данными центров по контролю болезней и профилактике США (Сenters fo Disease Control and Prevention) составила 0.966. О’Коннор и его коллеги из университета Карнеги Меллон изучая отношение к политикам и уровень доверия потребителей отметили высокий уровень корреляции (0.8) между результатами опросов общественного мнения и результатами анализа сообщений в Твиттер (O'Connor et al., 2010). Азур и Хаберман, используя данные в Твиттер, смогли предсказать кассовые доходы фильмов (Asur and Huberman 2010). Стоит отметить, что были сделаны также попытки не только изучения мнений, но и мониторинга настроений. Миславе совместно с коллегами опубликовал результаты анализа настроений – «Пульс нации - США» (http://www.ccs.neu.edu/home/amislove/twittermood/). Боллен и его соавторы, сумели повысить точность прогноза индекса Доу Джонса за счет контент-анализа сообщений в Твиттер и выявления эмоциональных состояний пользователей (Bollen et al., 2010). Однако, несмотря на впечатляющие результаты, полученные исследователями, анализирующими сообщения пользователей Интернет, нельзя с уверенностью судить о возможности валидной оценки психических состояний по тональности высказываний. Наше исследование направлено на восполнение данного пробела. В ходе проекта, мы планируем разработать методику контент-анализа сообщений в Твиттере для оценки психических состояний пользователей Интернет и провести изучение ее валидности. Мы предполагаем, что разработанная методика позволит различать психические состояния респондентов и данные, получаемые с ее помощью, будут коррелировать с результатами, полученными с помощью других психологических методик. Контент-анализ сообщений направлен на выявление объекта сообщения, его эмоциональной составляющей, полярности и интенсивности. Для решения задач по контент-анализу использованы методы и алгоритмы математической лингвистики и машинного обучения. Разработанная методика анализа психических состояний может быть использована для решения широкого круга задач: изучение динамики настроений и эмоций пользователей Интернет; исследование возможности предсказания российского фондового рынка; изучение психических состояний сотрудников компаний и т.д. В исследованиях Твиттер и других социальных медиа для изучения настроения и эмоциональных состояний применяются методы автоматической обработки текста, однако их психологическая валидность не доказана ни в одном исследовании. В связи с этим, исследование будет посвящено проблеме оценке валидности использования методов анализа тональностей сообщений на естественном языке (контент анализа) для выявления психологических состояний. Основные гипотезы: 1. Результаты, получаемые с помощью методики оценки психических состояний коррелируют с результатами, получаемые по другим методикам (конструктная валидность) 2. Разработанная методика позволяет различать психические состояния респондентов, вызванные условиями проведения эксперимента (совпадающая валидность) В ходе разработки методики контент-анализа с использованием данных загруженных из Живого Журнала использована классическая схема автоматического анализа текстов (обучение с учителем). Загружены тексты из Живого Журнала для которых авторы указали свое состояние (более 80000 сообщений). Созданная таким образом база данных разбита на два набора - обучающий и тестирующий (случайным образом, в соотношении 90%-10%). Обучающий набор использован для определения параметров алгоритмов машинного обучения (нейронные сети, метод опорных векторов и т.д.) при которых они наиболее качественно классифицируют сообщения обучающей выборки. Тестирующий набор использован для проверки работы алгоритмов с заданными параметрами на новых данных. По результатам тестирования будет определены параметры алгоритма наиболее качественно классифицирующие сообщения (определяющего эмоции автора текста по его содержанию). Отдельный алгоритм будет построен для каждой из 6 базовых эмоций. Сбор и анализ текстовых данных осуществлялся с помощью программ на языке Python. Вычисления и обработка данных проводились в свободно распространяемых пакетах RapidMiner, R.