Чувашский государственный университет им. И.Н. Ульянова Применения методов интеллектуального анализа данных при исследовании социальных явлений. Выполнила студентка группы ФТ-21-04 Карлович Елена Научный руководитель: профессор Абруков Виктор Сергеевич Чебоксары, 2008 г. Цель работы: Разработка методологии и технологий применения интеллектуального анализа данных - Data Mining (DM) при анализе данных о разведенных семьях и решение конкретной задачи – построения количественных вычислительных моделей семейных отношений, приводящих к разводу. Методы исследования: При выполнении работы использовались данные опроса разведенных супругов. Всего было использовано 78 интервью. Для анализа данных использовались DM, включенные в аналитическую платформу Deductor (разработчик – ООО «Аналитические технологии» - BaseGroup Lab, г. Рязань, www.basegroup.ru). DM (Data Mining) – «добыча » данных. Это метод обнаружения в «сырых» данных ранее неизвестных, нетривиальных, практически полезных и доступных для интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Методы исследования: Первый этап – трансформация и очистка данных: - корреляционный анализ – устранение незначащих факторов и факторов корреляция которых с целевой функцией больше 0,8 (их можно перенести в целевую функцию); - дубликаты и противоречия – устранение их; - фильтрация строк таблицы по условию; - замена данных по таблице; Второй этап - Data Mining: - дерево решений; - нейросеть – многослойная нейронная сеть. Основное внимание было уделено выявлению закономерностей, существующих в данных и построению количественных моделей разводящихся (разведенных) семей. Продолжительность брака (ПД) была выбрана в качестве целевой функции. Методы исследования: Список вопросов: • • • • • • • • • • • • • • Лет ей во время свадьбы Лет ему во время свадьбы Была ли добрачная беременность от будущего мужа Количество детей (на момент расторжения брака) №брака (у него, у нее) Было ли насилие в семье Алкоголизм (у него, у нее), был ли? Ее тип родительской семьи (полная, полная до 15 лет, неполная) Наличие братьев, сестер, сколько Отношения в родительской семье (хорошие, не очень хорошие, плохие) Его тип родительской семьи (полная, полная до 15 лет, неполная) Наличие братьев, сестер, сколько Отношения в родительской семье (хорошие, не очень хорошие, плохие) ПРОДОЛЖИТЕЛЬНОСТЬ БРАКА Методы исследования: Деревья решений (decision trees) являются одним из наиболее популярных подходов к решению задач добычи данных. Они создают иерархическую структуру классифицирующих правил типа «ЕСЛИ… ТО…» (if-then), имеющую вид дерева. Чтобы принять решение, к какому классу следует отнести некоторый объект или ситуацию, требуется ответить на вопросы, стоящие в узлах этого дерева, начиная с его корня. Нейронные сети (НС) представляют собой вычислительные структуры, моделирующие простые биологические процессы, аналогичные процессам, происходящим в человеческом мозге. В основе построения сети лежит элементарный преобразователь, называемый искусственным нейроном или просто нейроном. Между нейронами есть связи, называемые весами. Методы исследования: Результаты: Дерево решений: Таблица сопряженности: Доля верно классифицированных случаев 84,6% Результаты: Правила: Значимость атрибутов: Поддержка – общее количество примеров, классифицированных данным узлов дерева. Достоверность – количество правильно классифицированных данным узлом. Результаты: Нейросеть: Результаты: Продолжительность брака(добрачная беременность): • первый для обоих: ПД больше, если есть ДБ; • первый для нее второй для него: ПД больше, если есть ДБ; • второй для нее первый для него: ПБ больше, если нет ДБ; • второй для обоих: ПБ больше, если нет ДБ. Продолжительность брака(насилие): ПБ больше, если нет насилия (если он из полной семьи с плохими отношениями). Продолжительность брака(алкоголь): ПБ больше, если есть алкогольная зависимость (для выходцев из полных семей с плохими отношениями). Продолжительность брака(количество детей): Чем больше детей, тем ПБ больше. Результаты: Продолжительность брака(тип семьи): ПБ больше, если он и она из полных семей. Продолжительность брака(отношения в родительской семье): ПБ больше, если она из семьи с отношениями ближе к хорошим, а он из семьи с отношениями ближе к плохим. Продолжительность брака(наличие братьев, сестер): ПБ больше, если у него и у нее есть братья, сестры. Выводы: 1.Разработана методология и технологии применения DM при анализе социальных явлений на примере анализа семейных отношений в разведенных семьях. Разработана структура базы данных, сформулирован перечень факторов, влияющих на продолжительность брака. 2.Создана система прогнозирования продолжительности брака для различных случаев (до брака, в процессе брака). 3.Построены многофакторные «вычислительные» модели брака, способные аппроксимировать влияние различных факторов на продолжительность брака и обладающие прогностическими возможностями. Они также обладают возможностями выработки мер способствующих продлению брака. Заключение: Анализ полученных результатов показал, что DM позволяют принципиально расширить возможности исследования социальных явлений, построить новые, в том числе, вычислительные модели социальных явлений. DM позволяют прогнозировать семейные отношения и вырабатывать меры, направленные на увеличение продолжительности брака. Полученные результаты показывают, что DM могут рассматриваться как перспективные методы при решении задач анализа и моделирования для других социальных явлений, в частности, при анализе таких проблем, как: поиск работы и подбор кадров (предупреждение быстрых «разводов» предприятия и работника), прием абитуриентов в ВУЗ (прогнозирование будущей успеваемости абитуриентов, предотвращение кризисов в обучении). Заключение: Проект находится в стадии разработки и Ваша помощь очень важна. Вы можете заполнить анкеты, касающиеся семейных отношений, и получить прогноз на будущие семейные отношения или анализ существующих семейных отношений по адресу: http://www.chuvsu.ru/2008/proekt.html Спасибо за внимание!