Цель работы Провести кластерный и факторный анализ для исходных данных и проанализировать получившиеся данные. Общие теоретические положения Факторный анализ Факторный анализ позволяет решить две важные проблемы исследователя: описать объект измерения всесторонне и в то же время компактно. С помощью факторного анализа возможно выявления скрытых переменных факторов, отвечающих за наличие статистических связей корреляций между наблюдаемыми переменными. Таким образом, можно выделить 2 цели факторного анализа: 1) Определение взаимосвязей между переменными, их классификация. 2) Сокращение числа переменных. Кластерный анализ Кластерный анализ – задача разбиения заданной выборки объектов на подмножества, называемые кластерами, так, чтобы каждый кластер состоял из схожих объектов, а объекты разных кластеров существенно отличались. Кластерный анализ – это многомерная статистическая процедура, выполняющая сбор данных, содержащих информацию о выборке объектов, и затем упорядочивающая объекты в сравнительно однородные группы. Кластер – группа элементов, характеризуемых общим свойством, главная цель кластерного анализа – нахождение групп схожих объектов в выборке. Исходные данные Исходные данные приведены в таблице 1. Объекты A H Q2 L N C G 1 8 11 5 10 9 8 8 2 9 10 4 5 9 7 8 3 9 9 4 4 7 9 9 4 7 5 5 4 5 7 4 5 12 4 7 2 6 8 9 6 11 12 6 4 6 7 5 7 6 7 3 5 5 8 7 8 9 9 6 5 8 8 9 9 9 11 3 6 6 11 4 10 7 10 2 4 6 3 8 Где в таблице «Объекты» находятся Фамилия Имя Отчество студента: 1.Рубан Валентина Анатольевна; 2.Шайхутдинова Лиана Камильевна; 3.Рябцунова Александра Александровна; 4.Рябчун Алина Анатольевна; 5. Корелина Екатерина Вадимовна; 6.Козырева Юлия Владимировна; 7.Гордеева Татьяна Алексеевна; 8.Зуйкова Юлия Сергеевна; 9.Выскочков Владимир Сергеевич; 10. Левкович Людмила Викторовна. Q3 7 10 3 5 10 6 8 8 8 6 E 7 9 6 2 4 9 8 6 9 9 По строкам расположены следующие показатели(шкалы): A Замкнутость – открытость в общении; Н Сдержанность – активность в контактах с людьми; Q2 Конформность – неконформность; L Доверчивость – подозрительность по отношению к другим людям в общении; N Простота – изощренность поведения в обществе; С Неуравновешенность – контроль эмоциональных реакций; G Низкая – высокая дисциплинированность; Q3 Низкий – высокий самоконтроль; Е Подчиненность – доминантность при поведении в группе. Проведение исследований Проведем кластерный и факторный анализ исходных данных в пакете программ STATGRAPHICS. Кластерный анализ Проведем кластерный анализ исходных данных. Analysis Summary ---------------Data variables: A C E G H L N Q2 Q3 Number of complete cases: 10 Clustering Method: Ward's Distance Metric: Squared Euclidean Cluster Members Percent --------------------------1 10 100,00 --------------------------Centroids Cluster A C E G H L N Q2 ----------------------------------------------------------------------------------------------------------------1 8,7 7,6 6,9 7,1 8,8 4,9 6,7 4,5 ----------------------------------------------------------------------------------------------------------------Cluster Q3 ---------------------1 7,1 ---------------------- Рис.1 Первичная сводка кластерного анализа Т.к. у нас небольшое количество наблюдений, то чтобы кластерный алгоритм хорошо работал, остановимся на методе Варда. Далее посмотрим изображение кластеров на дендограмме, которая отражает иерархическую структуру группирования субъектов. Dendrogram Ward's Method,Squared Euclidean 100 Distance 80 60 40 20 5 10 7 4 9 6 3 8 2 1 0 Рис.2 Дендограмма На дендограмме видны 3 группировки: первая включает объекты 1,2,8 и 3; вторая- 6 и 9; третья включает 4,7 и 10; четвертая включает 5. Значит, для более подробного рассмотрения группировок следует задать их количество равное 4. 1 группировка: Рубан Валентина Анатольевна, Шайхутдинова Лиана Камильевна, Зуйкова Юлия Сергеевна и Рябцунова Александра Александровна. 2 группировка: Козырева Юлия Владимировна и Выскочков Владимир Сергеевич. 3 группировка: Рябчун Алина Анатольевна, Гордеева Татьяна Алексеевна и Левкович Людмила Викторовна. 4 группировка: Корелина Екатерина Вадимовна. Analysis Summary ---------------Data variables: A C E G H L N Q2 Q3 Number of complete cases: 10 Clustering Method: Ward's Distance Metric: Squared Euclidean Cluster Members Percent --------------------------1 4 40,00 2 3 30,00 3 1 10,00 4 2 20,00 --------------------------Centroids Cluster A C E G H L N Q2 ----------------------------------------------------------------------------------------------------------------1 8,75 8,0 7,0 8,5 9,75 6,0 8,25 4,75 2 6,66667 6,0 6,33333 6,33333 7,33333 4,33333 5,33333 3,33333 3 12,0 8,0 4,0 9,0 4,0 2,0 6,0 7,0 4 10,0 9,0 9,0 4,5 11,5 5,0 6,0 4,5 ----------------------------------------------------------------------------------------------------------------Cluster Q3 ---------------------1 7,0 2 6,33333 3 10,0 4 7,0 ---------------------Рис. 3 Сводка кластерного анализа разбитого на 4 кластера По координатам центроидов можно судить о том, какие переменные играют наиболее важную роль в каждом кластере. Во 2 и 1кластере самые низкие значения всех показателей здесь отражает имеющуюся у любого человека меру общения, активность в социальных контактах связанная с чувствительностью вегетативной нервной системы. Неконформность в виде негативизма, так и в виде коллективистического самоопределения. Мнение может совпадать с мнением коллектива,но, если это мнение идет вразрез с целями и ценностями коллектива, то человек может, защищая их, выступать против такого мнения коллектива. Доверчивы. Способность управлять своими эмоциональными реакциями. В 3 и 4 кластере почти все показатели выше, чем у других кластеров, объекты этих кластеров предпочтительны на местах, требующих постоянного общения с людьми, управляют своими эмоциональными реакциями и сдерживать свои эмоции и настроения. Конформность т.е. способны изменять свое поведение под влиянием других людей, чтобы оно соответствовало мнениям окружающих, стремление приспособить его к их требованиям. По роду своей работы могут надеяться только на себя в сложные периоды жизни. Membership Table ---------------Clustering Method: Ward's Distance Metric: Squared Euclidean Row Cluster --------------1 1 2 1 3 1 4 2 5 3 6 4 7 2 8 1 9 4 10 2 --------------- Рис 4.Таблица принадлежности объектов Dendrogram Ward's Method,Squared Euclidean Distance 40 30 20 10 9 6 5 10 7 4 3 8 2 1 0 Рис 5 Дендограмма На дендограмме видны 4 дерева – 4 группировки, с именами вошедших в них объектов. Cluster Scatterplot Ward's Method,Squared Euclidean 11 Cluster 1 2 3 4 Centroids C 9 7 5 3 6 7 8 9 10 11 12 A Рис. 6 Двухмерная диаграмма рассеивания На диаграмме объекты группируются на плоскости двух показателей: Замкнутость – открытость в общении А и Неуравновешенность – контроль эмоциональных реакций С. Для 1 и 3 кластера наблюдается среднее значение А и С. Для 2 кластера самое низкое значение А и С. Для 4 кластера наблюдаются самые высокое значение С и А. Факторный анализ Проведем факторный анализ исходных данных. Analysis Summary Data variables: A C E G H L N Q2 Q3 Data input: observations Number of complete cases: 10 Missing value treatment: listwise Standardized: yes Type of factoring: principal components Number of factors extracted: 3 Factor Analysis ----------------------------------------------Factor Percent of Cumulative Number Eigenvalue Variance Percentage 1 2,69784 29,976 29,976 2 2,15704 23,967 53,943 3 1,35434 15,048 68,991 4 1,12606 12,512 81,503 5 0,89561 9,951 91,454 6 0,535342 5,948 97,403 7 0,152046 1,689 99,092 8 0,0707352 0,786 99,878 9 0,0109923 0,122 100,000 ----------------------------------------------Рис.7 Первичная сводка факторного анализа Analysis Summary Data variables: A C E G H L N Q2 Q3 Data input: observations Number of complete cases: 10 Missing value treatment: listwise Standardized: yes Type of factoring: principal components Number of factors extracted: 4 Factor Analysis ----------------------------------------------Factor Percent of Cumulative Number Eigenvalue Variance Percentage 1 2,69784 29,976 29,976 2 2,15704 23,967 53,943 3 1,35434 15,048 68,991 4 1,12606 12,512 81,503 5 0,89561 9,951 91,454 6 0,535342 5,948 97,403 7 0,152046 1,689 99,092 8 0,0707352 0,786 99,878 9 0,0109923 0,122 100,000 ----------------------------------------------Рис.8 Вторичная сводка факторного анализа Factor Loading Matrix After Varimax Rotation A C E G H L N Q2 Q3 Factor Factor Factor Factor 1 2 3 4 ------------ ------------ ------------ ------------0,080398 0,913533 -0,0412756 0,164525 -0,0799916 0,195376 0,0812975 0,835398 0,972961 0,0669083 0,0569507 -0,118087 -0,201882 0,26316 0,615157 -0,586489 0,859384 -0,0459787 0,292643 0,182891 0,333753 -0,372981 0,684262 0,419116 0,206776 0,224454 0,911771 -0,00386231 -0,559452 0,653777 0,151513 0,238639 0,128355 0,612102 0,133222 -0,0888977 Рис.9 Значения факторных нагрузок после процедуры вращения В факторе 1 высокое значение имеет показатель Е,Н. В факторе 2: А,Q2,Q3. В факторе 3: N,L,G. В факторе 4: C. Назовем факторы: Фактор 1: Подчиненность – доминантность при поведении в группе. Сдержанность – активность в контактах с людьми. Фактор 2: Замкнутость – открытость в общении. Конформность – неконформность. Низкий – высокий самоконтроль. Фактор 3: Простота – изощренность поведения. Доверчивость- подозрительность по отношению к другим людям в общении. Низкая – высокая дисциплинированность. Фактор 4: Неуравновешенность – контроль эмоциональных реакций. Percent of variance Scree Plot 100 80 60 40 20 0 Рис. 10 Процент дисперсии для каждого фактора 0 2 4 6 8 10 1 фактор имеет высокое, самое большое значение процента дисперсии, примерно 2,7%.На 2 фактор приходится примерно 2,2% дисперсии. Factor На 3 фактор где-то 1,3%. 4 фактор примерно 1,1% дисперсии. Остальные факторы малозаметны по этому показателю. 1 фактор имеет высокое, самое большое значение процента дисперсии, примерно 30%. На 2 фактор приходится примерно 22% дисперсии. На 3 фактор 14% дисперсии. На 4 фактор 7% дисперсии. Остальные факторы малозаметны по этому фактору. Графики зависимости (корреляции) между факторами. Scatterplot Factor 2 5,5 3,5 1,5 -0,5 -2,5 -4,4 -2,4 -0,4 1,6 3,6 Factor 1 Рис.11 Проекция исследуемых объектов на плоскость, образованную 1 и 2 фактором. 1 и 2 факторы слабо коррелируют. Scatterplot Factor 3 5,1 3,1 1,1 -0,9 -2,9 -4,4 -2,4 -0,4 1,6 3,6 Factor 1 Рис.12 Проекция исследуемых объектов на плоскость, образованную 1 и 3 фактором. 1 и 2 факторы средне коррелируют. Корреляция положительная. Scatterplot Factor 3 5,1 3,1 1,1 -0,9 -2,9 -2,5 -0,5 1,5 3,5 5,5 Factor 2 Рис.13 Проекция исследуемых объектов на плоскость, образованную 3 и 2 фактором. 3и 2 факторы не коррелируют. Plot of Factor Loadings 1,1 Factor 2 0,8 A Q2 Q3 0,5 G 0,2 C N H E -0,1 L -0,4 -0,6 -0,2 0,2 0,6 1 Factor 1 Рис.14 Двухмерное отображение факторных нагрузок График отображает факторные нагрузки на плоскости, образованной 1 и 2 факторами, увидеть, какие показатели имеют наибольшее значение для того или иного фактора. Чем факторные нагрузки к единице, тем больший вес они имеют. Выводы Был проведен кластерный анализ 10 объектов по 9 показателям. Было выявлено 4 фактора, отличающихся по коммуникативным свойствам личности и волевым сферам личности. Был выполнен факторный анализ 10 объектов по 9 показателям, в результате которого были объединены в 4 фактора, по которым характеризуется объекты. Государственное образовательное учреждение высшего профессионального образования «Сибирский государственный медицинский университет Федерального агентства по здравоохранению и социальному развитию». (ГОУВПО СибГМУ Росдрава ) Отчет по экспериментальной психологии На тему: «Факторный и кластерный анализ». Выполнила: Студентка 3 курса группы 6901 ФКПП Зуйкова Юлия Сергеевна Г. Томск 2011