Представление направлений деятельности организации в структуре предметной области: метод "кластер-лифт" Б.Г. Миркин, ОПМИ ВШЭ Москва и ДИИС Биркбек Лондонский университет Лондон Совместная работа с T. Fenner (ДИИС Биркбек), S. Nascimento и L.M. Pereira (Новый университет, Лиссабон, Португалия), Поддержано грантом PTDC/EIA/69988/2006 Португальского фонда науки и техники (2007-2010) Поддержано грантом 09-01-0071 “Анализ связи между спектральным и аппроксимационным подходами к кластеранализу» clustering” Научного фонда ВШЭ (2009-2010)1 Cодержание 1. Постановка проблемы 2. Сущность метода «кластер-лифт» 3. Иллюстрация результатов 4. Заключение 5. Приложение: Описание метода 5.1. Сбор данных об индивидуальных работах 5.2. Кластеры сходства таксономических единиц 5.3. Подъём кластеров в ACM-CSS Taxonomy 2 Визуализация для оперативного контроля энергосети (Манхаттэн) 3 Возможна ли подобная визуализация для целей стратегического анализа и управления? • Карта местности? • Энергетическая подстанция? • Ее представление? 4 Визуализация для стратегического анализа и управления: • Карта местности? –Таксономия предметной области • Энергетическая подстанция? –Кластер таксономических единиц • Способ представления? –Верхние уровни таксономической иерархии 5 Визуализация деятельности исследовательской организации • Организация? – A Computer Science Department • Карта местности? – ACM Classification of Computer Subjects • Энергетическая подстанция? – Кластер таксономических единиц разрабатываемых в департаменте • Представление? – Верхние уровни таксономической иерархии 6 ACM-CCS Taxonomy – Верхний уровень, 11 категорий • • • • • • A. General Literature • B. Hardware • C. Comp. Sys. Organization• D. Software • E. Data • F. Theory of Computation A B G. Maths of Computing H. Information Systems I. Computing Methodologies J. Computer Applications K. Computing Milieux E C F D CS G H I J K 7 ACM-CCS Taxonomy - Уровень 2, 9 категорий • I. Computing Methodologies – – – – – I.0 GENERAL I.1 SYMBOLIC AND ALGEBRAIC MANIPULATION I.2 ARTIFICIAL INTELLIGENCE I.3 COMPUTER GRAPHICS I.4 IMAGE PROCESSING AND COMPUTER VISION – I.5 PATTERN RECOGNITION – I.6 SIMULATION AND MODELING (G.3) – I.7 DOCUMENT AND TEXT PROCESSING (H.4, H.5) – I.m MISCELLANEOUS 8 ACM-CCS Taxonomy - Уровень 3, 7 категорий I.5 PATTERN RECOGNITION o I.5.0 General o I.5.1 Models o I.5.2 Design Methodology o I.5.3 Clustering o I.5.4 Applications o I.5.5 Implementation (C.3) - горизонтальная ссылка o I.5.m Miscellaneous 9 ПРОБЛЕМА ПРЕДСТАВИТЬ: • Исследовательскую деятельность департамента или центра Информатики ВЕРХНИМИ УРОВНЯМИ • ACM Классификации Информатики (ACM-CCS) 10 ЗАЧЕМ? Объективный целостный портрет организации: • • • • • Позиционирование организации в ACMCCS таксономии Анализ структуры тематики организации Обозрение проблемных узлов, не вписывающихся в структуру таксономии Обзор регионального развития (с количественными характеристиками эффективности и недо- и/или переоснащенности) Планирование реорганизации и развития 11 Иллюстрация: Центр СЕНТРИА (Новый университет Лиссабона) в терминах среднего уровня ACM-CCS Таксономии: Разрабатывается 26 ACM-CCS тем из общего числа 81 12 Традиционный подход - пометить темы в таксономии: темы есть, системы нет E1 E2 E£ E4 E5 A G1 G2 G3 G4 E G B K1 K2 K3 K4 K5 K6 K7 K8 J K I CS I1 I2 I3 I4 C D F I5 I6 I7 H 13 Добиться системности I: Объединить темы ACM-CCS в кластеры по общности разрабатывающих их групп Для этого: – Собрать данные о тематике каждого индивидуального проекта – Оценить сходство между темами по сходству разработчиков – Сформировать тематические (нечеткие) кластеры 14 Добиться системности II: Тематические кластеры представить в ACM-CCS более общими категориями в зависимости от нестыковок (лифт) Головная тема Пробел Выброс Тема из кластера Минимизировать: HГолТем + GПробел + OВыброс 15 C. Computer Systems Organization D. Software and H. Information Systems F. Theory of Computation D. Software H. Information Systems I. Computing Methodologies E1 E2 E£ E4 E5 A G1 G2 G3 G4 E B G K1 K2 K3 K4 K5 K6 K7 K8 J K Head subject I Subject’s offshoot CS Gap C I1 I2 I3 I4 D F I5 I6 I7 H 16 Центр СЕНТРИА (Новый университет Лиссабона) – Структура: Шесть перекрывающихся кластеров - Позиционирование: пять Головных тем (с соответствующими выбросами и пробелами) – Проблемный узел: Кластер с двумя Головными темами – возникновение Software Engineering, не отраженное в ACM-CCS Taxonomy 17 Заключение: метод кластер-лифт • Систематическое представление структуры деятельности головными темами, пробелами и выбросами на соответствующей таксономии • Инструмент анализа и планирования – Профиль организации – Интегральное представление региональной структуры деятельности • Необходима организация сбора данных – Через опрос – Через анализ документов – проектов, статей, и пр., включая Интернет (языковый барьер) – предстоит • Работа по организации приложений 18 Appendix: Technical aspects • • • • E-survey tool over ACM-CCS topics Similarity between topics Additive, crisp or fuzzy, clustering Lifting of thematic clusters in ACM-CCS Taxonomy 19 Generic e-survey output: Fuzzy membership 20 Similarity between ACM-CCS topics • Contribution by an individual member: – (f(i)) – membership vector over all subjects i in 3d layer of ACM-CCS from the survey – A(i,j)=f(i)*f(j), the product, for all ACM-CCS 3d layer subjects i and j • Matrices A(i,j) summed up over all individuals weighted according to their span ranges 21 1 Similarity between ACMC subjects: example ACMC subjects: i, ii, iii, iv, v, vi Chosen subject memberships for four members i .6 .2 ii .4 .2 .2 iii .2 .4 .2 iv .3 .4 .2 v .5 .2 vi 2/5 3/5 3/5 5/5 – member weights weight = number_of_subjects / max_number_of_subjects 22 Similarity between ACMC subjects: example 2 i .36 .24 0 0 0 ii .24 .16 0 0 0 iii 0.4 0 0 0 0 0 iv 0 0 0 0 0 v 0 0 0 0 0 1st member’s i ii iii iv v 0.184 0.136 0.040 0.040 0.040 0.136 0.128 0.088 0.088 0.040 +0.6 0.040 0.088 0.160 0.172 0.100 0 0 0 0 0 0 0 0 0 0 0 0 0 0 .04 .06 .10 0 .06 .09 .15 0 .10 .15 .25 2d member’s +0.6 .... = 0.040 0.040 0.088 0.040 0.172 0.100 0.190 0.130 0.130 0.190 not_diagonal_mean =0.0874 23 Clustering with no user-defined parameters • Additive clustering with ADDI-S (Mirkin 1976, 1987, 2005) • Additive spectral fuzzy clustering with ADDI-SF (Mirkin and Nascimento 2009) 24 Additive fuzzy clustering Observed: – Similarity B=(bij), i,jI To be found: – Cluster membership u=(ui) – Intensity > 0 Fuzzy cluster similarity A= uu 2 T 25 Additive fuzzy clustering • Model: Similarity B summarizes: – Background cluster g (all entities) – K fuzzy clusters (K unknown) – residuals E B = Ag + A1 +A2+… +AK + E E to be least-squares minimized over unknown clusters 26 Method: One cluster at a time • Minu, ξ t,t∈T (wtt− ξutut)2 • Equivalent to Rayleigh quotient Max uWuT/(uTu) • Spectral approach: find max eigenvalue and its vector, adjust the latter to fuzzy membership 27 Natural stop-criteria 1. Negative eigenvalue ξ 2. Contributions T(B) = ξ12 + ξ22 +…+ ξK2+ L2 (●) having reached pre-specified proportions 28 Generalising thematic clusters over ACM-CCS: good and bad cases • Navy cluster is tight, all topics are in one ACMCCS category (good to generalise) • Red cluster is dispersed over many ACM-CCS categories (bad: difficult to generalise) CS 29 Lifting with criterion of parsimony: Minimize the total penalty • – Head subject – Gap – Offshoot • Total penalty: # Penalty 1 1 2 3 1 0.5 5 = 1*H + 1G + 2O 30 Cluster lifting algorithm : Bottom-up recursion PARENT Gap Head Offsh Not HS HS Gn Gh Hn Hh On Oh CHILD 1 Gap Head Offsh CHILD 2 Gap Head Offsh CHILD 3 Gap Head Offsh Not HS HS Oh1 Not HS Gn2 HS Gh2 Not HS HS Gn1 Gh1 Hn1 Hh1 On1 Hn2 Hh2 On2 Oh2 Gn3 Gh3 Hn3 Hh3 On3 Oh3 31