1 I-3-MFTI-2 Паспорт совместного российско-американского проекта 1. Название: Создание международной лаборатории для проведения исследований, реализации проектов и подготовки специалистов мирового уровня в области Machine Learning, интеллектуального анализа данных и интерактивного геометрического моделирования. 2. Аннотация Ядро команды проекта: Зорин Денис Николаевич, 1968 г.р., Нью-Йоркский университет институт Куранта, full professor, гражданство США, Россия; Воронцов Константин Вячеславович, 1971 г.р., ВЦ РАН, МФТИ, МГУ, доктор физ.-мат. наук, гражданство Россия; Рудаков Константин Владимирович, 1954 г.р., ВЦ РАН, МФТИ, МГУ, доктор физ.-мат. наук, член-корр. РАН, гражданство Россия; Мучник Илья Борисович, 1936 г.р., профессор, Ратгерский Университет, факультет Computer Science, Нью Джерси, США, научный руководитель Школы анализа данных Яндекс, гражданство США. Д.Н. Зорин и К.В. Воронцов – выпускники ФУПМ МФТИ, ученики К.В. Рудакова. Зорин уехал из СССР в первых числах августа 1991 года. С 2001 по 2009 год он был директором аспирантуры факультета информатики Нью-Йоркского Университета и уже в это время он проявлял инициативу по организации регулярного сотрудничества с МФТИ. В СССР одним из ведущих центров в области, которая сейчас называется «интеллектуальный анализ данных» был Институт проблем управления АН СССР (М.А. Айзерман, Л.И. Розоноэр и др.). Один из наиболее ярких представителей этой школы И.Б. Мучник переехал в США в 1991 году. В 2007 году И.Б. Мучник стал одним из организаторов школы анализа данных Яндекс, выпускники которой крайне востребованы мировыми софтверными компаниями. К.В. Рудаков и К.В. Воронцов организовали кафедру «Интеллектуальные системы» ФУПМ МФТИ и работают одновременно на кафедре «Вычислительные методы прогнозирования» ВМиК МГУ (зав. кафедрой – учитель К.В. Рудакова академик Ю.И. Журавлев). Основная идея проекта – создание в России центра продуцирования инноваций в кооперации с признанными в США исходно отечественными специалистами. 3. Описание предполагаемых результатов реализации проекта: 1. Подготовка специалистов мирового уровня, получающих уже в ходе обучения опыт работы в России и США одновременно. 2. Продвижение на американский рынок отечественных разработок, имеющих конкурентные преимущества по качеству, но не имеющих необходимых «брендов». 4. Наиболее близкие по тематике проекты в мире, реализующиеся в настоящее время (не более 5 аналогов) Прямые аналоги заявителям не известны. 5. Новизна, описание конкурентных преимуществ результатов Основой успешного выполнения проекта является многолетний опыт участников проекта и их глубокие знания в области анализа данных. Методологическую основу проекта составят следующие подходы и наработки авторов: 1. Общий подход к анализу данных, основанный на ядрах, как универсальном способе описания сходства между элементами. Выбираемая мера сходства порождает полный взвешенный граф на элементах изучаемого множества, на который легко переносятся основные задачи и методы теории обучения машин. 2. Эффективные методы коллаборативной фильтрации, позволяющие аппроксимировать 2 двудольные графы более компактными структурами, и с их помощью восстанавливать или прогнозировать неизвестные связи на двудольных графах. 3. Комбинаторная теория переобучения, применение которой в случае графов позволит отвечать на вопросы, являются ли найденные на графе структуры закономерностями, или на графе данного размера такие структуры могли образоваться чисто случайно. 4. Технологии и системы разработанные и внедренные компанией ЗАО «Forecsys» в ЗАО «ММВБ», КБ «Петрокоммерц», ОАО «МТС», «Комстар-ОТС», ЗАО «НСС», «Связной», «Балтика», «Седьмой Континент», Х5 Retail group, ОАО «РЖД», ОАО «Интер РАО ЕЭС», АП «Домодедово» и др. 6. Кто является потенциальным потребителем результатов IBM США Adobe США NVIDIA США NYSE США NASDAQ США ЗАО «ММВБ» Россия КБ «Петрокоммерц» Россия ОАО «МТС» Россия «Комстар-ОТС», Россия ЗАО «НСС» Россия «Связной» Россия «Балтика» Россия «Седьмой Континент» Россия Х5 Retail group Россия ОАО «РЖД» Россия ОАО «Интер РАО ЕЭС» Россия АП «Домодедово» Россия 7. Где, когда и какой эффект, в т.ч. экономический, ожидается от использования результатов проекта В МФТИ будет создан научно-исследовательский центр интеллектуального анализа данных, который будет осуществлять три функции: o проведение научных исследований; o разработка прикладного программного обеспечения по заказам сторонних организаций; o подготовка научно-инженерных кадров. Будет создана методология анализа сетевых данных, основанная на структурнооптимизационном подходе, при котором максимально полно учитываются специфика конкретных сетевых данных. Будут разработаны эффективные методы, алгоритмы и программное обеспечение для широкого класса задач анализа сетевых данных. В процессе выполнения проекта планируется специализированных прикладных систем: o система анализа телекоммуникационных сетей; o система анализа электрических сетей; o система анализа социальных сетей; построить несколько 3 o система обнаружения и анализа поисковых спамов. o Мы полагаем, что разработка четырёх совершенно разных систем поможет нам выработать общие принципы построения таких систем. 8. Предполагаемые организации – участники консорциума по профилям: научные, образовательные, бизнес. Контактная информация руководителей проекта в каждой организации и общего координатора Нью-Йоркский университет институт Куранта (США), Ратгерский Университет, факультет Computer Science, Нью Джерси, (США) МФТИ, МГУ, Вычислительный центр им. А. А. Дородницына РАН, ООО «Яндекс», ЗАО «Форексис», ЗАО «Антиплагиат», Центр систем прогнозирования и распознавания (Россия). 9. Описание вклада каждой организации в итоговый результат. 10. Преимущества от участия иностранных организаций 11. Потенциальные иностранные участники проекта, которые могли бы внести существенный вклад в итоговый результат Проект будет выполняться в тесном сотрудничестве с Университетами: Принстонским (США, Нью Джерси), Бостонским (США, Массачусетс), Калифорнийским (США, Беркли), Будапештским (Венгрия). МГУ (Россия, Москва), НГУ (Россия, Нижний Новгород), Киевским (Украина), Одесским (Украина), международными центрами по информационным технологиям (DIMACS, Нью Джерси), по теории исследований операций (Нью Джерси) и компаниями: «Марковские Процессы» (Нью Джерси), «Ф-сквеа» (Массачусетс), «Кьюре Лаб» (Массачусетс). 12. Краткая предыстория формирования проекта См. Аннотацию 13. Предварительный план подготовки и реализации проекта (основные вехи) по каждой организации, включая координационные мероприятия Сотрудничество имеет смысл организовывать надолго, сроки разумно устанавливать для конкретных проектов. 14. Объем финансирования (существующий и необходимый), включая предполагаемые источники и объемы софинансирования. Для организации сотрудничества представляется достаточным финансирование в размере $300 тыс.долларов; объемы финансирования конкретных проектов должны определяться по мере постановки задач, определения заказчиков и объемов финансирования с их стороны.