36 исследования информационные технологии Школа анализа данных «Яндекса» стала участником кол­ ла­борации большого эксперимен­ та LHCb ЦЕРН Школа анализа данных «Яндек­ са» стала участником коллаборации боль­ шого эксперимента LHCb ЦЕРН (CERN). Школа будет помогать ученым в обработке данных и проводить исследования на сты­ ке физики и компьютерных наук в рамках эксперимента LHCb — одного из главных экспериментов на Большом адронном кол­ лайдере. Это первый случай, когда членом коллаборации становится частный универси­ тет, созданный по инициативе коммерческой компании, при этом не специализирующийся на физике. До этого в коллаборацию входили исключительно университеты, где ведутся исследования в области физики: МГУ, Мас­ сачусетский технологический институт, Ок­ сфордский университет и другие. Сегодня много говорят о при­ менении технологий big data в медицине, экономике и других областях. История с фи­ зиками — интереснейший пример того, как может работать «магия» алгоритмов. Представьте себе, что ребен­ ку подарили интересную игрушку. Какое­ ‑то время он увлеченно играет, а потом ему становится интересно, что внутри, как она устроена. У всех свои игрушки, и чем они интереснее устроены, тем сложнее их ра­ зобрать. В мире физики игрушки, пожалуй, одни из самых сложных — связанные с нашей физической реальностью. В физике частиц, которой занимаются на Большом адронном коллайдере, объектом исследования явля­ ются элементарные частицы. А точнее, зако­ ны и модели, которые описывают их поведе­ ние: распады, взаимодействия и т. д. Одним из способов изучения частиц является столкновение разогнан­ ных до огромных скоростей частиц друг с другом. В результате таких столкновений высвобождается чрезвычайно большое количество энергии, которая может пре­ вратиться в другие виды частиц. На Боль­ шом адронном коллайдере протоны раз­ гоняются почти до скорости света по двум противоположным круговым траекториям и соударяются в четырех точках кольца коллайдера — четырех детекторах боль­ ших экспериментов. Каждый эксперимент хорош в наблюдении определенного вида распадов частиц. Эксперимент LHCb, к работе над которым подключатся студенты и иссле­ дователи ШАД, построен так, чтобы хорошо «видеть» распады частиц, появляющихся по­ сле столкновения протонов и летящих под небольшим углом вдоль оси их столкновения. Эта особенность позволяет, например, хо­ рошо изучить законы взаимодействия B-ме­ зонов. Одна из загадок, которую можно ре­ шить, наблюдая за частицами, — нарушение симметрии в законах для материи и анти­ материи. В частности, интересный вопрос заключается в том, почему окружающая нас видимая Вселенная почти целиком состо­ ит из материи? В поисках ответов на такие загадки физики не смотрят за каждым от­ дельным столкновением частиц, они ищут закономерности, проявляющиеся при на­ блюдении большого количества столкнове­ ний, — статистические закономерности, рас­ пределения физически-значимых величин. Коллайдер — это лишь началь­ ное звено большого конвейера по обработ­ ке данных, за ним находится онлайн-ферма, которая отсеивает данные об интересных столкновениях от явного шума. Интересные данные, которые составляют сотые доли процента от всех наблюдаемых столкно­ вений, сохраняются в дата-центрах грида (WLCG — Worldwide LHC Computing Grid) и проходят последующую обработку; только после всех предварительных этапов данные становятся доступны физикам коллабора­ ции для предметного исследования. Каждое зарегистрированное соударение протонов в коллайдере называется событием, их могут исследовать участники коллаборации. Один из классов задач, которые решаются на LHCb, — поиск редких распа­ дов. Сложность этой задачи обусловлена необходимостью учета большого количества неопределенностей и одновременно требова­ нием высокой точности получаемого ответа. Поиск определенного вида событий похож на поиск иголки в стоге сена. Задача усложняется, т.к. каждое событие описывается десятками разных признаков, для которых очень сложно вы­ делить объем пространства с наилучшим соотношением сигнал / шум. Для решения таких задач в других областях науки хорошо текст кандидат физико-математических наук, руководитель совместных проектов «Яндекса» и ЦЕРН фотография маргиналии Иван Ерофеев Александр Кольцов Андрей Устюжанин Образование ШАД «Яндекса» Школа анализа данных (ШАД) — одна из самых известных в России магистратур по computer science и анализу данных. Ее хорошо знают студенты и выпускники МГУ, МФТИ, Высшей школы экономики и др. Для тех, кто интересуется прикладной computer science, ШАД — трам­ плин в ведущие IT-ком­ пании и науку. В ШАД обычно идут после бакалавриата, в тече­ ние двух лет студенты изучают машинное обучение, алгоритмы и структуры данных, ин­ формационный поиск, компьютерную лингви­ стику и другие разделы компьютерных наук. «Яндексу» удалось собрать в одном месте ведущих разработчи­ ков и исследователей, которые сформировали свою собственную программу обучения, востребованную инду­ стрией. В итоге за 7 лет существования школа подготовила более 320 специалистов по computer science, работающих в «Яндек­ се», Google, ABBYY и других компаниях. Часть выпускников остается в науке. коммерсантъ-наука №02 2015