РАЗВИТИЕ И ИСПОЛЬЗОВАНИЕ ВЫСОКОПРОИЗВОДИТЕЛЬНЫХ ИНФОРМАЦИОННО-ВЫЧИСЛИТЕЛЬНЫХ РЕСУРСОВ В ПУЩИНСКОМ НАУЧНОМ ЦЕНТРЕ РАН В.В.Корнилов (*), В.Д.Лахно (**), М.Н.Устинин (**) (*) Пущинский научный центр, (**) Институт математических проблем биологии РАН, Пущино Тел./факс: (095) 923-80-03, e-mail: kornilov@pprc.psn.ru В 1961 году было принято решение Правительства о создании в Пущино Научного центра биологических исследований Академии наук. В настоящее время это город с населением более 20 тыс. человек и всей необходимой инфраструктурой. Градообразующей базой являются 10 научно-исследовательских институтов Российской академии наук, традиционными для которых являются следующие направления исследований: молекулярная биология, биоорганическая химия, биотехнология, генная и клеточная инженерия, промышленная и экологическая микробиология, биотрансформация вещества и энергии, биофизика, радиобиология, математическое моделирование и информатика, научное и медицинское приборостроение, астрофизика и радиоастрономия. Осознание необходимости глубокой трансформации и реформирования академической науки, объективные предпосылки к изменению структуры науки с учетом мирового опыта реализуются в развитии исследований, ориентированных на создание интегративного знания на стыках биологии с математикой, медициной, сельским хозяйством и другими направлениями. Современные тенденции развития науки требуют интеграции не только в предметных областях, но и в организации подготовки специалистов высокой квалификации. В городе работают три учреждения высшего образования: Пущинский Филиал МГУ, Пущинский государственный университет, Отделение Московской государственной академии приборостроения и информатики. Подготовка специалистов в этих вузах ведется на кадровой и материальной базе Научного центра, что реализуется в создании при институтах собственных учебно-научных центров. В настоящее время с помощью ФЦП "Интеграция" сформированы и ведут подготовку кадров учебно-научные центры во всех 10 исследовательских организациях ПНЦ РАН. Общее количество преподавателей, участвующих в образовательной деятельности учебно-научных центров, составляет более 70 человек, в том числе 3 академика, 5 чл.-корр. РАН, 45 докторов наук и 19 кандидатов наук. Имеющаяся кадровая и материально-техническая база, высокий уровень подготовки привлекают в Пущинский научный центр молодых людей из самых разных уголков страны. Общая численность студентов, магистрантов, стажеров и аспирантов из 65 различных вузов России и СНГ, обучающихся в настоящее время в Пущино, превышает 400 человек. В последнее время стала очевидной необходимость использования мощных вычислительных ресурсов для решения задач физико-химической биологии. В биологических исследованиях компьютеры и суперкомпьютеры становятся все более самостоятельным инструментом познания и получения прикладных результатов. Это обстоятельство не вполне осознается не только учеными, работающими в смежных областях, но и самими биологами. Причинами этого является как исключительно быстрое развитие самой вычислительной техники, в частности, появление суперкомпьютеров с параллельной архитектурой, так и бурный рост ее применения в биологии. Несмотря на широкий фронт использования компьютеров в биологии, в нем можно выделить главные направления, определяющие развитие таких областей знания, как молекулярная биология и биохимия. В чем же причина необходимости широкого использования суперкомпьютеров в биологии? Прежде всего, отметим, что в начале 90-х годов начала выполняться научная программа расшифровки генома человека, в которую были вложены огромные средства. В настоящее время эта программа находится в стадии своего завершения. Уже сейчас объявлено, что следующий этап, рассчитанный на 10-15 лет, стартует в начале 21 века. Он получил название "структурный геном". Речь идет о расшифровке первичной и пространственной структуры всех белков, входящих в состав человеческого организма. Выполнение этой программы в принципе невозможно без использования высокопроизводительных вычислительных систем. В настоящее время расшифрована структура около десяти тысяч белков, в то время как число различных белков в организме человека составляет сотни тысяч. Знание первичной и пространственной структур белков играет решающую роль для понимания их функционирования. В частности, знание пространственной структуры лежит в основе современной технологии создания лекарств. К числу основных вычислительных задач компьютерной биологии в настоящее время относятся: – распознавание белок-кодирующих участков в первичной структуре биополимеров; – сравнительный анализ первичных структур биополимеров; – расшифровка пространственной структуры биополимеров и их комплексов; – пространственное сворачивание белков; – моделирование структуры и динамики биомакромолекул; – создание и сопровождение специализированных баз данных (баз белковых структур, нуклеотидных последовательностей, путей метаболизма, клеточных ансамблей и др.). Современный уровень развития компьютерной биологии и биоинформатики подводит нас к мысли о том, что все задачи, которые до недавнего времени решались биохимией и молекулярной биологией в реальных экспериментах, в будущем могут быть решены в виртуальных компьютерных экспериментах. Как показывает анализ прессы, оснащенность западных научных, медицинских и фармацевтических компаний современной высокопроизводительной техникой ведущих компьютерных фирм весьма велика. Таким образом, для поддержания отечественных научно-исследовательских работ на современном международном уровне, необходимо широкое развёртывание работ по информационному и вычислительному обеспечению фундаментальной и прикладной физико-химической биологии. Представляется необходимым решение трёх взаимосвязанных задач: – обеспечение доступа специалистов к информации, содержащейся в мировых базах данных; – предоставление возможности проведения высокопроизводительных вычислений; – обеспечение возможности использования современных вычислительных средств и баз знаний для обучения молодежи с целью подготовки высококвалифицированных специалистов в приоритетных областях науки. Для этого необходимо создание скоростных каналов связи как между российскими институтами и научноучебными центрами, так и с зарубежными партнёрами. В течение трех лет ведутся работы по созданию информационно-вычислительной сети Пущинского научного центра. К настоящему времени найдено и реализовано оптимальное организационное решение – Информационно-провайдерский центр преобразован в Межинститутский отдел вычислительных и информационных ресурсов при Институте математических проблем биологии РАН. За период с 1997 г. в научно-образовательную сеть ПНЦ включены 14 организаций, включая институты, вузы, школы, городские службы. Использовались различные источники финансирования, в том числе собственные средства участников сети, РФФИ, Миннауки РФ, РАН. Топология сети: звездообразная, двухуровневая (первый уровень – оптоволокно, второй уровень – радиодоступ к нескольким точкам доступа к оптоволоконным магистралям). Тип среды передачи данных на магистралях: оптоволокно и радиоволны. Общая протяженность оптоволоконных магистралей составляет около 5 км. Используемые сетевые технологии: IEEE802.30 (Fast-Ethernet) и IEEE802.11 (Radio-Ethernet). Пропускная способность сети: 2 Мб/с – радиоканал, от 10 до 200 Мб/с – оптоволокно. Внешние каналы связи: радиоканал Пущино-Обнинск; радиорелейный канал Обнинск-Москва (Радио-МГУ); радиорелейный канал Обнинск-Москва (ИППИ). Центр управления сетью по состоянию на май 2000 года включает полный комплекс серверов (DNS, почтовые, FTP, HTTP и пр.). Центральный узел представляет собой систему из 12-портового 100/200 Мб/с маршрутизатора, 24-портового коммутатора 10/100 Мб/с и оптического концентратора 10 Мб/с. В 1999 году начат перевод центра управления сетью и основных магистралей в высокопроизводительный режим 100-200 Мб/с. В 2000 году планируется продолжение перевода сети ПНЦ в высокопроизводительный режим; расширение существующих и организация новых каналов выхода в Интернет. Как уже было сказано выше, проведение современных компьютерных экспериментов, требующих больших объёмов вычислений, таких как молекулярное моделирование, невозможно без помощи суперкомпьютеров. Здесь представляется необходимым как использовать уже имеющиеся в стране суперкомпьютерные вычислительные центры, так и создавать локальные вычислительные системы. Отметим, что к весне 2000 года Пущинский научный центр вышел на второе место в России по использованию централизованных суперкомпьютерных ресурсов Института прикладной математики и Межведомственного суперкомпьютерного центра. При разработке проекта учебно-исследовательского комплекса Пущинского научного центра РАН, учитывая специфику задач физико-химической биологии, было выбрано решение на базе оборудования фирмы SGI. Ядром комплекса стал сервер Origin200, оснащенный двумя процессорами R10000 180 MHz, 256 Mb оперативной памяти, жестким диском ёмкостью 11.2 GB и работающий под управлением ОС IRIX 6.4. На нём установлено базовое программное обеспечение, предназначенное для проведения вычислительных экспериментов, он же в настоящий момент выступает и как сервер баз данных. В качестве рабочего места разработчика прикладного программного обеспечения используется рабочая станция SGI Indigo2 с процессором R4400SC 200 MHz, 128 Mb оперативной памяти и высокоэффективной графической подсистемой. На данной станции эффективно решён вопрос отладки и компиляции программ на языках Фортран и Си перед запуском их на счёт на сервере Origin200, а также производится трёхмерная визуализация результатов моделирования. Кроме того, при помощи рабочей станции решена проблема администрирования сервера. Остальная часть сети – стандартные персональные компьютеры с процессорами Intel Pentium. На каждом из подключённых к сети ПК установлен программный эмулятор X-терминала, что позволяет использовать их как полноценные рабочие места исследователей с высокоскоростным доступом к вычислительным и информационным ресурсам сервера. Сервер может обеспечить эффективную работу 10-15 таких рабочих мест. Кроме того, на некоторых ПК, также являющихся клиентским местами серверного ПО, планируется проведение учебных занятий для студентов и аспирантов РАН. В настоящее время решается вопрос об оснащении сервера высокоэффективными программными продуктами, такими как пакет Sybyl компании Tripos, Gaussian (Gaussian, Inc.), и другими программными приложениями, которые позволят повысить эффективность использования установленной вычислительной техники при решении задач, поставленных при создании данного комплекса. Таким образом, современная физико-химическая биология представляет собой уникальную область знаний, с точки зрения потребности внедрения современных информационных и вычислительных технологий, и Пущинский научный центр должен стать основным полигоном для такого внедрения. Работа выполняется при поддержке ФЦП "Интеграция" (проект В0018) и грантов РФФИ N99-07-90461 и N9807-90147.