НРС В БИЗНЕСЕ Кластерное решение для финансового анализа на MS Excel Юрий Жуковский ластерные системы применяются главным образом для вычислений, связанных со сложными научными и исследовательскими задачами. Однако это не означает, что они Решение неэффективны в финансовой сфере. Наоборот, благодаря инструментам, способным обеспечить работу однопользовательских программ на многоузловых системах, применение кластера становится вполне оправданным. Ситуация на современном мировом рынке финансовых услуг и украинские реалии сильно разнятся. В мировой практике, в результате жесткой конкуренции и влияния на рынок государственных институтов, у банковских и страховых компаний установилась очень невысокая норма прибыли, и даже небольшая ошибка в сервисном пакете может повлечь отток клиентов или прямые убытки. Вопрос качественной обработки информации и финансовый анализ являются неотъемлемой частью «стратегии выживания» на рынке. Чтобы снизить возможные риски, приходится практически при каждой операции обрабатывать большое количество данных. А значит, объемы информации, которую финансовым институтам необходимо обрабатывать каждый день, постоянно увеличиваются. Эффективность этой обработки, безусловно, зависит от скорости (иногда все решают секунды) и производительности вычислительных систем. Но немалую роль тут играют и объемы анализируемых данных, и формат хранения, и форма представления результатов. В странах Европы распространенной практикой является установка небольшого кластера практически в каждом филиале банка и мощного К HPC в центральном офисе — эти компьютеры используются одновременно многими пользователями. Подобное решение уже доказало свою эффективность, ведь, один раз сделав вложение в разработку качественных алгоритмов анализа и создав базу знаний, можно существенно ограничить влияние человеческого фактора на принятие решения, а значит — уменьшить риски при одновременном снижении требований к квалификации персонала. Специалисты компаний Entry и Microsoft подготовили серийное комплексное решение для банков, страховых компаний и финансовых организаций. Основное его назначение — расчеты в области скоринговых услуг. Это как раз та задача, которую можно эффективно решать, применяя кластерные системы, поскольку для построения работающей модели поведения клиентской базы необходимо произвести настройки системы на основе реальных данных, характерных для сегментов, которые будет обслуживать решение. Программная архитектура серверной среды Программная архитектура кластера ориентирована на работу в среде финансовых организаций (банки, страховые компании и т.п.). В её основе лежат привычные для предприятий бизнес‑среды компоненты Microsoft. Чтобы в системе смогли работать конечные пользователи, должны быть запущены следующие составляющие: 1. Active Directory. Может быть локальным и включать в себя только компоненты кластера. Однако более эффективным является решение, когда к AD подключены и другие структуры предприятия. 2. Сервер баз данных MS SQL Server. Для его развертывания задействуют общий либо отдельный сер- 30 PC WEEK REVIEW ■ №3(3), 2008 вер в редакции Workgroup (Developer Edition). 3. Microsoft Office SharePoint Server 2007 (Enterprise‑редакция). Он представляет собой интегрированный набор серверных приложений для организации совместной работы. Из всех его компонентов для работы системы используется Excel Services. Эта служба предназначена для обеспечения коллективной работы над файлами Excel. 4. Windows Computе Cluster Server 2003 — специальная версия серверной операционной системы Microsoft для применения в HPC. Одна из основных задач, стоящих перед разработчиками Windows Compute Cluster Server, — обеспечить простоту установки и настройки системы. В отличие от кластерных операционных систем на основе UNIX, установку которых может осуществить лишь специалист с высоким уровнем знания ОС, для настройки вычислительного кластера на Windows Compute Cluster Server 2003 достаточно базовых знаний Windows Server 2003. К примеру, на отдельный сервер устанавливается обычная операционная система Windows Server 2003 R2 Standard, сервер включается в Active Directory организации (либо этот сервис устанавливается на нем же), и на этот же сервер инсталлируются MOSS 2007 и MS SQL Server. Далее устанавливается специализированный пакет Compute Cluster Pack (CCP), и таким образом создается управляющий узел для кластера (Head Node). На остальные — расчетные — узлы кластера (Compute Node) инсталлируется специализированная ОС Windows Computе Cluster Server 2003. Балансировка нагрузки Основой прикладных вычислений для использования в финансовой области НРС В БИЗНЕСЕ Эта модель интересна тем, что является модель Сluster Excel for предусматривается возможность Financial Services (ECS). Ее идея дооснащения узлов модулями заключается в том, чтобы обеInfiniband, что позволяет наращиспечить защищенный и безопасвать производительность кластеный доступ к параллельным выра в соответствии с требованиями числителям из привычного для прикладного ПО. работников финансовых организаций инструмента — Microsoft Серверы кластера могут быть Excel. Такая модель позволяет установлены как в общей серверфинансисту обрабатывать в сжаной комнате, так и в отдельной тые сроки колоссальные объемы компактной стойке — со своим информации и при этом не заблоком бесперебойного питания, висеть от помощи сотрудников скоростным коммутатором, а также Архитектурные рекомендации Microsoft, касающиеся CCS. Внизу – например, программистов. — кластер, вверху — инфраструктура и сопутствующие серверы системой управления и мониторинВозможностей подобного клага. Подобный выбор оборудования кластер с одним управляющим и честерного комплекса достаточно и для обеспечивает баланс между ценой, протырьмя расчетными узлами, легко вычисления в других финансовых паизводительностью и возможностями оценить его эффективность и раскетах. Хорошим примером здесь может дальнейшего развития. В качестве считать необходимое наращивание служить всемирно известный SunGard. узлов кластера могут применяться и сипроизводительности. Причем задачи пользователей, поставстемы с двумя отдельными серверными ленные в разных средах (Сluster Excel 2‑процессорными модулями в корпусе и SunGard), могут обрабатываться на 1U, и системы 1U с 4‑мя процессораАппаратная архитектура одном и том же HPC. ми на одной материнской плате — тем серверной среды «Красной линией» через всё решесамым практически достигается плотСистемы для финансового анализа, ние проходит именно простота испольность более дорогих blade‑систем из тем более рассчитанные на массовую зования системы непосредственным за16‑ти расчетных ядер на 1U. установку в филиалах, должны подказчиком вычислений. Действительно, чиняться жестким требованиям в обему не приходится заботиться о том, на ласти стоимости решения. Поскольку Производительность и возможности скольких узлах считается задача, когда задачи обработки финансовых данных масштабирования она будет запущена и т.д., — все это хорошо масштабируются и не требоПроизводительность кластерной систеописывается на уровне политик и прав вательны к быстродействию межузмы при обработке большого объема стадоступа администратором сети. лового интерконнекта, здесь вполне тистических данных растет практически Далее задачи запускаются либо в поприменимы бюджетные решения на линейно с увеличением узлов в системе. рядке очередности одновременно на стандартном Ethernet (два сетевых Небольшой HPC с 4‑мя расчетными все узлы, чем достигается максимальинтерфейса в режиме транкинга). узлами способен выполнять расчеты ная скорость при обработке большого «Стартовый набор» кластера состов 10—20 раз быстрее, чем ПК. И дело количества запросов (например, проит из пяти узлов — четырех вычисне только в аппаратном обеспечении — счет потребительских кредитов), лилительных и одного управляющего. здесь важна оптимизированность всего бо — в зависимости от приоритетов В кластере Entry они строятся на оснокомплекса программного обеспечения конкретного пользователя, который ве специализированного 1U‑шасси и непосредственно операционной сиполучает гарантированный уровень Tyan с материнской платой Tyan стемы Windows Computе Cluster Server обслуживания (допустим, два узла из Теmpest i5000VS. Эта система оснаще2003 под расчетные задачи. четырех), а при наличии свободных на двумя процессорными гнездами для Много это или мало? Например, ресурсов — все ресурсы кластера. 4‑ядерных процессоров Intel Xeon, шесотрудник при выдаче кредита или За распараллеливание задачи также стью разъемами под память («по умолрасчете страхового полиса может не отвечает ПО Microsoft, хотя наличие чанию» установлено 4 ГБ в каждом только более качественно выполнить продуманных алгоритмов расчетов узле), двумя сетевыми интерфейсами свою работу (большую часть оценки является немаловажным элементом 1 Gigabit Ethernet и имеет довольно рисков берет на себя расчетная систеуспеха. компактные размеры. Дисковая подма), но и быстрее принять решение о Особенностью большинства фисистема допускает подключение двух выдаче/не выдаче кредита, сократив нансовых задач является их хорошая накопителей SATA с возможностью время ожидания, что весьма актуально распараллеливаемость, благодаря чему объединения их в RAID уровней 0 и 1. для розничных кредитов. Еще более обеспечивается линейная масштабируОтличительной особенностью шасси показательна ситуация с расчетом креемость производительности в зависиявляется наличие ЖК‑экрана, отобрадитов под недвижимость, в том числе мости от количества узлов. К примеру, жающего оперативную информацию коммерческую. Расчеты в этом случае развернув в подразделении небольшой о состоянии компонентов сервера. ПРОДОЛЖЕНИЕ НА с. 34 №3(3), 2008 ■ PC WEEK REVIEW 31 ПРАКТИКА НРС «Графика»... ПРОДОЛЖЕНИЕ со с. 23 него поколения Sony PlayStation 3. Однако здесь нечему удивляться, если заглянуть внутрь этой консоли — она основана на мощных процессорах Cell, на которые возлагают большие надежды по обработке ресурсоемких вычислений. При всей перспективности графических вычислителей в области HPC, эта архитектура имеет ряд недостатков, устранение которых, скорее всего, потребует много времени и средств: это высокая задержка чтения из видеопамяти в шейдере, длительное время запуска шейдеров и медленный обмен данными между ОЗУ и видеопамятью. Кроме того, несовместимость архитектур от разных производителей Кластерное решение... ПРОДОЛЖЕНИЕ со с. 31 нередко занимают 14—18 часов, и сотрудникам приходится оставлять задачу на ночь. А ведь ночью может произойти сбой, задачу придется запускать заново еще раз. А если клиентов будет более одного в день? Таким образом, если оценивать масштабируемость на уровне ПК и HPC, то даже простейший кластер из четырех узлов — это большой шаг «на пути к прогрессу». В аппаратной составляющей особенно важно правильно выбрать интерконнект. При количестве расчетных узлов от 4 до 12 экономически оправданным для финансовых задач является использование межузловых соединений на основе 1 Gigabit Ethernet. В крупных кластерах с числом узлов более 12‑ти более целесообразно применять Infiniband. Связь с клиентскими рабочими местами Связь между кластером и рабочим местом пользователя реализуется полностью прозрачно и практически не требует специальных знаний. Один раз выполнив настройку на странице Excel, при дальнейшем запуске расчет будет осуществляться приводит к тому, что переход с одной платформы на другую потребует от программиста изучения новых, нестандартных средств разработки. Поэтому ближайшие векторы развития «графических» вычислителей, по всей вероятности, будут связаны не только с прямым наращиванием мощностей и организации архитектур, но и с построением стандартов для разработки и выполнения параллельных программ. При подготовке статьи использованы материалы сайта parallel.ru Архитектура GPU Tesla не на пользовательском ПК, а на HPC. Аналогичный процесс происходит при расчете обычных страниц в Excel. Так же прозрачно работают и системы класса SunGard. В интерфейсах решений для финансистов самое важное — пользователь, а средства, которые задействуются для получения результата, максимально скрываются. При правильном развертывании HPC в организации, пользователь может даже не знать, что его задачи считает суперкомпьютер, и не представлять объемов данных и сложности расчетов, которые он инициирует. И в этом «сила» как методологии Сluster Excel for Financial Services, так и пакетов класса SunGard. Модели использования Типичная модель использования сети HPC в банковской и страховой сферах — это скоринговые услуги. Введя определенный набор параметров клиента и проанализировав статистические данные по схожей выборке, можно с высокой степенью вероятности предсказать риск невозврата и рассчитать оптимальные для клиента и банка параметры кредита, залоговые риски и т.д. Это 34 PC WEEK REVIEW ■ №3(3), 2008 актуально и для страховых компаний: здесь точная настройка параметров под определенного клиента еще более важна. Пример — медицинское страхование. Пока норма прибыли финансовых учреждений в Украине позволяют не беспокоиться о технологиях оптимизации и не бороться за «каждую копейку», но рано или поздно и на наших просторах произойдут перемены. И вот тогда те, кто раньше освоил HPC, окажутся в выигрыше. Базы знаний не накапливаются за 1—2 года, а те, что уже существуют, очень дороги и не вполне учитывают «местные реалии». Такие мощные финансовые структуры, как UniCredit Group или HVB, согласились поделиться опытом и опубликовать подробные истории внедрения. Но большинство банков, активно использующих эти решения, не раскрывают подобной информации, считая использование технологий HPC своим конкурентным преимуществом. С Юрием Жуковским, аналитиком информационных систем и решений компании Entry, можно связаться по адресу yz@entry.kiev.ua приложение к PCWEEK/UE №3 (3) 2008 • Киев Петафлопс — не предел! HPC в Украине: реалии и перспективы Национальный Grid-проект Графические ускорители для суперкомпьютинга Вооруженные университеты Кластерное решение для финансового анализа на Microsoft Excel Серверная ферма для большого кино Ресурсоёмкие вычисления