Реализация кластерных технологий средствами Huawei Булыгин О., Модуль-Проекты 一(yat). Пример реализации облачных вычислений в МФТИ (ГУ): 32 узла 2x2630v3/256GB/10GbE/8GFC в 12U E9000v3 и отказоустойчивая кеширующая СХД OceanStor 5500, выполняющая роль шлюза 10GbE/FC 二 (yee). Создание линейно масштабируемых программно- управляемых систем хранения данных (FusionStorage/Ceph) 1 三 (sam). Аппаратные средства Huawei для организации отказоустойчивых решений Национальный Суперкомпьютерный Форум 2015 2 Почему Huawei? Авторитет и рекомендации в области телекоммуникации более 20 лет Практически полный портфель собственных решений для ИТ (инфраструктура, вычисления, хранение, сети, управление…) Перенос технологий 9999 во все охваченные отрасли Высочайший уровень разработок и сопровождения Предсказуемость в партнерстве с РФ Впечатляющие результаты 2014… Национальный Суперкомпьютерный Форум 2015 3 Почему Huawei? Выучить китайский просто: 一 二 三 (yat, yee, sam)… Национальный Суперкомпьютерный Форум 2015 Системы высокой доступности 4 При организации систем высокой доступности существуют три необходимых элемента для возможности их реализации: 1. кластер вычислительных узлов 2. совместно используемая система хранения (возможно, тоже реализованная на основе кластерных технологий) 3. система ограждения (fencing) сбойного оборудования. В основе концепции работы систем высокой доступности лежит возможность автоматической миграции виртуальных машин (ВМ) и/или контейнеров (КТ) между узлами в кластере. Для этого используемые ими данные должны быть доступны со всех таких узлов, чем объясняется необходимость совместного использования хранилища. Национальный Суперкомпьютерный Форум 2015 5 Проблема Допустим, система умеет выполнять миграцию ВМ и/или КТ, и успешно ее осуществила при сбое на узле №1 на узел №2. Теперь ВМ (и/или КТ) продолжает работать на узле №2 с теми же самыми данными. Однако сбой на узле №1 оказался не фатальным, и он восстановил свою работу, повторно запустив ВМ (и/или КТ), новый экземпляр которой уже работает на узле №2, что, с почти 100% вероятностью приведет к несогласованности данных ВМ (и/или КТ) в общем хранилище. Чтобы избежать этого, необходимо ограждение (fencing) скомпрометировавшего себя узла. Национальный Суперкомпьютерный Форум 2015 6 Решение проблемы На сегодняшний день не существует программного обеспечения, способного аккуратно и точно решать эту проблему. В любом случае, необходимы аппаратные средства, позволяющие решать задачу ограждения надежным образом с соблюдением необходимых временных диаграмм реализации тайм- аутов. Устройства ограждения могут быть классифицированы на пять категорий: Источники бесперебойного питания (UPS) Блоки распределения питания(PDU) Устройства управления питанием блейд- серверов Автоматизирующие (lights-out) устройства: IBM RSA, HP iLO, Dell DRAC и т.п. {Возможно, в какой-то степени, включая IPMI} Устройства тестирования, используемые исключительно на этапе отладки Национальный Суперкомпьютерный Форум 2015 7 Национальный Суперкомпьютерный Форум 2015 Посетите наши веб- страницы с описанием решений масштабируемых СХД: Huawei FusionStorage. Краткое описание: http://www.mdl.ru/Solutions/Put.htm?Nme=FusionStorage Изучаем Ceph, Каран Сингх (перевод): http://onreader.mdl.ru/LearningCeph/content/index.html Lazy Means Smart: Reducing Repair Bandwidth Costs in Erasure-coded Distributed Storage: http://onreader.mdl.ru/Ceph/Planning/Blueprints/Hammer/lazy-recovery.htm Shingled Erasure Code (SHEC): http://onreader.mdl.ru/Ceph/Planning/Blueprints/Hammer/SHEC.htm#Fujitsu 8 Ceph. Рекомендации по оборудованию http://www.mdl.ru/Solutions/Put.htm?Nme=CephHW Книга рецептов Proxmox, Васим Ахмед (перевод, доп. материалы): http://onreader.mdl.ru/ProxmoxCookbook/content/Fencing.html Национальный Суперкомпьютерный Форум 2015