Применение распределенных вычислительных систем при определении параметров сейсмической анизотропии коры и верхней мантии к.т.н. Мишин Дмитрий Юрьевич Геофизический центр РАН, Институт космических исследований РАН Современные проблемы хранения и доступа к геофизическим данным • Повторяющиеся задачи создания (сверхбольших) баз данных для новых геофизических продуктов • Необходимость обеспечения скорости доступа, достаточной для интерактивного анализа любой выборки из массива геофизических данных • Данные не должны удаляться или перезаписываться. Флаги: происхождение и история изменения, аккредитация, качество, тип • Многоуровневые распределенные хранилища метаданных (предметный каталог, пространственно-временное распределение, автоматический заказ и обработка) • Функционально насыщенные сервисы данных, поддерживающие выборку, обработку и поиск данных, расположенные близко к хранилищу данных Современные проблемы хранения и доступа к геофизическим данным (2) • Обобщенные семантически модель данных и отвечающий ей язык запросов для разнородных наборов геофизических данных (классы данных: наблюденные и модельные данные на станциях, на координатных сетках, траекториях; электронные карты, изображения и данные дистанционного зондирования) • Распределенные алгоритмы для балансировки загрузки сети/баз данных • Сценарий обработки геофизических данных: экспорт – моделирование – визуализация – сохранение. Опорные веб-сервисы базовых сертифицированных наборов геофизических данных и моделей • Интеграция с сервисами электронных карт MS Virtual Earth, Google Maps, WMS и научными визуализационными библиотеками Развитие компьютерного хранения и обработки данных Грид: «Грид (Grid) - это согласованная, открытая и стандартизованная среда, которая обеспечивает гибкое, безопасное, скоординированное разделение ресурсов в рамках виртуальной организации.» (Я. Фостер, К. Кессельман) • Инфраструктура: каналы связи, вычислительные центры и центры данных • Промежуточное программное обеспечение: виртуальная среда для запуска задач, компоненты мониторинга, хранилища данных, компоненты передачи данных, система безопасности с поддержкой виртуальных организаций • Набор соглашений между научными центрами о распределении ресурсов Участие в EGEE III (Enabling Grids for E-sciencE) • В настоящее время в проекте EGEE участвуют 90 ведущих организаций из 32 стран, включая российский сегмент RDIG • Российская национальная виртуальная организация для Наук о Земле – eEarth, в которую входят ГЦ РАН, ИФЗ РАН, ИКИ РАН • Совместные работы с европейской виртуальной организацией по наукам о Земле ESR (Earth Science Research), в которую входят ведущие геофизические и климатологические научные центры • Перенос сейсмологических моделей на промежуточное программное обеспечение Грид gLite • Разработка приложений для добычи данных об окружающей среде, основанных на среде OGSA-DAI, распределенном CDM хранилище ActiveStorage для временных рядов и ESSEпоисковике событий в терминах нечеткой логики Сервисы информационных моделей и потоков данных в Грид REST и SOAP Шаблоны запросов Метаданные. Виртуальная обсерватория OGSA-DAI Грид-сервисы и анализ данных JDBC, Файлы, сервисы Активное хранилище и другие источники NetCDF и NcML WMS, WCS Virtual Earth Google Earth Nasa World Wind KML и tile серверы Сейсмические, погодные, космические модели Интеграция источников данных по окружающей среде в Грид Мировые центры данных: SPIDR (Space Physics Interactive Data Archive) С 1815 года по н.в. ~120 параметров, ~0.5 TB Космическая погода NOAA CLASS (Comprehensive Large Array-data Stewardship System) Спутниковые снимки, ~1.2 PB, растет ~0.5 PB в год С 1992 года по н.в. Спутниковые снимки ~100 спектральных каналов Дистанционное зондирование Спутниковая телеметрия NOAA и ECMWF NCEP/NCAR реанализ погоды, ~1 TB С 1950 года по н.в. Погодные параметры на регулярном гриде, шаг 2.5 градуса ERA40 реанализ погоды, ~2 TB С 1957 года по н.в. Погодные параметры на регулярном гриде, шаг 1 градус NWS прогноз погоды Климатические данные Погодные параметры на регулярном гриде, шаг 1 градус NCDC Метеорологические наблюдения С 1901 года по н.в. , 122 GB база данных, 400 GB файлов 30 миллионов сенсоров, 1.7 миллиарда наблюдений, 20000 станций Мировые центры данных: Электронные карты Геология и разломы, сейсмические каталоги, топография и батиметрия Сотни слоев, ~0.5 TB Твердая Земля Виртуальная Обсерватория – информационный метаресурс View Data Data Source Data Source Data Source Meta DB <XM> Search Metadata Search Result User Virtual Observatory Data Source Виртуальная обсерватория – приложение для научных информационных метаресурсов, объединяющее в себе метаданные о существующих данных, Интернет-ресурсах и программных средствах, используемых в одной предметной области Пользователь ВО может получить представление о происходящем в предметной области, о новостях, разрабатываемом программном обеспечении, о новых и архивных данных, об открывшихся и давно существующих ресурсах, произвести сквозной текстовый поиск, или поиск по координатам или времени, получив информацию даже о самых малоизвестных ресурсах, удовлетворяющих условиям поиска Виртуальная обсерватория система работы с XML метаданными • VxOware – ПО с открытым исходным кодом (src@sourceforge) • Ключевые компоненты: 1) Web-приложение; 2) REST сервисы; 3) native XML база данных; 4) Хранилище индексированных объектов (документы, изображения, …) • XML: поддержка catalog-level схем метаданных: FGDC, ECHO, SPASE, NGDC, Ordering Extensions • Распределенный поиск метаданных в федерации ВО через REST сервисы • Web 2.0 функции для совместной работы: вебредактирование, отношения, tagging, ranking, пользовательские комментарии, и т.д. Проблема хранения пространственновременных геофизических данных Общая модель данных (Common Data Model) – это структура для хранения значений параметра в различные моменты времени на регулярном гриде, в указанных координатах (точки или станции) или пространственновременных траекториях. Взрыв индексного пространства t lon lat A) MySQL базы данных, 19982007 B) Активное хранилище для Common Data Model, MS SQL Server 2 TB климатических данных, 2008-2009 Преимущества CDM Модель данных в виде многомерного массива, чаще используемая в геофизике, чем связанные реляционные таблицы Обобщает разнообразие схем реляционных баз данных для хранения массивов Поддерживает стандартные конвенции и форматы хранения данных Легкость трансформации в бинарный формат (NetCDF), XML (NcML) и обратно Совместимость с API, библиотеками и программами для чтения и визуализации NetCDF Предоставляет язык запроса и обработки многомерных данных, сравнимый с SQL Скорость доступа к данным с использованием Грид-сервиса при различной геометрии запроса air (4D array) 1,8 1,6 1,4 Time, s 1,2 SINGLE 1 MULTI 0,8 NCEP_G 0,6 NCEP_FULL 0,4 0,2 0 1 2 3 4 5 Query < Space | Tim e > 6 7 Архитектура Грид-сервисов геофизических данных Определение анизотропных сейсмических свойств литосферы и верхней мантии на основе инверсии волновых форм поперечных волн. Анизотропные параметры определяются по двум группам данных: волновым формам SKS и обменных волн. Среда под станцией моделируется пачкой плоских слоёв на полупространстве. Моделирование проводилось на синтетических примерах и реальных данных (Тянь-Шань). CRF (m) 1 t 2 t1 (i ) N RF t 2 ( i 1 t ( i ) 1 obs (t , i ) syn (t , i ; m)) 2 dt , (i ) 1 CSKS (m) t 2 t1 N SKS t 2 2 ( T ( t , ) T ( t , ; m ) ) dt. obs i syn i i 1 t ( i ) 1 Целевые функции обменных волн (RF) и волн SKS определяются как среднеквадратичное отклонение наблюдений (obs) от соответствующих расчетов (syn) для вектора модели m. Определение анизотропных сейсмических свойств литосферы и верхней мантии на основе инверсии волновых форм поперечных волн. Благодаря использованию Грид, решена обратная геофизическая задача путем исследования всего пространства параметров многомерной целевой функции. Была реализована процедура нахождения и исследования глобального экстремума целевой функции, проведен анализ согласованности различных групп данных и проведена геофизическая интерпретация результатов моделирования. Функции распределения по азимутам для станций Запуск параллельных сейсмических задач в среде Condor Использование среды управления параллельными вычислениями Condor позволяет использовать преимущества Грид-среды на стандартных клиентских компьютерах под управлением MS Windows J o b in p u t file s W o rk n o d e 1 C lie n t J o b in p u t file s + c o n tro l file W o rk n o d e 2 C o n d o r jo b m anager Tasks ... J o b re s u lts W o rk n o d e n