Институт химии нефти СО РАН Научно-исследовательский информационный центр АКТУАЛЬНОСТЬ 2 ЦЕЛЬ И ЗАДАЧИ РАБОТЫ Целью является разработка алгоритмов и комплекса программ анализа многомерных данных о различных свойствах природных объектов, основанных на сочетании методов нечеткого моделирования, многомерного статистического анализа и методов пространственного анализа с применением геоинформационных систем Задачи: 1) Разработка методики проведения комплексного анализа многомерных неполных данных с применением нечеткого и статистического моделирования. 2) Разработка алгоритмов комплексного анализа многомерных неполных данных. 3) Проведение исследований разработанных алгоритмов на типовых контрольных примерах и тестовых выборках. 4) Проектирование и разработка программного комплекса. 3 РАЗРАБОТКА МЕТОДИКИ КОМПЛЕКСНОГО АНАЛИЗА НА ОСНОВЕ НЕЧЕТКИХ И СТАТИСТИЧЕСКИХ АЛГОРИТМОВ Объекты исследования: таблицы «объект-свойства» Моделирование объекта исследования Восстановление пропущенных значений Проведение факторного анализа с вращением и классификации данных Отображение результатов Экспорт результатов в ГИС Отображение результатов в ГИС 4 НЕЧЕТКАЯ СИСТЕМА С ЗАДАННОЙ СТРУКТУРОЙ В х о д н ы е д а н н ы е нечеткая система типа синглтон Правило i: ЕСЛИ x1 = A1i И x2 = A2i И … И xn = Ani ТО y = ri ; База правил Вывод: R x1 x2 … xn f (x) машина нечеткого вывода µ(x1) 1.0 лп 1 лп 2 лп 3 0.5 0.0 0,825 µ(x2) 1.0 лп 1 0,828 0,831 лп 2 0,834 лп3 лп4 0.5 0.0 10 µ(xn) 1.0 15 лп 1 20 25 лп 2 30 35 лп3 лп4 4 5 … 40 45 лп 5 n ri A ( x j ) i 1 j 1 ji F ( x) R n (x ) A j i 1 j 1 ji x – входной вектор, Aji – лингвистический терм, ri – действительное число (синглтон), n – количество входных переменных, R – количество правил, A – функция принадлежности ji 0.5 0.0 1 2 3 6 7 Функция принадлежности 5 АЛГОРИТМ ИДЕНТИФИКАЦИИ НЕЧЕТКОЙ СИСТЕМЫ Начало Таблица наблюдения Задание количества термов Инициализация параметров нечеткой модели x11 x12 … x1n F(x1) x21 x22 … x2n F(x2) … … … … … xK1 xK2 … xKn F(xK) Инициализация ФП: 1. Алгоритм случайного покрытия 2. Алгоритм равномерного покрытия Инициализация консеквентов правил: Настройка параметров НС Нет 1. Метод поиска ближайшего соседа 2. Метод наименьших квадратов Условие завершения Да Использование модели Конец Настройка параметров: 1. ( , ) - метод эволюционной стратегии 2. ( ) - метод эволюционной стратегии 6 АЛГОРИТМ ВОССТАНОВЛЕНИЯ ДАННЫХ X1 X2 ... Xn-1 Xn 1 а11 а12 . * а1n 2 а21 * . а2n-1 а2n … . . . . . m аm1 аm2 . аmn-1 amn Начало Таблица наблюдений с пропусками Разделение ТН на полную и с пропусками Задание параметров НС и метода ЭС Инициализация НС и ее настройка методом ЭС Введение записи с пропуском и восстановление пропуска X1 X2 X3 ... Xn-1 Xn 1 а11 а12 а13 . a1n-1 а1n 2 а21 а22 а23 . а2n-1 а2n … . . . . . . m am1 аm2 аm3 . аmn-1 amn Нет Условие завершения Да Вывод таблицы с восстановленными значениями Выход 7 СРАВНЕНИЕ АЛГОРИТМА ВОССТАНОВЛЕНИЯ С АНАЛОГАМИ Постановка задачи: восстановить пропущенные значения в таблице о вязких парафинистых нефтях, содержащей 141 запись по 5 характеристикам и сравнить результаты с аналогами: Наименование метода СКО Метод ближайших соседей 9,5997 Метод безусловных средних 5,966 2) температура застывания (◦С); Метод главных компонент 2,835 3) содержание асфальтенов (мас.%); ZET метод 1,457 4) плотность (г/см3); Классическая НС+ЭС 0,678 5) содержание общей серы (мас. %). НС с заданной структурой +ЭС 0,294 1) содержание твердого парафина (мас. %); 8 АЛГОРИТМ ФАКТОРНОГО АНАЛИЗА Начало Вход: таблица без пропусков 1 X1 а11 X2 а12 X3 а13 ... Xn-1 . a1n-1 Xn а1n 2 … m а21 . am1 а22 . аm2 а23 . аm3 . . . а2n-1 . аmn- а2n . amn 1 Таблица наблюдений Нормирование данных. Вычисление матрицы корреляции. Вычисление собственных чисел и векторов (разложение Холецкого и LU-Разложение) Выявление наиболее значимых факторов и построение пространственных графиков Выход: 1) Таблица собственных чисел и собственных векторов; 2) График собственных чисел; 3) Структура данных, представленная в пространстве двух факторов; 4) Гистограммы распределения нагрузки на факторы. 5) Дендрограмма связей признаков Построение дендрограммы, Вычисление факторных нагрузок для гистрограмм Применение вращения «Варимакс» Нет Условие завершения Да Вывод табличных результатов и их графические отображения Выход 9 АЛГОРИТМ КЛАССИФИКАЦИИ Вход: таблица собственных векторов и количество кластеров; Условие окончания: Не изменяющиеся значение центра масскластеров Выход: графическое отображение изучаемого объекта в пространстве выбранных факторов, распределенных по кластерам. Начало Таблица собственных векторов Приписывание случайным образом номера кластера каждому элементу и определение центра масс каждого кластера Вычисление расстояния до центра масс кластера от каждого элемента Приписывание элементов к новому кластеру по принципу минимального расстояния Определение центра масс каждого кластера Нет Условие завершения Да Вывод результатов Выход 10 АРХИТЕКТУРА ПРОГРАММНОГО КОМПЛЕКСА Среда разработки: Microsoft Visual Studio 2012 Модуль «Моделирование» Данные Модуль интерфейсов Модуль «Восстановление» Язык программирова ния: С# Модуль «Анализ» ПО ГИС ArcGis 9.x Цифровые карты Свидетельство об официальной регистрации программы для ЭВМ №2013619931 11 12 ДАННЫЕ ДИСТАНЦИОННОГО ЗОНДИРОВАНИЯ ЗЕМЛИ Космические снимки LANDSAT 1. Глобальная цифровая модель рельефа (Global Digital Elevation Model – GDEM) 2. Радарная топографическая съемка SRTM (Shuttle radar topographic mission) Продукты TERRA/MODIS: •MOD11A1 – температура поверхности Земли, •MOD12Q1 – классификация типов земной поверхности и их изменений, • MOD13Q1 - вегетационный индекс за 16 -дневный период, • MOD14A1 – данные по тепловым аномалиям . База данных космических съемок: http://earthexplorer.usgs.gov Центр обработки данных NASA: http://ladsweb.nascom.nasa.gov 13 Получение данных: Данные доступны бесплатно через систему WIST (Warehouse Inventory Search Tool). 14 КОЛЛЕКЦИЯ ИСПОЛЬЗУЕМЫХ КОСМИЧЕСКИХ СНИМКОВ № Тип снимков Пространственное Период разрешение (м) съемки 15-30 1999-2007 1. Landsat ETM 2. Landsat TM 30 2007 3. TERRA ASTER GDEM 30 1999-2003 4. TERRA/ MODIS продукт MOD11A1 2009 -2012 5. TERRA/ MODIS продукт MОD12Q1 2009 6. TERRA/ MODIS продукт MOD13Q1 7. TERRA/ MODIS продукт MOD14A1 250 - 1000 2000-2012 2007-2010 15 15 СХЕМА АНАЛИЗА КОСМИЧЕСКИХ СНИМКОВ ДЛЯ ПРОВЕДЕНИЯ МОНИТОРИНГОВЫХ ИССЛЕДОВАНИЙ КС Landsat Продукты Terra/MODIS Цифровые модели рельефа Классификация и векторизация Преобразование формата и размерности данных Моделирование основных характеристик потоков воды и водосборов Геопространственный анализ 16 КАРТЫ РАСТИТЕЛЬНОГО ПОКРОВА И АНТРОПОГЕННЫХ ОБЪЕКТОВ С ИСПОЛЬЗОВАНИЕМ ПРОДУКТА MОD12Q1 И КС LANDSAT Рисунок 1 Рисунок 2 17 ВЫЯВЛЕНИЕ АНОМАЛЬНЫХ ЗНАЧЕНИЙ ТЕМПЕРАТУРЫ ПОВЕРХНОСТИ С ИСПОЛЬЗОВАНИЕМ ПРОДУКТА MОD14A1 И КС LANDSAT 18 ОЦЕНКА СОСТОЯНИЯ РАСТИТЕЛЬНОГО ПОКРОВА С ИСПОЛЬЗОВАНИЕМ ПРОДУКТА MOD13Q1 Рисунок 1 - Средние значения NDVI за 2000-2012гг. для типологических единиц растительного покрова и механически нарушенных участков: 1 - хвойный лес, 2 - мелколиственный лес, 3 – пойменные экосистемы, 4 – моховые и травяные болота, 5- вторичная растительность на месте механических нарушений лесов и болот, 6 – техногенные грунты коридоров нефтепроводов Min NDVI Май а) Установлено, что наименьшие значения NDVI соответствуют пойменной растительности в мае 2007 г. (рис. 1 а), что объясняется фактом обводнения поймы реки Оби на Ватинском и Советском месторождениях. Наибольшие значения NDVI соответствуют темнохвойным и мелколиственным лесам в июле 2000, 2001 и 2007 гг. (рис. 1 б), что означает хорошее (не угнетенное) состояние растительности. Max NDVI Июль б) Min Н Сентябрь в) Установлено, что самая высокая неоднородность территории наблюдается в мае 2007 г., где Н=0,19, что объясняется наиболее низкими значениями коэффициентов NDVI и их наибольшей вариабельностью по типам растительного покрова и техногенно нарушенным участкам в 2007 г. Рисунок 2 – Результаты расчета коэффициента энтропии (Н) за вегетационный период 2000-2012 гг. 19 Спасибо за внимание! 20