Перемитина_2014

реклама
Институт химии нефти СО РАН
Научно-исследовательский информационный центр
АКТУАЛЬНОСТЬ
2
ЦЕЛЬ И ЗАДАЧИ РАБОТЫ
Целью является разработка алгоритмов и комплекса программ анализа
многомерных данных о различных свойствах природных объектов,
основанных на сочетании методов нечеткого моделирования, многомерного
статистического анализа и методов пространственного анализа с
применением геоинформационных систем
Задачи:
1) Разработка методики проведения комплексного анализа многомерных
неполных данных с применением нечеткого и статистического
моделирования.
2) Разработка алгоритмов комплексного анализа многомерных неполных
данных.
3) Проведение исследований разработанных алгоритмов на типовых
контрольных примерах и тестовых выборках.
4) Проектирование и разработка программного комплекса.
3
РАЗРАБОТКА МЕТОДИКИ КОМПЛЕКСНОГО АНАЛИЗА НА
ОСНОВЕ НЕЧЕТКИХ И СТАТИСТИЧЕСКИХ АЛГОРИТМОВ
Объекты исследования:
таблицы «объект-свойства»
Моделирование объекта исследования
Восстановление пропущенных значений
Проведение факторного анализа с вращением и
классификации данных
Отображение
результатов
Экспорт результатов в ГИС
Отображение результатов в ГИС
4
НЕЧЕТКАЯ СИСТЕМА С ЗАДАННОЙ СТРУКТУРОЙ
В
х
о
д
н
ы
е
д
а
н
н
ы
е
нечеткая система типа синглтон
Правило i:
ЕСЛИ x1 = A1i И x2 = A2i И … И xn = Ani ТО
y = ri ;
База правил
Вывод: R
x1
x2
…
xn
f (x)
машина
нечеткого
вывода
µ(x1)
1.0
лп 1
лп 2
лп 3
0.5
0.0
0,825
µ(x2)
1.0
лп 1
0,828
0,831
лп 2
0,834
лп3
лп4
0.5
0.0
10
µ(xn)
1.0
15
лп 1
20
25
лп 2
30
35
лп3
лп4
4
5
…
40
45
лп 5
n
 ri    A ( x j )
i  1 j  1 ji
F ( x) 
R n
   (x )
A
j
i  1 j  1 ji
x – входной вектор,
Aji – лингвистический терм,
ri – действительное число (синглтон),
n – количество входных переменных,
R – количество правил,

A – функция принадлежности
ji
0.5
0.0
1
2
3
6
7
Функция принадлежности
5
АЛГОРИТМ ИДЕНТИФИКАЦИИ НЕЧЕТКОЙ СИСТЕМЫ
Начало
Таблица наблюдения
Задание количества термов
Инициализация параметров
нечеткой модели
x11
x12
…
x1n
F(x1)
x21
x22
…
x2n
F(x2)
…
…
…
…
…
xK1
xK2
…
xKn
F(xK)
Инициализация ФП:
1. Алгоритм случайного покрытия
2. Алгоритм равномерного покрытия
Инициализация консеквентов правил:
Настройка параметров НС
Нет
1. Метод поиска ближайшего соседа
2. Метод наименьших квадратов
Условие завершения
Да
Использование модели
Конец
Настройка параметров:
1.
(  ,  ) - метод эволюционной стратегии
2. (    ) - метод эволюционной стратегии
6
АЛГОРИТМ ВОССТАНОВЛЕНИЯ ДАННЫХ
X1
X2
...
Xn-1
Xn
1
а11
а12
.
*
а1n
2
а21
*
.
а2n-1
а2n
…
.
.
.
.
.
m
аm1
аm2
.
аmn-1
amn
Начало
Таблица наблюдений с
пропусками
Разделение ТН на полную и с
пропусками
Задание параметров НС и метода ЭС
Инициализация НС и ее настройка
методом ЭС
Введение записи с пропуском и
восстановление пропуска
X1
X2
X3
...
Xn-1
Xn
1
а11
а12
а13
.
a1n-1
а1n
2
а21
а22
а23
.
а2n-1
а2n
…
.
.
.
.
.
.
m
am1
аm2
аm3
.
аmn-1 amn
Нет
Условие завершения
Да
Вывод таблицы с восстановленными
значениями
Выход
7
СРАВНЕНИЕ АЛГОРИТМА ВОССТАНОВЛЕНИЯ С
АНАЛОГАМИ
Постановка задачи: восстановить пропущенные значения в таблице о вязких
парафинистых нефтях, содержащей 141 запись по 5 характеристикам и сравнить
результаты с аналогами:
Наименование метода
СКО
Метод ближайших соседей
9,5997
Метод безусловных средних
5,966
2) температура застывания (◦С);
Метод главных компонент
2,835
3) содержание асфальтенов (мас.%);
ZET метод
1,457
4) плотность (г/см3);
Классическая НС+ЭС
0,678
5) содержание общей серы (мас. %).
НС с заданной структурой +ЭС
0,294
1) содержание твердого парафина (мас. %);
8
АЛГОРИТМ ФАКТОРНОГО АНАЛИЗА
Начало
Вход: таблица без пропусков
1
X1
а11
X2
а12
X3
а13
... Xn-1
. a1n-1
Xn
а1n
2
…
m
а21
.
am1
а22
.
аm2
а23
.
аm3
.
.
.
а2n-1
.
аmn-
а2n
.
amn
1
Таблица наблюдений
Нормирование данных.
Вычисление матрицы корреляции.
Вычисление собственных чисел и векторов
(разложение Холецкого и LU-Разложение)
Выявление наиболее значимых факторов и
построение пространственных графиков
Выход:
1) Таблица собственных чисел и
собственных векторов;
2) График собственных чисел;
3) Структура данных,
представленная в пространстве
двух факторов;
4) Гистограммы распределения
нагрузки на факторы.
5) Дендрограмма связей признаков
Построение дендрограммы,
Вычисление факторных нагрузок для
гистрограмм
Применение вращения «Варимакс»
Нет
Условие завершения
Да
Вывод табличных результатов и их
графические отображения
Выход
9
АЛГОРИТМ КЛАССИФИКАЦИИ
Вход: таблица собственных векторов и
количество кластеров;
Условие окончания:
Не изменяющиеся значение центра масскластеров
Выход: графическое отображение
изучаемого объекта в пространстве
выбранных факторов, распределенных
по кластерам.
Начало
Таблица собственных векторов
Приписывание случайным образом номера
кластера каждому элементу и определение
центра масс каждого кластера
Вычисление расстояния до центра масс
кластера от каждого элемента
Приписывание элементов к новому кластеру
по принципу минимального расстояния
Определение центра масс каждого кластера
Нет
Условие завершения
Да
Вывод результатов
Выход
10
АРХИТЕКТУРА ПРОГРАММНОГО КОМПЛЕКСА
Среда
разработки:
Microsoft Visual
Studio 2012
Модуль
«Моделирование»
Данные
Модуль интерфейсов
Модуль
«Восстановление»
Язык
программирова
ния: С#
Модуль «Анализ»
ПО ГИС ArcGis 9.x
Цифровые карты
Свидетельство об официальной регистрации программы для ЭВМ №2013619931
11
12
ДАННЫЕ ДИСТАНЦИОННОГО ЗОНДИРОВАНИЯ
ЗЕМЛИ
Космические снимки
LANDSAT
1. Глобальная цифровая модель рельефа
(Global Digital Elevation Model – GDEM)
2. Радарная топографическая съемка
SRTM (Shuttle radar topographic mission)
Продукты TERRA/MODIS:
•MOD11A1 – температура поверхности Земли,
•MOD12Q1 – классификация типов земной поверхности и их изменений,
• MOD13Q1 - вегетационный индекс за 16 -дневный период,
• MOD14A1 – данные по тепловым аномалиям .
База данных космических съемок: http://earthexplorer.usgs.gov
Центр обработки данных NASA: http://ladsweb.nascom.nasa.gov
13
Получение данных:
Данные доступны бесплатно через систему WIST (Warehouse Inventory Search Tool).
14
КОЛЛЕКЦИЯ ИСПОЛЬЗУЕМЫХ КОСМИЧЕСКИХ СНИМКОВ
№ Тип снимков
Пространственное
Период
разрешение (м)
съемки
15-30
1999-2007
1.
Landsat ETM
2.
Landsat TM
30
2007
3.
TERRA ASTER GDEM
30
1999-2003
4.
TERRA/ MODIS продукт MOD11A1
2009 -2012
5.
TERRA/ MODIS продукт MОD12Q1
2009
6.
TERRA/ MODIS продукт MOD13Q1
7.
TERRA/ MODIS продукт MOD14A1
250 - 1000
2000-2012
2007-2010
15
15
СХЕМА АНАЛИЗА КОСМИЧЕСКИХ СНИМКОВ ДЛЯ
ПРОВЕДЕНИЯ МОНИТОРИНГОВЫХ ИССЛЕДОВАНИЙ
КС Landsat
Продукты
Terra/MODIS
Цифровые модели
рельефа
Классификация и
векторизация
Преобразование
формата и размерности
данных
Моделирование основных
характеристик
потоков воды и водосборов
Геопространственный анализ
16
КАРТЫ РАСТИТЕЛЬНОГО ПОКРОВА И АНТРОПОГЕННЫХ ОБЪЕКТОВ
С ИСПОЛЬЗОВАНИЕМ ПРОДУКТА MОD12Q1 И КС LANDSAT
Рисунок 1
Рисунок 2
17
ВЫЯВЛЕНИЕ АНОМАЛЬНЫХ ЗНАЧЕНИЙ ТЕМПЕРАТУРЫ ПОВЕРХНОСТИ
С ИСПОЛЬЗОВАНИЕМ ПРОДУКТА MОD14A1 И КС LANDSAT
18
ОЦЕНКА СОСТОЯНИЯ РАСТИТЕЛЬНОГО ПОКРОВА С ИСПОЛЬЗОВАНИЕМ
ПРОДУКТА MOD13Q1
Рисунок 1 - Средние значения NDVI за 2000-2012гг. для типологических
единиц растительного покрова и механически нарушенных участков:
1 - хвойный лес, 2 - мелколиственный лес, 3 – пойменные экосистемы,
4 – моховые и травяные болота, 5- вторичная растительность на месте
механических нарушений лесов и болот, 6 – техногенные грунты
коридоров нефтепроводов
Min NDVI
Май
а)
Установлено, что наименьшие значения NDVI
соответствуют
пойменной растительности в мае 2007 г. (рис. 1 а), что объясняется
фактом обводнения поймы реки Оби на Ватинском и Советском
месторождениях.
Наибольшие значения NDVI соответствуют темнохвойным и
мелколиственным лесам в июле 2000, 2001 и 2007 гг. (рис. 1 б), что
означает хорошее (не угнетенное) состояние растительности.
Max NDVI
Июль
б)
Min Н
Сентябрь
в)
Установлено, что самая высокая
неоднородность территории
наблюдается в мае 2007 г., где
Н=0,19, что объясняется
наиболее низкими значениями
коэффициентов NDVI и их
наибольшей вариабельностью
по типам растительного
покрова и техногенно
нарушенным участкам в 2007 г.
Рисунок 2 – Результаты расчета коэффициента энтропии (Н) за
вегетационный период 2000-2012 гг.
19
Спасибо за внимание!
20
Скачать