Анализ пространственных данных. В отличие от случайных, пространственные переменные непрерывны от точки к точке, но изменения их настолько сложны, что они не могут быть описаны какой-либо регулярной детерминированной функцией. Значения пространственной переменной известны только благодаря пробам, которые берутся в определенных местах. Размер, вид (ФОРМА), ориентация и пространственное размещение этих проб составляют базу пространственной переменной. Эта переменная при изменении хотя бы одного из этих параметров будет иметь различные характеристики. Геометрия сети наблюдений Одномерная Двумерная (площадная) Трёхмерная (объёмная) Равномерная Кратная Неравномерная Размер области наблюдения при увеличении размера области уменьшается дисперсия величин Ориентировка области измерений При различной ориентировке линейных или цилиндрических областей в анизотропной среде можно получить разные результаты. Математическое моделирование геологического поля ставит своей целью описание поведения пространственной переменной по имеющимся результатам наблюдений, а также прогнозирование ее значений в заданных точках или областях геологического поля. n Z S0 i Z Si i 1 S5 S1 S2 S0 S3 S4 Z S0 - искомое значение для точки S0 n - число опорных точек, находящихся в окрестности искомой точки и используемых в вычислениях. i - весовой коэффициент i -ой точки Z Si - измеренное значение в точке Si n i 1 i 1 Методы интерполяции различаются способом (и результатом) вычисления весовых коэффициентов. Математические модели геологических полей делятся на детерминированные и вероятностные. В детерминированных моделях предполагается, что пространственная переменная является неслучайной функцией координат и однозначно зависит от местоположения пунктов измерений. Среди детерминированных моделей можно выделить модели линейные, полиномиальные, обратных расстояний и сплайн-модели. В вероятностных моделях предполагается, что значения пространственной переменной (в том числе и в пунктах измерений) содержат элементы случайности. Различают две группы вероятностных математических моделей: случайные функции и геостатистические модели. Случайные функции основаны на предположении о том, что значения пространственной переменной (х) испытывают случайные колебания δ(х) около неслучайной составляющей, называемой математическим ожиданием m(x): (х) = m(x) + (х). Геостатистические модели содержат предположение о том, что случайный результат измерений вызван случайным расположением пунктов наблюдений. При этом остается неизменным средний квадрат разности между результатами измерений в пунктах, отстоящих друг от друга на шаг h. ДЕТЕРМИНИРОВАННЫЕ МОДЕЛИ ГЕОЛОГИЧЕСКИХ ПОЛЕЙ. Линейная интерполяционная модель В основе модели лежит предположение о том, что между пунктами измерений значения пространственной переменной меняются по закону прямой линии. Для линии: Для площади : Для объёма : v х х1 (v2 v1 ) v1 х2 х1 v ax by c v ax by cz d угол азимут = arctg(–b/a), падения падения y arctg а 2 b 2 Метод глобального полинома. Метод глобального полинома строит полностью детерминированную поверхность, которая является математической функцией координат. Не является точным интерполятором. Z S 0 f ( xi , yi ) i В качестве функции обычно используются полиномы низких степеней, реже тригонометрические функции (двойной ряд Фурье). f ( xi , yi ) c0 c1 xi c2 yi c3 xi2 c4 yi2 c5 xi yi c6 xi3 c7 yi3 c8 xi2 yi c9 xi yi2 .... IDW Глобальный полином 2 Разность = IDW - полином Используется в качестве грубого фильтра, в геологии - для поиска региональных закономерностей, геохимического и геофизического фона, выделение аномальных участков (анализ поверхности тренда). Вычисленные поверхности очень чувствительны к экстремальным значениям (очень низким или очень высоким, особенно по краям изучаемой территории) Критерием выбора наилучшего порядка полинома, как и любой другой аппроксимирующей функции, является дисперсия случайных отклонений фактических значений от теоретических с учетом степеней свободы k, k2 n δ2 nk Количество степеней свободы k равно количеству постоянных коэффициентов в аппроксимирующей функции, в которой n – число наблюдений. Так, в полиноме первой степени (в уравнении плоскости) три постоянных коэффициента f ( xi , yi ) c0 c1 xi c2 yi Метод локального полинома. Метод локального полинома строит поверхность, используя скользящее окно (локальную область, которая последовательно перемещается по площади). Значение в центральной точке области оценивается на основании детерминированной функции (обычно полиноминальной), которая рассчитывается по опорным точкам, находящимся в этой области. Дополнительно, могут использоваться весовые коэффициенты, зависящие от расстояния между оцениваемой точкой и опорными. Локальные IDW 25% 50% полиномы 75% Модель обратных расстояний. В основу модели положена идея о том, что влияние измерений убывает обратно пропорционально квадрату расстояния r от пункта измерения (как в законе всемирного тяготения или в электрическом поле заряженных частиц), поэтому модель часто называют потенциальной. Интерполяция методом взвешенных расстояний (IDW – Inverse Distance Weighted) n p d i0 i d i0p di0 – расстояние между искомой точкой S0 и i-ой опорной точкой, p – показатель степени. i 1 При p = 1: S2 1 1 S1 S3 2 3 1 2 1 1 1 2 1 1 0,5 / 2,5 0,2 2 1 / 2,5 0,4 1 1 / 2,5 0,4 Оптимальное значение степени p определяется путем минимизации среднеквадратичной ошибки вычислений, которая рассчитывается при перекрестной проверке (каждая опорная точка исключается из В методе IDW максимальные и минимальные значения на проинтерполированной поверхности могут иметь только опорные точки. вычислений и сравнивается с проинтерполированным значением для этого местоположения). Поиск ближайших опорных точек. Поверхность, построенная по методу взвешенных расстояний (IDW), зависит от выбора степени (p) и способа поиска соседей. Метод взвешенных расстояний - это точный интерполятор, при котором значения в опорных точках сохраняются на проинтерполированной поверхности. Результирующая поверхность чувствительна к кластеризации и присутствию в данных экстремальных значений. Метод IDW лучше работает, если опорные точки равномерно распределены по территории (не кластеризованы). Триангуляция с линейной интерполяцией. Триангуляция IDW Триангуляция с линейной интерполяцией реализует технику ручного построения изолиний. По опорным точкам строится сеть треугольников Делоне, а затем проводится линейная интерполяция значений (каждый треугольник рассматривается как наклонная плоскость, положение вершин которой определяются координатами X,Y и значением оцениваемой переменной (она выполняет роль координаты высоты). Метод является точным интерполятором. Радиальные базисные функции. Радиальные базисные функции (Radial basis functions RBF) это ряд точных методов интерполяции (плоский сплайн, сплайн с натяжением, полностью регуляризованный сплайн, функция мультиквадриков, и обратный мультиквадрик). Радиальные базисные функции (RBF) Взвешенные расстояния (IDW) Функции дают хорошие результаты для плавно меняющихся поверхностей, таких как рельеф. Эти методы не подходят в тех случаях, когда на поверхности происходит резкое изменение значений на коротком расстоянии по горизонтали и в тех случаях, когда вы предполагаете, что в исходных данных могут быть ошибки или неточности. Радиальные базисные функции формируются над каждой опорной точкой. Интерполированное значение находится как взвешенное среднее значение функций: w1f1 + w2f2+ w3f3 +…. Сплайн-модель Сплайн – это кусочно-непрерывная гладкая функция, состоящая из множества полиномиальных функций третьего порядка, плавно переходящих друг в друга. ВЕРОЯТНОСТНЫЕ МОДЕЛИ ГЕОЛОГИЧЕСКИХ ПОЛЕЙ Модель на основе случайной функции Основой случайной функции служит предположение, что измеренные значения являются случайными функциями координат и содержат две составляющие: математическое ожидание m(x) (закономерная изменчивость, или тренд) и случайные колебания (x) относительно его Если математическое ожидание – величина постоянная, то случайная функция называется стационарной, в противном случае – нестационарной. График случайной функции. (точки измерений имеют случайные отклонения от плавной линии математического ожидания). Случайная функция имеет три главные характеристики: математическое ожидание, дисперсию случайных колебаний и автокорреляционную функцию. Математическое ожидание может быть выделено как - тренд, заданный на основе теоретических соображений (зависимость плотности от состава руды, кривая радиоактивного распада); - эмпирическим способом, чаще всего в виде полинома; - путем сглаживания исходных данных способом скользящего окна; - гармоническим анализом Если из нестационарной случайной функции вычесть математическое ожидание, то она превратится в стационарную с нулевым математическим ожиданием. Дисперсия случайной функции равна дисперсии отклонений (х): 1 n 2 D δ ( хi ) n i 1 Автокорреляционная функция : 1 m δ( xi h)δ( xi ) m K (h) i 1 D Геостатистическая модель. Главная задача геостатистики - связать результаты, полученные по одной базе (например, образцы керна), с результатами, полученными для другой базы (например, эксплуатационные блоки). В основе геостатистической группы математических моделей лежит гипотеза о том, что случайный результат измерений обусловлен случайным расположением сети наблюдений. При перемещении сети наблюдений результаты измерений будут другие, но сохраняется одна характеристика – средний квадрат разности между результатами измерений на расстоянии h. На основе этой гипотезы введена вариограмма γ(h) – главная характеристика в геостатистике. Она равна полусумме среднего квадрата разности между результатами измерений при шаге h и выражается формулой 1 n 2 γ ( h) ( x h) ( x) 2n i1 Сумма вариограммы и ковариации (автокорреляционной функции) равна дисперсии исходных данных: ( h) K ( h) D Построение эмпирической вариограммы. 45° Для построения эмпирической вариограммы используется бининг – группировка пар точек по расстоянию и направлению. Каждая группа – бин – содержит все пары точек, расстояние между которыми и азимут от одной точки на другую попадают в границы этого бина (например, точки, отстоящие друг от друга на расстоянии от 10 до 15 м в направлении от 30º до 60º - этот бин выделен на рисунке штриховкой) Интервал расстояний для группировки называется лагом. На рисунке показан бининг с лагом 5м. Бины усредняются, и среднее значение для пар каждого бина наносится на вариограмму. Выбор размера лага. Выбор размера лага оказывает важное влияние на вид эмпирической вариограммы. Если размер лага слишком велик, корреляция на микроуровне может не проявиться на графике. Если размер лага слишком мал, может быть сформировано много пустых бинов, и количество включенных в бин опорных точек будет слишком мало для получения репрезентативных “средних значений” для бина. Эмпирическое правило состоит в том, что произведение размера лага на количество лагов должно равняться примерно половине максимального расстояния между парами точек. (Лаг * n = Smax/2). Радиус влияния подобранной модели слишком Оптимальный размервариограммы лага. велик мал относительно относительно области области отображения отображения эмпирической эмпирической вариограммы размер лага следует уменьшить. увеличить. Размер лага слишком мал. Сформировано много пустых бинов Подбор модели для эмперической вариограммы. После того, как каждая пара точек (после бининга) нанесена на график, необходимо подобрать модель вариограммы. (Иначе существует риск получить отрицательную дисперсию, которая приведет к неприемлемым результатам). γ (полудисперсия) Для описания моделей вариограмм используются определенные параметры – радиус влияния, порог, эффект самородка. Частичный порог Порог Самородок Радиус влияния Расстояние Радиус влияния - расстояние, при котором модель начинает выравниваться. Опорные точки, отстоящие друг от друга на расстояние, меньшее, чем радиус влияния, пространственно коррелируют, в то время как точки, отстоящие друг от друга на расстояние, большее, чем радиус влияния, - нет. Порог - значение γ, которое модель вариограммы принимает в точке радиуса влияния. Эффект самородка - разница между измерениями при бесконечно малых расстояниях (часто проявляется на золоторудных месторождениях, когда в одну пробу может попасть крупный самородок, а другая проба, отобранная рядом, покажет лишь убогое содержание золота). γ (полудисперсия) Частичный порог Порог Самородок Радиус влияния Расстояние Поведение в начале (эффект самородка и наклон) играет критическую роль в подборе модели вариограммы. Наклон можно оценить по первым трем четырем значениям вариограммы. Эффект самородка можно оценить экстраполяцией кривой в начало системы координат. Первое значение вариограммы для надежности вычисляется по возможно большему количеству пар точек. (Бурение дополнительных скважин на небольших расстояниях может помочь получить лучшее значение эффекта самородка). Радиус влияния обычно можно оценить визуально. Порог характеризуется значением, где вариограмма стабилизируется (становится горизонтальной). Для стационарных переменных порог совпадает с общей дисперсией проб, но иногда это не верно, так как в исходных данных присутствуют тренды большой протяженности. Если присутствует более одной зоны влияния (несколько структур), то вспомогательные зоны можно различить визуально в местах, где вариограмма меняет кривизну. Подгонка обычно делается интерактивно с использованием какого-нибудь графического терминала. Общая рекомендция сводится к тому, чтобы выбирать наиболее простые модели, избегать многоструктурных моделей, не усердствовать с уменьшением эффекта самородка. Глобальные тренды и анизотропия. Существуют два типа направленных составляющих, которые должны быть устранены перед созданием модели вариограммы : глобальные тренды и анизотропия. Глобальный тренд - это доминирующий процесс, который оказывает детерминистское влияние на все измерения. Глобальный тренд может быть представлен математической формулой (например, полиномом) и вычтен из значений в опорных точках, а затем вновь добавлен после выполнения интерполяции. Этот процесс носит название “вычитание (или удаление) тренда”. Анизотропия – это неоднородность свойств по разным направлениям. Различают геометрическую и зональную анизотропию. Геометрическая (аффинная) Зональная анизотропия Порог Вариограммы, построенные для разных направлений имеют приблизительно одинаковый уровень порога, но разные зоны влияния. Вариограммы, построенные для разных направлений, выходят на пороги разного уровня. Геометрическую анизотропию можно устранить путём аффинных преобразований (заданием эллипса анизотропии, короткая ось которого совпадает с направлением наибольшей изменчивости, а длинная – с направлением наименьшей). Способ устранения зональной анизотропии зависит от причин её появления. Причиной зональной анизотропии может быть зональное строение толщи, использование данных, полученных по разным основаниям, эффект пропорциональности. Использование данных, полученных по разным основаниям. На рисунке изображены вариограммы, построенные по бороздовым, задирковым и валовым пробам. Многотонные валовые пробы имеют существенно меньшую дисперсию, чем килограммовые борозды. Использование данных, полученных по одному основанию является одним из важнейших требований геостатистических методов интерполяции. Эффект пропорциональности. 2000 1800 1600 1400 Дисперсия 1200 1000 800 600 400 200 0 -200 -5 00 0 500 1000 1500 2000 2500 3000 3500 4000 4500 Квадрат среднего значения Считается, что вариограмма имеет пропорциональный эффект, когда ее значение (особенно ее порог) пропорционально квадрату локального среднего содержания. Это часто встречается у логнормально распределенных данных. Вариограммы для различных зон имеют одинаковую форму, но порог в богатых зонах намного больше, чем в бедных. При зональном строении толщи можно попытаться выделить отдельные зоны и анализировать их раздельно. Если анизотропия связана с эффектом пропорциональности, можно перейти к т.н. относительным вариограммам. В них, вместо полудисперсии используется своеобразный коэффициент вариации, который получается в результате деления значений каждой локальной вариограммы на квадрат локального среднего содержания и затем усреднения полученных величин в процессе подгонки вариограммной модели. Функции для моделирования вариограмм. Функции для моделирования вариограмм должны обладать определёнными свойствами. В перечень допустимых функций входят Линейная, Круговая, Сферическая, Тетрасферическая, Пентасферическая, Экспоненциальная, Гауссова, Рациональная квадратическая, Эффекта дыры. Наибольшее влияние на результат кригинга оказывает поведение модельной вариограммы вблизи начала координат. Чем круче кривая у начала координат, тем большее влияние на искомый результат оказывают ближайшие соседи (опорные точки). В итоге результирующая поверхность будет менее гладкой. Сферическая Сферическая модель имеет 2 параметра – радиус влияния и порог, равный общей дисперсии признака. Математически сферическая модель описывает левый верхний квадрант эллипса. Экспоненциальная Экспоненциальная модель похожа на сферическую, но вблизи начала координат она восходит сначала более круто, чем сферическая, а затем, наоборот, имеет более пологий подъём и выходит на порог на расстоянии 3-х радиусов влияния Функции для моделирования вариограмм. Эффект самородка Кригинг становится точным интерполятором, если эффект самородка = 0 Кригинг может быть как точным интерполятором, так и сглаживающим. Степень сглаживания зависит от величины эффекта самородка. Если эффект самородка = 0 (отсутствует), значения в опорных точках сохраняются на результирующей карте. Сглаживающая интерполяция. Эффект самородка >0 Точная (жёсткая) интерполяция. Эффект самородка =0 Анизотропия Интерполяция без учёта анизотропии Интерполяция с учётом анизотропии Модели Кригинга. (Ординарный, простой, универсальный, индикаторный, вероятностный, кокригинг) Общая модель кригинга Z x , y m[ x , y ] xy Zx,y – значение в точке с координатами x,y m[x,y] – математическое ожидание ex,y – случайная ошибка в точке с координатами x,y Ординарный кригинг. (m – неизвестная постоянная) Неизвестная константа m показана пунктирной линией. Предполагается, что значения на изучаемом участке являются результатом автокорреляции между ошибками (εx,y) при неизменном среднем (mx,y = const). Степень корреляции между ошибками не зависит от конкретного местоположения точек, а определяется только их взаимным расположением расстоянием и (если используется анизотропия) направлением. Для расчёта (авто)корреляции между точками используется модель вариограммы. Z x , y m[ x , y ] xy Простой кригинг. (m – известная постоянная) Известная константа m показана сплошной жирной линией. Поскольку известна m, известно и точное значение εx,y. Автокорреляция рассчитывается по известным значениям εx,y (а не по их оценкам, как в ординарном кригинге). Предположение, что вам будет точно известно значение m , часто является нереалистичным. Однако, иногда имеет смысл предположить, что модель, имеющая физический смысл, дает известный тренд (напр., фоновое содержание элемента). Тогда вы можете взять разницу между значениями этой модели и измеренными значениями, которая носит название остатков, и применить метод простого кригинга к этим значениям остатков, приняв за известное, что тренд в этих остатках равен нулю. Простой кригинг Ординарный кригинг Универсальный кригинг. Z x , y m[ x , y ] xy (m – детерминистская функция координат) m (x,y) На рисунке m - полиномом второго порядка (пунктирная линия) m(s) = b0 +b1x(s) + b2x2(s) . Ошибки εx,y (остаток после вычитания полинома из исходных данных) считаются автокоррелирующими и используются для построения вариограммы (в отличие от тренд-анализа, в котором ошибки рассматриваются как независимые величины). Простой кригинг Ординарный кригинг Универсальный кригинг Индикаторный кригинг. I(s) = m + e(s) (Ординарный кригинг для бинарной переменной). Бинарные данные могут быть созданы для непрерывных данных с использованием порогового (критического) значения, либо значения в опорных точках могут изначально, при выполнении наблюдений, фиксироваться как 0 или 1. Значения, полученные в результате интерполяции по методу индикаторного кригинга , находятся в диапазоне между 0 и 1 и могут быть интерпретированы, как вероятности того, что переменная будет равна 1 или попадет в класс, обозначенный как 1. Карты вероятностей превышения среднего значения. Сглаживающая интерполяция. Эффект самородка >0 Точная интерполяция. Эффект самородка =0 Кокригинг. Кокригинг использует дополнительные переменные для более точного вычисления искомых значений основной переменной. При этом учитывается и автокорреляция переменных и их взаимная корреляция. Однако, если корреляция между основной и дополнительными переменными плохая, результат может оказаться хуже, чем при использовании ординарного кригинга. Вероятностный кригинг. Вероятностный кригинг пытается делать то же самое, что и индикаторный кригинг, но для того, чтобы выполнить работу лучше, он использует кокригинг. В качестве второй переменной используется небинаризованное значение первой переменной. Перекрёстная проверка Для модели, которая точно интерполирует значения, средняя ошибка (Mean) должна быть близка к 0, среднеквадратичная ошибка (Root-Mean-Square) и среднее из стандартных ошибок интерполяции (Average Standard Error) должно иметь наименьшее из возможных значение, Среднеквадратичная нормированная ошибка (Mean Standardizaed) должна быть близка к 1. Сравнение методов интерполяции