Раздел 3. Вычислительный эксперимент в методах диагностики микро - и наноструктур Разработка методов диагностики и анализа требует проведения большого числа расчётов, целью которых является выяснение возможностей исследуемых методов и их отработка. Варьируемыми при таких расчётах являются модели объектов и измерительных воздействий, их изменяемые и постоянные параметры, различные погрешности измерений и диапазоны измеряемых величин. Эффективность проведения вычислительных экспериментов определяет во многом эффективность разработки и возможностей использования методов. Вычислительный эксперимент можно определить как эксперимент над математической моделью метода исследования объекта. Модель метода исследования объекта представляется совокупностью модели самого объекта, модели взаимодействия объекта и измерительного воздействия с учетом воздействия окружающей среды на процесс измерения. Реализация вычислительного эксперимента состоит в вычислении на ЭВМ параметров модели на основе полученных данных (экспериментальных или модельных), по значениям которых делаются выводы о свойствах объекта исследования. Вычислительный эксперимент дополняет эксперимент натурный, позволяя: проверить соответствие используемых моделей объектам и методам найти оптимальные условия измерений; определить точность и область чувствительности выбранного метода; определить неизвестные параметры объекта по экспериментальным данным натурного эксперимента; установить степень влияния погрешностей измерения на значения определяемых параметров; В отличие от натурного эксперимент вычислительный часто требует меньших затрат ресурсов - оборудования, времени, обслуживающего персонала, обладает прогностическим потенциалом и хорошей воспроизводимостью. 20 §3.1 Основные этапы вычислительного эксперимента Основными этапами вычислительного эксперимента являются: выбор математических моделей объекта и измерительного воздействия; выбор группы априорно заданных параметров, параметров известных из эксперимента и искомых параметров модели; выбор метода определения параметров модели и диапазонов их изменения выбор и реализация алгоритма определения неизвестных параметров; анализ результатов вычислительного эксперимента и выработка решений по их использованию. Основные этапы вычислительного эксперимента выполняются решением так называемых прямой и обратной задач. Решение прямой задачи – имитирует проведение натурного эксперимента и состоит в вычислении значений отклика объекта на воздействие измерительного агента в соответствии с заданной моделью объекта и метода измерений. Прямая задача содержит расчётные формулы, описывающие взаимодействие структуры и средства измерения, априорные сведения о свойствах структуры, параметры метода измерения. Для ясности приведем пример спектрального метода диагностики, основанного на отражении излучения, параметрами метода измерения будут: спектральный диапазон - [λL ; λU] , шаг изменения дины волны - hλ, угол падения излучения - Θ, поляризация, модуляция и мощности падающего и отражённого излучения I0 и I, погрешности Δλ и ΔI. Неизвестными параметрами, например, толщина слоя структуры - dсл и показатель преломления слоя – nсл, параметры подложки считаются известными. В ходе решения прямой задачи выясняется, какой вид будет иметь спектральная зависимость коэффициента отражения излучения R(λ) от структуры в диапазоне [λL ; λU] с шагом hλ при заданных показателе преломления- nсл и толщине слоя - dсл. и находятся численные значения измеряемых величин. Анализ получаемых зависимостей типа R(λ)=I(λ)/I0(λ) следует направить на предварительное выяснение тех особенностей, которые могут негативно повлиять на окончательный результаты измерений. Устранение нежелательных особенностей возможно выбором методов и условий измерений при вариации параметров исследуемой модели объекта. Естественно, что в ходе решения прямой задачи могут быть установлены области высокой чувствительности к определённым параметрам, такой анализ целесообразен, но недостаточен. Вычислительный эксперимент позволяет судить о методе лишь по результатам решения обратной задачи. Решение обратной задачи – проводит определение неизвестных параметров модели объекта исследования по известным «экспериментальным» 21 значениям выбранного метода измерений. Экспериментальные значения, используемые при решении обратной задачи, могут имитироваться в ходе решения прямой задачи или являться данными реального эксперимента . Для спектрального метода измерения решение обратной задачи есть нахождение показателя преломления nсл и толщины слоя dсл по спектральной зависимости R(λ). В ходе вычислительного эксперимента могут быть или должны быть введены в расчёты систематические и случайные погрешности измерения откликов и измерительных воздействий при различных вероятностных законах их распределения. Решив обратную задачу мы получаем искомые значения и можем сопоставить их со значениями, заложенными в расчёты при решении прямой задачи. Мы знаем модель структуры и модель проведения измерений. Вычислительный эксперимент моделирует натурный, но только так, как это было заложено в использованных моделях, алгоритмах и программах решения прямой и обратной задачи. При проведении натурного эксперимента мы заранее не знаем искомых значений. Задавая различные сочетания искомых параметров nсл и dсл, и оценивая расхождение экспериментально измеренных откликов с теми, что рассчитаны в прямой задаче, можно судить об успешности нахождения неизвестных параметров структуры. Вычислительный эксперимент может дать значительно больше представленного в этом упрощённом примере. Могут быть установлены и количественно определены влияние условий отклонения модели от канонической на результаты определения искомых величин. Может быть установлено влияние погрешностей измерений на результаты, так же как и влияние диапазонов измерений и искомых параметров. Могут быть получены сведения о применимости и эффективности различных способов решения обратной задачи, о корректности задачи и т.п. Рекомендовать заранее универсальный способ решения обратной задачи не верно. Однако, выработаны некоторые подходы, следование которым позволяет повысить эффективность усилий, направленных на решение обратной задачи, а, следовательно, и на получение данных диагностики. Далее будет показано, что обратная задача в вычислительном плане, может быть сведена к задаче оптимизации. Поэтому отнесение решаемой обратной задачи к существующему классу оптимизационных задач может дать свои преимущества. А именно, позволит использовать особенности данной задачи с целью построения компактного алгоритма (минимизации затрат машинного времени на решение обратной задачи), максимизации надежности и точности вычислительного метода. 22 §3.2 Обратная задача как задача оптимизации. Метод наименьших квадратов и минимум функции многих переменных Решение обратной задачи можно представить решением задачи поиска оптимума. Для начала постараемся записать задачу определения параметров в общем виде, без привязки к конкретному методу, затем для решения обратной задачи применим метод наименьших квадратов и проведем классификацию задач рассматриваемых в данном разделе. Пусть объектом исследования является простая структура - слой на подложке, метод исследования - спектральная зависимость коэффициента отражения излучения R(λ) от структуры, искомые параметры – показатель преломления слоя - nсл, показатель поглощения слоя - kсл и толщина слоя - dсл, известные параметры объекта – показатель преломления - ns и показатель поглощения подложки - ks ; Измерения проводятся в среде с заданными показателем преломления - nср, и показателем поглощения - kср при нормальных условиях. Измерения проводятся в выбранном спектральном диапазоне ширины L [λ ; λU], где зависимость оптических констант структуры от длины волны излучения незначима, шаг изменения длины волны – Δλ, параметры поляризации излучения обозначим - Pol. Излучение имеет мощность не достаточную для модификации свойств объекта, излучение не модулируется, угол падения излучения Θ - фиксирован. Существует также функция F - математическое описание реакции (ответа) объекта на измерительное воздействие. Запишем в векторном виде группы известных постоянных параметров С , искомых параметров - X и параметров измерительного воздействия, варьируемых в ходе измерения - t (вектор независимых аргументов). ns k s n nсл ср С kср X k L i U сл ti i (3.2.1) Pol dсл ,где L=λL - фиксированная верхняя граница диапазона длин волн, U=λU- фиксированная нижняя граница диапазона длин волн, i= 1.. m – индекс длины волны излучения. Используя введенные обозначения, связь спектральной зависимости коэффициента отражения R ( ) и параметров структуры формально можно записать как 23 R(λ ) F(t , X, C ), i i i 1.. m, (3.2.2) , где F – математическая модель объекта исследования (структуры). Предполагается, что Х и С не зависят от длины волны. Решением обратной задачи для описанного случая является нахождение вектора X при заданном векторе C и измеренной зависимости R(λ). В разобранном случае вектор X состоит из n=3 неизвестных параметров структуры - nсл, kсл dсл. Уравнение (3.2.2) описывает связь определяемых свойств объекта - X и его реакции на измерительное воздействие - R(λ). В качестве метода измерения, помимо спектрального, могут быть выбраны любые другие - угловые, спектрально - угловые, поляризационные, вольтамперные, вольт – фарадные, зондовые и т.д.. Для общности рассмотрения левую часть уравнения 3.2.2, как зависимость, соответствующую методу измерения, обозначим - Yi, где индекс i – обозначает i-e измерительное воздействие. Правая часть 3.2.2 формально остается неизменной, обозначая зависимость ответа на i-e измерительное воздействие от группы постоянных параметров - C и группы неизвестных параметров - X . В уравнении 3.2.2 вектор C можно не указывать явно, помня о его существовании, так как он является вектором постоянных значений в ходе всего метода измерений. В итоге задача запишется Y F(t , X), i i (3.2.3) i 1.. m. В данном разделе примеры всех методов измерений могут быть записаны в виде 3.2.3, поэтому решение обратной задачи для 3.2.3 не ограничивает общности рассмотрения способов решения обратных задач диагностики структур. Если в методе измерения варьируются несколько измерительных воздействий, тогда для каждого i-го значения аргумент t должен быть вектором, здесь и далее будут рассматриваться экспериментальный методы, получающие двухмерные зависимости и потому параметр t будет считаться скалярным. В этом разделе будем считать функцию F нелинейной, что характерно для приводимых далее примеров задач. Если n есть размерность вектора неизвестных параметров X , то при n=1 имеем однопараметровую задачу при n>1 многопараметровую задачу определения свойств объекта. Часто при получении экспериментальной зависимости Yi для нахождения неизвестных параметров X применяют метод наименьших квадратов. Метод наименьших квадратов. Варьируя параметр измерительного воздействия ti , i=1..m получают m эксп соответствующих значений отклика структуры Yi - массив экспериментальных данных. Далее требуется определить вектор неизвестных параметров X на основе сопоставления сконструированной математической модели структуры F (ti , X ) и полученных экспериментальных значений Yiэксп . Во 24 многих случаях неизвестные параметры входящие в X не выражаются отдельно через другие параметры и все неизвестные компоненты приходится определять одновременно. Такое определение может реализовываться настройкой математической модели F (ti , X ) на экспериментальные данные Yiэксп подбором компонент вектора неизвестных параметров X , эту процедуру относят к задачам идентификации. Настройку можно проводить методом наименьших квадратов (МНК) через введенную функцию S [1] m S ( X ) Yi 2 эксп i 1 F (ti , X ) (3.2.4) Заключенная в квадратные скобки разность между модельными и экспериментальными значениями в соответствующих точках называется невязкой. Меньшая невязка показывает лучшее приближение точки модельной к точке экспериментальной кривой. Функционал S как сумма квадратов невязок характеризует в целом близость экспериментальной и модельной зависимостей. Получив массив экспериментальных данных, ведут подбор компонент вектора X добиваясь минимального значения функционала S. Параметры минимизирующие S представляют собой набор определяемых параметров структуры. Как сумма квадратов невязок S принимает неотрицательные значения, а, учитывая, что экспериментальные значения содержат погрешности и отсутствует возможность абсолютно точно провести «наложение» модельной кривой на экспериментальную, можно утверждать, что S>0. Таким образом, решение обратной задачи определения X - вектора неизвестных параметров структуры можно проводить методом наименьших квадратов 3.2.4. Задачи на нахождение минимума или максимума называют оптимизационными. В нашем случае в качестве целевой функции оптимизационной задачи выступает сумма квадратов невязок S (X ) . Независимыми переменными являются компоненты вектора X . Условия, характеризующие допустимые значения X называют ограничениями задачи оптимизации. Значения компонент вектора неизвестных X являются характеристиками реальной структуры (представляя оптические константы, геометрические параметры, фазовый состав и т.п.), следовательно, они могут принимать не все мыслимые значения, а те, что соответствуют некоторым ограничениям. Приводимые далее примеры задач имеют ограничения Lk X k U k k 1,...n (3.2.5) ,где L - вектор ограничений наименьших значений X , U - вектор ограничений наибольших значений X . То есть каждое значение i-го неизвестного параметра лежит в диапазоне, ограниченном Lk и Uk –нижней и верхней границей соответственно. Ограничения вида 3.2.5 называют простыми ограничениями на переменные. Если целевая функция и/или ограничения являются нелинейными, то задача оптимизации относится к задаче нелинейного программирования, в случае их линейности – задача линейного программирования. 25 В итоге решение обратной задачи 3.2.3 при использовании МНК сводится к решению задачи на минимум функции 3.2.4. с ограничениями 3.2.5. Ряд алгоритмов, основанных на МНК будут приведены ниже в §3.3.3 и §3.4.2. Минимум функции многих переменных Размерность функции S - 3.2.4 зависит от размерности n вектора X . Обозначим X ( x1 ,..., xn ) . Минимизация S есть минимизация функции n переменных. Для нахождения минимума S можно пользоваться значениями самой функции, использовать первые или вторые производные функции. Первая производная одномерной функции показывает направление и скорость изменения функции. Положительный знак первой производной показывает возрастание функции, отрицательный - убывание, равенство нулю производной соответствует положению максимума или минимума (экстремума). Равенство нулю первой производной является необходимым условием минимума функции одной переменной, достаточным условием является положительный знак её второй производной. Вторая производная характеризует кривизну функции в некоторой точке, для выпуклых участков производная функции отрицательна, для вогнутых – положительна и равна нулю для точек перегиба функции. Для функции нескольких переменных её первая производная называется градиентом – g и представляет собой вектор частных производных функции по каждой переменной (3.2.6), вторая производная аналогично первой есть совокупность производных от градиента по каждой переменной, которые образуют квадратную матрицу G, называемую матрицей Гессе [1]. S x 1 g( X ) S x n 2S 2 x1 , G( X ) 2 S x x 1 n 2S x1xn 2S xn xn (3.2.6) Для существования градиента g функция должна быть дифференцируема, то есть в точке X и её окрестности должны существовать всё n частных производных, и в X они должны быть непрерывны. Аналогично для существования матрицы Гессе, должны существовать и быть непрерывными первые частные производные функции, тогда существуют и вторые частные производные. Класс функций, имеющих непрерывные производные с 1 по kй обозначают через Ck . Так класс С2 есть множество дважды дифференцируемых функций. Класс непрерывно дифференцируемых функций называют «гладкими» функциями. Большинство рассматриваемых здесь обратных задач имеют гладкие целевые функции. Собственными значениями матрицы G являются числа λ1,…, λn, удовлетворяющие равенству Gu u или (G I )u 0 , где u называют собственным вектором, отвечающим собственным значениям λ, I – единичная матрица. Если все n собственных значений функции положительны, матрица G будет называться положительно определенной, если отрицательны – отри26 цательно определенной, если неотрицательны – положительно полуопределенной и знаконеопределенной при наличии и положительных и отрицательных собственных значений. Необходимым условием минимума гладкой функции многих переменных в точке X является равенство её градиента нулю в этой точке, достаточным условием является положительная определенность матрицы Гессе. Равенство градиента нулю есть равенство нулю его длины - нормы g ( X ) gk . k Теперь рассмотрим оптимизационные методы решения обратных задач. §3.3 Решение обратной задачи методами поиска минимума функции многих переменных Решение обратной задачи Требуется решить обратную многопараметровую задачу определения n параметров X ( x1 ,..., xn ) структуры, применяя метод наименьших квадратов (МНК) для уравнения 3.2.4, с линейными ограничениями 3.2.5. Искомые параметры, соответствуют минимуму суммы квадратов невязок модельных данных с экспериментальными. Если функция имеет на некотором интервале единственный минимум, то такая функция называется унимодальной. Решение задачи определения параметров МНК будет однозначным, если выделен отрезок локализации ( Х min , Х min ) , ε – радиус интервала неопределенности, где функция является унимодальной. Чаще всего S(X) имеет несколько локальных минимумов и параметры, определенные МНК, могут иметь ошибочные значения. Для наилучшего решения обратной задачи необходимо нахождение глобального минимума. Задача определения параметров структуры сводится к минимизации многоэкстремальной функции нескольких переменных. На решение обратной задачи накладываются линейные ограничения 3.2.5, поэтому имеем случай условной минимизации. Решение обратной задачи методом наименьших квадратов можно проводить, решая систему нелинейных уравнений. Если известно, что необходимым условием минимума является равенство нулю градиента функции в точке минимума Х min , то корень векторного уравнения S ( X ) 0 x1 S ( X ) x 0 n (3.3.1) дает комплекс неизвестных параметров. Чаще всего система 3.2.6 имеет несколько решений и численными методами, например, градиентными, 27 нужное решение находится успешно в том случае, если задана точка начального приближения, на участке близком к истинному корню – глобальному минимуму S. Однако в реальных задачах указать малую окрестность, содержащую минимум, затруднительно. Ситуация усложняется, если на пути от точки приближения к глобальному минимуму встречаются дополнительные локальные минимумы. Несколько отличающимся, но близким по смыслу является решение обратной задачи методом наименьших квадратов с использованием алгоритмов поиска минимума функций многих переменных. Алгоритмы поиска минимума функции многих переменных Информацию о приближении к минимуму дает сопоставление значений целевой функции в пробных точках, позволяя последовательно сокращать интервал неопределенности положения минимума. Вычисление первых и вторых производных дополняет алгоритм минимизации информацией о поведении функции в данной точке и её окрестностях, позволяя делать более широкие шаги к минимуму целевой функции. В любом случае в процессе минимизации нужно стараться использовать всю доступную информацию о функции, соотнося «затраты» на дополнительные вычисления и ценность получаемых из них сведений. Общей чертой большинства итерационных алгоритмов минимизации является требование, чтобы на каждом последующем шаге итерации целевая функция убывала Sk+1 < Sk . Методы, удовлетворяющие такому требованию, называются методами спуска. Все описанные ниже алгоритмы относятся к методам спуска и отличаются способами выбора направления и шага спуска. Алгоритмы минимизации можно поделить на категории в зависимости от использования в них значений производных: а) методы второго порядка – с вычислением 2-х производных целевой функции; б) методы первого порядка – с вычислением 1-х производных; в) методы нулевого порядка – без вычисления производных. Обзорно опишем суть методов а, б. а) К методам второго порядка относятся метод Ньютона и его модификации [1]. Метод Ньютона основан на квадратичной аппроксимации целевой функции.[1. стр. 141]. Располагая первыми и вторыми производными целевой функции S (гладкая функция), в качестве её квадратичной модели можно взять сумму первых трех членов тейлоровского разложения в окрестности текущей точки Xk , т.е. воспользоваться приближенным равенством вида S ( X k p ) S k g kT p 1 T p Gk p 2 (3.3.2) здесь p -направление движения, верхний индекс Т обозначает транспонирование вектора, gk и Gk – градиент и матрица Гессе в точке X . k 28 Минимум правой части 3.3.2 достигается при векторе p ющем квадратичную форму p g kT p k минимизиру- 1 T p Gk p 2 (3.3.3) Будучи стационарной точкой ( p ) , этот вектор должен удовлетворять равенству (3.3.4) Gk pk g k Алгоритм минимизации в котором направление pk определяется системой 3.3.4, называется методом Ньютона, а направление, дающее решение системы называют ньютоновским направлением. б) К основным методам первого порядка относятся: градиентные методы, методы сопряженных градиентов, квазиньютоновские методы и аналоги методов 2 порядка с конечно-разностными аппроксимациями 2-х производных. Градиентный метод основан на том, что градиент функции указывает направление максимального роста функции, а антиградиен – направление наискорейшего движения к минимуму. Если задана k-я точка приближения, то на каждой последующей итерации шаг определяется из условия X k 1 X k k pk (3.3.5) где pk – направление, определяемое антиградиентом p g k k - величина шага в направлении pk. k Метод выбора шага определяет вариант градиентного метода [5]. k Ньютоновские методы минимизации, вычисляя матрицу Гессе, используют информацию о кривизне функции. Квазиньютоновские методы опираются на возможность аппроксимации кривизны нелинейной функции без явного формирования ее матрицы Гессе. Данные относительно кривизны целевой функции определяются на основе наблюдений за изменением градиента g во время итераций спуска [1]. Метод сопряженных градиентов использует понятие сопряженное направление, которое четко определено лишь для квадратичной функции [5]. Ненулевые векторы p0 , p1 ,..., pk 1 являются взаимно сопряженными относи1 2 тельно симметричной матрицы A квадратичной функции f ( x ) ( A, x ) (b , x ) , если ( Apk , pl ) 0 , для всех k l . Методом сопряженных градиентов для квадратичной функции называют метод, в котором сопряженные направления строятся по правилу p g , p g p ,k 1 (3.3.6) 0 0 k k k 1 k 1 ,где βk- числовой коэффициент. Для произвольной гладкой функции коэффициент βk дается как 29 k 1 ( g k , g k g k 1 ) g k 1 2 или k 1 gk 2 g k 1 2 (3.3.7) Минимизацию целевой функции производят в соответствии с формулой X k 1 X k k pk , k 0, (3.3.8) ,где направления pk вычисляют по формуле 3.3.6 с использованием 3.3.7, а шаг αk >0 вычисляется из решения задачи одномерной минимизации функции k ( ) S ( X k pk ) . Геометрический смысл метода сопряженных градиентов состоит в следующем (рисунок 1) [10]. Из заданной начальной точки х(0) осуществляется спуск в направлении р(0) = -f'(x(0)). В точке х(1) определяется векторградиент f'(x (1)). Поскольку х(1) является точкой минимума функции в направлении р(0), то f’(х(1)) ортогонален вектору р(0). Затем отыскивается вектор р (1), G-сопряженный к р (0) (G - матрица Гессе.) . Далее отыскивается минимум функции вдоль направления р(1) и т. д. Рисунок 1. Траектория спуска в методе сопряженных градиентов Методы сопряженных направлений являются одними из наиболее эффективных для решения задач минимизации. Однако следует отметить, что они чувствительны к ошибкам, возникающим в процессе счета, и для большого числа переменных не являются оптимальными [10]. в) К методам нулевого порядка относятся: прямой поиск, метод покоординатного спуска, метод деформируемого многогранника, методы Розенброка и Дэвиса, Свенна, Кемпи, с которыми можно ознакомиться в [1,3,4,5]. А также методы, в основу которых положены алгоритмы с вычислением производных, но сами производные заменяются конечно-разностными аппроксимациями. Для минимизации задачи о наименьших квадратах 3.2.4 выгодно использовать алгоритмы, специально разработанные для таких задач. В специальных методах решения задачи МНК учитывается особая структура градиента m и матрицы Гессе функции S ( X ) Yi i 1 2 эксп F (ti , X ) . 30 Некоторые специальные методы решения задач о наименьших квадратах Опишем существо специальных методов минимизации задачи МНК метод Гаусса-Ньютона, Левенберга – Маркардта и универсальный квазиньютоновский метод. Прежде покажем, в чем особенность градиента и матрицы Гессе задачи МНК. Обозначим невязку в 3.2.4 как Z i ( X ) F (ti , X ) Yi эксп , i 1,..., m , и пусть Gi матрица Гессе для Z i , тогда, вычислив градиент и матрицу Гессе функции S в 3.2.4, можно убедиться, что они формально запишутся [1] (3.3.9 а) g ( X ) J ( X )Z ( X );. T (3.3.9 б) G ( X ) J ( X ) J ( X ) Q( X ) Z1 Z1 x xn m 1 , Q( X ) Z i ( X )Gi ( X ) , где J ( X ) i 1 Z m Z m x xn 1 Здесь J (X ) – матрица Якоби функции Z (X ) , J ( X )T - транспонированная матрица J (X ) , Gi- матрица Гессе для Zi (X) Заметим, что матрица Гессе G вычисляется с использованием первых и вторых производных Z i ( X ) . В окрестности точки минимума невязки Z i ( X ) становятся малыми и второе слагаемое Q(X ) в (3.3.9 б) также мало по сравнению с первым. Специальные алгоритмы решения задачи МНК опираются на преобладании первого слагаемого J ( X ) J ( X )T над вторым, что позволяет приближенно вычислять матрицу Гессе в окрестности точки минимума лишь по первым производным функции Z i ( X ) , хотя, по сути, используются методы второго порядка. Метод Гаусса - Ньютона. Обозначим через X k текущую оценку решения задачи минимизации функции 3.2.4, нижний индекс k будет обозначать её принадлежность к X k . Тогда ньютоновская система 3.3.4 в силу 3.3.9 примет вид [1] ( J kT J k Qk ) pk J kT Z k (3.3.10) При приближении к оптимуму невязки Zk будут близки к нулю и матрица Qk также будет приближаться к нулевой. Значит ньютоновское направление можно аппроксимировать решением системы J kT J k pk J kT Z k (3.3.11) Решение 3.3.11 представляет собой оптимальный вектор в одномерной задаче о наименьших квадратах по нахождению минимума суммы 31 J p Zk 2 k (3.3.12) k , если матрица Jk имеет линейно независимые столбцы (полный столбцовый ранг), то вектор p определен однозначно, при этом его можно обозначить как pGN. Если линейная независимость столбцов Jk нарушается, то задача 3.3.12 будет иметь целое многообразие решений [1]. Метод минимизации, в котором pGN используется в качестве направления поиска, называется методом Гаусса-Ньютона. Когда Qk близка к нулю, направление Гаусса-Ньютона pGN мало отличается от ньютоновского направления pN. Метод ГауссаНьютона может достигать квадратичной скорости сходимости, хотя при расчете pGN учитываются только первые производные. Метод Левенберга - Маркардта. Альтернативой методу Гаусса-Ньютона является метод ЛевенбергаМаркардта. В нем направление поиска определяется как решение системы уравнений вида ( J kT J k k I ) pk J kT Z k (3.3.13) ,где λk - некоторое неотрицательное число, I – единичная матрица. В этом методе шаг pk всегда полагается единичным, т.е. очередной точкой xk+1 будет xk+ pk. Можно показать, что pk – решение задачи на условный минимум J p Z k , при ограничении p 2 k (3.3.14) k где Δ- параметр связанный с λk. Монотонное убывание минимизируемой функции в методе Левенберга – Маркардта достигается за счет подбора «хороших» значений λk. При λk равном нулю, pk будет направлением ГауссаНьютона. Когда λk стремиться к бесконечности, pk стремиться к нулю и в пределе становится параллельным антиградиенту, следовательно, выбрав λk достаточно большим можно обеспечить выполнение неравенства для суммы квадратов невязок S ( X k pk ) S ( X k ) . Пусть pLM- решение системы 3.3.13, при каких-то xk и положительных λk. Если для матрицы Jk условие линейной независимости столбцов не выполняется, то независимо от величин Qk и λk направление pLM будет близко к направлению pGN в методе Гаусса – Ньютона. Таким образом, и в методе Гаусса – Ньютона и в методе Левенберга Маркардта пользуются предположением о доминирующей роли слагаемого J kT J k в 3.3.9 б, исходя из чего матрицей Q предлагается пренебречь. Однако , метод Левенберга – Маркардта более устойчив чем метод Гаусса – Ньютона в отношении выполнения условия линейной независимости столбцов Jk. 32 Квазиньютоновский метод. (Метод переменной метрики или метод Девидона). Квазиньютоновский метод использует сведения о кривизне функции, которые накапливаются в ходе наблюдения за значениями градиента в процессе итераций спуска к минимуму. Разложим градиент в ряд Тейлора в окрестности X k по степеням sk (шаг из точки X k ) g ( X k sk ) g k Gk sk . Тогда оценка кривизны целевой функции S вдоль sk , т.е. произведение s T Gk sk запишется (3.3.15) s T Gk sk ( g ( X k sk ) gk )T sk k k Формула (3.3.15) лежит в основе всех квазиньютоновских методов [1]. К началу k-й итерации известна некоторая аппроксимация Bk матрицы Гессе. Матрица Bk хранит информация о кривизне функции, накопленную на предыдущих k-1 итерациях. Используя Bk в качестве матрицы Гессе, очередное направление pk квазиньютоновского поиска определяется как решение аналогичной 3.3.4 системы уравнений: (3.3.16) Bk pk gk Если не имеется дополнительной информации, то матрица B0 принимается равной единичной матрице, при этом первая итерация квазиньютоновского метода будет эквивалентна шагу наискорейшего спуска. После определения X k 1 точки приближение Bk обновляется с учетом вновь полученной информации о кривизне, т.е. совершается переход от матрицы Bk к матрице Bk+1, задаваемой формулой пересчета вида Bk 1 Bk U k , (3.3.17) где Uk- некоторая поправочная матрица. Обозначая sk ( X k 1 X k ) k pk , а приращение градиента через yk g k 1 g k основное свойство всех квазиньютоновских правил пересчета (3.3.17) выразится равенством Bk 1sk yk (3.3.18) В силу 3.3.15 оно означает, что Bk+1 будет правильно отражать кривизну целевой функции S (3.2.4) вдоль sk . Матрица Гессе является симметричной и положительно определенной, поэтому естественно требовать, чтобы её квазиньютоновские приближения Bk обладали теми же свойствами. Пересчитывать матрицу Bk+1 из 3.3.17 можно различными способами. Вот некоторые из формул , обеспечивающих симметричность квазиньютоновских приближений [1]: Bk 1 Bk 1 ( yk Bk s k )( yk Bk sk )T ( yk Bk sk )T sk (3.3.19) Выражение 3.3.19 называют симметричной формулой ранга один, т.е. второе слагаемое сформировано с использованием векторов первого ранга. Следующее выражение с поправками второго ранга называется формулой 33 Дэвидона-Флетчера-Пауэлла (ДФП или DFP) и выглядит следующим образом [1]: Bk 1 Bk где 1 1 Bk sk skT Bk T yk ykT ( skT Bk sk )k kT , s Bk sk y k sk 1 1 k T yk T Bk sk y k sk sk Bk sk T k (3.3.20) Часто используемой является формула Бройдена - Флетчера - Гольдфарба -Шанно (БФГС или BFGS - формула): Bk 1 Bk 1 1 Bk sk skT Bk T yk ykT s Bk sk yk sk T k (3.3.21 а) Которая упрощается, если шаг sk определялся из условия Bk sk k g k в предположении, что шаг осуществляется в направлении pk : Bk 1 Bk 1 1 g k g kT T yk ykT g pk k y k pk T k (3.3.21 б) Для формул (3.3.21 а) условие положительной определенности выполняется если ykT sk 0 . Теперь, учитывая особенности задачи в случае использования метода наименьших квадратов, система уравнений для расчета направления поиска выглядит так: ( J kT J k M k ) pk J k Z k (3.3.22) Условие, которому должно подчиняться очередное квазиньютоновское приближение Mk+1 запишется ( J kT J k M k 1 ) sk yk , (3.3.23) где sk xk 1 x k и yk J kT1Z k 1 J kT Z k Процедуру пересчета матрицы Mk можно осуществлять с использованием формул (3.3.19 – 3.3.21). 34 §3.4 Примеры реализаций вычислительного эксперимента Здесь описаны особенности и приведены примеры обратных задач диагностики микро - и наноструктур. В примерах раздела 3.4.2 обсуждаются возможные способы разрешения встречающихся трудностей. Трудности при решении многопараметровых обратных задач. При решении реальных обратных задач, можно столкнуться с некоторыми трудностями: Наличие нескольких экстремумов минимизируемой функции (многоэкстремальная задача) Установление диапазонов поиска значений определяемых параметров Многопараметровость задачи Слабая чувствительность метода к значениям определяемых параметров и влияние точности измерений на определение параметров Сложность аналитических выражений, связывающих параметры структуры и параметры измерительного воздействие. Сокращение времени решения обратных задач Соответствие модели и объекта. Многоэкстремальность целевой функции Выбирая минимизируемую функцию и приступая к исследованию решений обратной задачи, часто оказывается, что целевая функция имеет несколько минимумов, что означает возможную многозначность решения. Такая задача в общем случае не разрешима методами минимизации, описанными в разделе 3.3, т.к. они применимы для функций с единственным минимумом или для функций рассматриваемых на такой области определения, где он единственен (унимодальные области). В выделенных унимодальных областях методы раздела 3.3 не бесполезны, однако остается вопрос - как выделять области с единственными минимумом не просчитывая значения целевой функции в каждой точке, или как избегать областей где минимума точно не встретиться? Здесь требуется оптимизация работы алгоритма решения обратных задач с целью совершения только необходимых шагов вычислений, что приводит к уменьшению общего времени счета. Если обратная задача решается с целью контроля параметров структур в технологическом процессе, то скорость счета влияет на управляемость, чувствительность регулирования факторов, определяющих функциональные свойства материалов. Универсальные методы, проводящие поиск глобального минимума многоэкстремальной функции без исследования каждого достаточно глубокого минимума пока неизвестны. Выходом из положения может стать использование гибридных методов, сочетающих использование значений самой целевой функции и ее производные. 35 Установление диапазонов поиска значений определяемых параметров Выделение области определения параметров полезно для сокращения области определения целевой функции, приводящее к оптимизации точностных характеристик метода и сокращению времени счета. Здесь также нельзя перечислить набор четких правил выбора допустимых значений параметров, справедливых в любых случаях. Особенности воздействия варьируемых параметров структуры на целевую функцию нужно исследовать отдельно. Многопараметровость задачи Исследование связи целевой функции и определяемых параметров затруднено необходимостью определения одновременно нескольких параметров при единственной целевой функции суммирующей отклики на изменение каждого параметра. Если минимизируемая функция зависит более чем от 2 параметров, то появляется дополнительная сложность, связанная со способом визуализации многомерной функции. Приходится рассматривать проекции такой функции на 3-х мерную плоскость или сечения многомерного объема. С визуализацией 4-х мерных функций помогают современные математические пакеты прикладных программ, позволяющие создавать анимацию, записывая ролик из последовательности трехмерных построений. Мысленно соединяя части анимационного ролика вдоль линии времени можно постараться вообразить 4-х мерную функцию. Другим выходом является построение 4х мерной функции в трехмерных координатах, где 4-я координата является параметром трехмерной зависимости, выводя несколько поверхностей на один график для улучшения обзора можно настраивать их прозрачность. Цвет поверхности может отображать не только высоту поверхности, как в географических картах, но вместо этого быть отдельной 4-й координатой на 3-х мерной поверхности. Чувствительность метода к значениям определяемых параметров Точность решения обратных задач зависит не только от точности экспериментальных данных и сконструированного вычислительного алгоритма, но и от области в которой находятся значения определяемых параметров, т.е. чувствительность или разрешение метода могут быть неодинаковыми для разных областей параметров. Разрешающую способность метода можно контролировать строя значения решений прямой задачи с использованием созданной сетки параметров из некоторого диапазона. Такие номограммы могут показать области с относительно высоким разрешением - где решения располагаются более редко и распределённо или с низким разрешением - где они располагаются более кучно. Погрешности экспериментальных измерений оказывают влияние на измерения при любых значениях определяемых параметров, однако оно более существенно для областей с низким разрешением. Сложность аналитических выражений 36 Формулы математической модели, описывающие взаимодействие структуры и измерительного воздействия не редко являются довольно громоздкими. При решении прямой и обратной задачи программой регулярно ведется обращение к таким формулам. Одноразовый расчет таких выражений может занимать доли секунды, но при многократном обращении, когда количество итераций исчисляется тысячами, фактор скорости расчета модельных формул становится более значимым. Поэтому нужно стараться записывать функции расчета модельных данных так, что бы минимизировать время их расчета, например, заменяя повторяющиеся выражения громоздкой формулы константами, вычисленными до подстановки в формулу. Если используются методы минимизации с вычислением производных 1 и 2 порядка, то первоначальные формулы модели ещё более усложняются вместе с увеличением времени их обработки. В таких случаях получение дополнительной информации о скорости убывания или кривизне функции может не окупаться временными затратами на вычисления. Выходом может быть использование прямых методов минимизации или методов с конечноразностной аппроксимацией производных. Сокращение времени решения обратных задач Можно выделить несколько главных факторов определяющих общее время решения обратной задачи: выделение области допустимых значений определяемых параметров; выбор функции и метода минимизации; оптимизация алгоритма, который должен содержать лишь необходимые шаги; учет изученных особенностей конкретной задачи; мощность вычислительной машины. Эффективность любых методов минимизации можно сравнивать по числу обращений к целевой функции, по трудоемкости вычислений функций и их производных, по скорости сходимости, по устойчивости, корректности и надежности получаемых решений. Соответствие модели и объекта Получая решения прямой и обратной задач, нужно помнить о предположениях, в которых была построена математическая модель. При соответствии предположений реальным условиям можно рассчитывать на адекватное представление объекта математической моделью. Математическая модель учитывает существенные особенности объекта и его взаимодействия с окружением, если учтены все существенные особенности, то модель называют полной, иначе – неполной. Сопоставляя значения параметров, определенных различными экспериментальными методами, нужно быть уверенным в адекватности модели объекту во всех используемых методах. Примеры задач и их решение Здесь приведены 4 примера, каждый из которых имеет свою особенность решения прямой или обратной задачи. 37 Пример 1. Определение параметров слоистой структуры методом эллипсометрии. Тип задачи: двухпараметровая, многоэкстремальная, полностью определенная (решаются два уравнения с двумя неизвестными). Особенности решения обратной задачи: прямая подстановка параметров из задаваемого диапазона, решение уточняется сужением диапазона и дроблением шага разбиения. Данный пример является простейшим и иллюстрирует применение МНК для решения обратной задачи. А) Сущность метода Сущность эллипсометрического метода измерений состоит в исследовании изменения состояния поляризации света в результате его отражения от изучаемого объекта. Основное уравнение эллипсометрии имеет вид: ρ= Rp Rs tg = tg eiΔ Rp Rs (3.4.1) , =p - s. Здесь - относительный коэффициент отражения поляризованного излучения, Rp и Rs -амплитудные коэффициенты отражения, характеризующие относительное изменение комплексных амплитуд p- и s-составляющих электрического вектораE при отражении, Ψ-пси и Δ-дельта – эллипсометрические параметры, описывающие эллипс поляризации, δp, δs – фаза p и s- волн соответственно. Рисунок 2. Прохождение излучения через систему среда-слой подложка. θ- угол падения излучения, θ1 и θ0 - угол отражения и преломления на границе слой-подложка соответственно. N0, N1, N2- комплексные показатели преломления; n0, n1, nср- показатели преломления, а k0, k1 – показатели поглощения слоя. d1 – толщина слоя.Индекс 0 обозначает параметры подложки, 1- параметры слоя, 2-параметры среды. 38 Для системы среда – слой – подложка (рисунок) основное уравнение эллипсометрии расписывается через коэффициенты Френеля на границах раздела. ρ = tgΨ eiΔ = S R21p + R10p e2iδ 1+ R21 R10S e2iδ , S 1+ R21p R10p e 2iδ R21 + R10S e 2iδ 4 d1 N12 n22sin 2θ , λ N cosθ1 N1cosθ0 S i P i R10P = r0P e 0 = 0 ; R10 = r0S e N 0cosθ1 + N 1cosθ0 где 2δ = P 21 P P i 1 1 R =r e N cosθ N 2cosθ1 S i = 1 ; R21 = r1S e N1cosθ + N 2 cosθ1 (3.4.2) (3.4.3) S 0 S 1 = N1cosθ1 N 0cosθ0 ; N1cosθ1 + N 0 cosθ0 N cosθ N1cosθ1 = 2 . N 2cosθ + N1cosθ1 (3.4.4) λ – длина волны падающего излучения, δ- сдвиг фаз при отражении излучения от слоя. Измерения параметров Ψ и Δ проводятся при постоянных значениях длины волны излучения - λ и угла падения - θ. Б) Прямая задача Определить поляризационные параметры Ψ и Δ при отражении излучения от структуры среда - слой – подложка, если все параметры среды, слоя и подложки считаются известными. В) Обратная задача Для структуры среда- слой – подложка найти параметры слоя n1 и d1 по измеренным поляризационным параметрам Ψ и Δ. Известными фиксированными параметрами считаются N2,N0, k1. Из 3.4.1 получаем выражения для параметров Ψ и Δ Rp ; arctg Rs Rp arg . Rs (3.4.5 а) (3.4.5 б) В данном примере требуется найти 2 неизвестных параметра по измеренным значениям пси и дельта, которые образуют два уравнения с двумя неизвестными (формула 3.4.5). Если требуется определять более 2-х параметров, то нужно измерять параметры Ψ и Δ при разных углах падения или при разных длинах волн падающего излучения. Г) Решение прямой задачи Внешнюю среду будем считать воздухом с показателем поглощения k2=0. Структура образована не поглощающим слоем, т.е. k1=0. Задаем параметры, считающиеся известными: Угол падения излучения θ=70°. Длина волны падающего излучения λ= 632,8 нм. Показатель преломления окружающей среды n2=1. Показатель преломления слоя n1=1.89 Толщина слоя d1= 650 ангстрем. 39 Показатель преломления подложки n0=3.7 Показатель поглощения подложки k0=0.58 Определяем параметры Ψ и Δ Пользуясь формулами (3.4.2- 3.4.4) подстановкой заданных параметров рассчитываем поляризационные параметры Ψ и Δ по формулам 3.4.5. Для ускорения вычислений полезно сделать следующие замены переменных: A N 0 cos(1 ); B N1 cos( 0 ); C N1 cos(1 ); D N 0 cos( 0 ); E N1 cos( ); F N 2 cos(1 ); G N 2 cos( ); H N1 cos(1 ); A B 2 i e A B C D 2 i e CD L R10p e 2i M R10s e 2i (3.4.6) Тогда коэффициенты отражения запишутся R10p A B s C D p E F s G H ; R10 ; R21 ; R21 A B CD EF GH (3.4.7) Основное уравнение эллипсометрии примет вид ρ = tgΨ eiΔ Rp Rs s R21p L 1 R21 M p s 1 R21 L R21 M (3.4.8) Из формул 3.4.5 и 3.4.8 получаем Ψ=34.62 и Δ=53.43. Для исследования чувствительности значений Ψ и Δ к определяемым параметрам структуры можно строить Пси-Дельта номограммы, рассчитывая значения Ψ и Δ для различных сочетаний параметров слоя. Рисунок 3. Ψ – Δ номограмма. Синие линии соответствуют изменению показателя преломления слоя n1, линии образованные черными точками - изменению толщины слоя d1.Красным ромбом отмечено измеренное значение параметров Ψ и Δ. 40 Номограмма построена для толщин от 50 до 1500 Å с шагом разбиения 5 Å и для показателей преломления слоя от 1.8 до 2.1 с шагом разбиения 0.001. По номограмме видно падение чувствительности к определяемым параметрам при повышении значений Δ и понижении Ψ. Значения Δ и Ψ определяются с некоторой погрешностью метода, поэтому на номограмме корректнее отображать найденные Δ и Ψ не точкой, а областью с доверительными интервалами. Если такая область накладывается более чем на одно значение, то номограмма построена с большим разрешением, чем дает метод в данном случае. Недостатками номограмм является необходимость их построения для каждого типа подложки и большой объем вычислений для широкого диапазона и/или мелкого шага искомых параметров. Д) Решение обратной задачи Для решения обратной задачи используем Ψэксп и Δэксп - экспериментально измеренные значения Ψ и Δ и функцию минимизации S (n1 , d1 ) эксп (n1 , d1 ) эксп (n1 , d1 ) , (3.4.9 а) где, Ψ(n1,d1) и Δ(n1,d1) – значения поляризационных параметров Ψ и Δ рассчитанные для некоторых параметров слоя n1 и d1. Пользуясь обозначениями раздела 3.2. задачу разбираемого примера Y F ( X ) можно записать Y F ( X ) , где YΨ и YΔ - экспериментальные значения Ψ и Δ соответственно, FΨ и FΔ выражения (3.4.5 а) и (3.4.5 б) для модельных значений Ψ и Δ, вектор искомых величин X (n1, d1 ) , вектор постоянных величин C ( , , n0 , k0 ,n 2 , k2 ) . Тогда введенные обозначения позволяют переписать функцию минимизации (3.4.9 а) как S(X ) Y F (X ) Y F (X ) . (3.4.9 б) Экспериментальные значения Ψэксп, и Δэксп измерены с некоторой погрешностью, обусловленные средствами измерения и условиями эксперимента. Погрешность измерения Ψэксп, и Δэксп, а также несоответствие образца и его модели будут вносить искажения в решение обратной задачи. Будем искать минимум (3.4.9) прямой подстановкой эллипсометрических параметров Ψ(n1,d1) и Δ(n1,d1), рассчитанных в прямой задаче для различных пар значений n1, d1. Диапазон значений показателей преломления n1 [1.8, 2.1], шаг Δn1=0.05. Диапазон значений толщины слоя d1 [50,1500] ангстрем, шаг Δd1=50 ангстрем. Построим зависимость S(n1,d1), сопоставлением различных значений S найдем её минимум и соответствующие ему параметры n1min и d1min. Затем выделим новый диапазон поиска параметра n1, который образуется отступом на шаг Δn1 влево и вправо от найденного ранее n1min, т.е. [n1minΔn1, n1min+ Δn1], с разбиением интервала, например на 5 частей. Аналогично, разобьем интервал возможных толщин слоя [d1min- Δd1, d1min+ Δd1], на 5 частей. В выделенном диапазоне найдем минимум S и соответствующие ему 41 новые значения n1min и d1min. Применяя повторно описанную процедуру к найденным значениям, алгоритм будет осуществлять спуск к минимуму все точнее подбирая наиболее близкие к экспериментальным значения Ψ и Δ и, соответствующие им n1min и d1min (Таблица 1). Рисунок 4. Область минимумов функции минимизации S(n1,d1). Таблица 1. Уточнение значений параметров структуры n1=1.89 и d1=650. Итерация 1 2 3 4 Значение минимума S Толщина слоя, ангстрем d1 Показатель преломления слоя n1 2.294 0.441 0.097 0.012 658 642.8 648.88 649.792 1.9 1.9 1.892 1.89 Из таблицы видно, что алгоритм постепенно приближается к реальным параметрам слоя n1=1.89 и d1=650 ангстрем, соответствующим значениям, заданным в прямой задаче. Пример 2. Определение параметров слоистой структуры по угловой зависимости коэффициента отражения. Тип задачи: трехпараметровая, многоэкстремальная, переопределенная (решается множество уравнений с тремя неизвестными). Особенности решения обратной задачи: прямая подстановка параметров с равномерным разбиением задаваемого диапазона, решение уточняется дроблением шага разбиения угла. 42 А) Сущность метода Снимается угловая зависимость коэффициента отражения от слоистой структуры. Коэффициент отражения измеряется для числа углов превышающих количество неизвестных параметров структуры. Падающее излучение оптического диапазона поляризовано линейно. Связь между параметрами структуры и коэффициентом отражения устанавливается матричным методом, в котором между слоями вводятся прослойки нулевой толщины с оптическими свойствами внешней среды [6,7]. Такой подход позволяет получить обобщенные формулы для многослойных структур с неограниченным числом слоев. Для N слоя многослойной структуры коэффициент отражения p – поляризованного излучения -RpN и коэффициент отражения s – поляризованного излучения – RsN находятся по формулам (3.4.10) и (3.4.11) r rP rP P e 2i Z 1 rP rP RP , (3.4.10) rP rP 2i Z 1 rP e 1 rP rP N 1 N N N N 1 N N N 1 N N N N rS N RS N N rS N 1 rS N e 2iZ N 1 rS N 1 rS N , rS rS N 1 rS N N 1 e 2iZ N 1 rS N 1 rS N (3.4.11) где rP N и rS N – коэффициенты Френеля границы раздела N-го слоя с внешней средой для p- и s-поляризации соответственно;ZN – волновое сопротивление N-го слоя. Коэффициенты Френеля rP N и rS N определяются по формулам: (nN k N ) 2 cos( ) nm (nN k N ) 2 nm sin 2 ( ) 2 rPN 2 (nN k N ) cos( ) nm (nN k N ) nm sin ( ) 2 2 2 (3.4.12) nm cos( ) (nN k N ) 2 nm sin 2 ( ) 2 rS N 2 2 2 (3.4.13) 2 2 nm cos( ) (nN k N ) 2 nm sin 2 ( ) , где nm-показатель преломления внешней среды.(km=0). nN, kN - показатель преломления и поглощения N слоя соответственно. θ-угол падения излучения.Фазовый сдвиг ZN определяется как ZN d N (nN k N ) 2 nm 2 sin 2 ( ) c (3.4.14) ,где ω-частота падающего излучения, dN-толщина N слоя, с-скорость света. В качестве примера рассмотрим случай падения p-поляризованного излучения на однослойную структуру. С учетом (3.4.10 - 3.4.13) формула 43 энергетического коэффициента отражения Rp для однослойной структуры будет иметь вид r r r1 0 1 exp( 2i Z ) 1 r0 r1 Rp r1 (r0 r1 ) 1 exp( 2i Z ) 1 r0 r1 2 (3.4.15) ,где r1- коэффициент Френеля для структуры слой–воздух, r0коэффициент Френеля для структуры подложка – воздух, Z- фазовый сдвиг при отражении от границы слой-воздух. При заданных длине волны и комплексных показателях преломления подложки и внешней среды угловая зависимость однослойной структуры Rp (Θ) определяется тремя искомыми величинами - dL, nL, kL. Rp() f (, d L1 , nL1 , kL1 ). (3.4.16) Индекс L (от Layer -слой) указывает на отношение параметра к исследуемому слою. Б) Прямая задача Построить угловую зависимость коэффициента отражения Rp(Θ) от слоистой структуры при заданных параметрах структуры, окружающей среды и измерительного воздействия. В) Обратная задача Определить параметры слоистой структуры dL, nL, kL по полученной угловой зависимости коэффициента отражения излучения Rp(Θ). Пользуясь обозначениями раздела 3.2. можно записать Y F(t , X), где Yii i экспериментальное значение коэффициента отражения для i угла падения, Fзначение Rp вычисленное по параметрам математической модели, ti – i - й X (d L , n L , k L ) , угол падения. вектор постоянных величин C (n s , k s , n m , k m , λ) . Г) Решение прямой задачи Будем исследовать структуру Ag2S слой на SiO2 подложке. Внешняя среда - воздух с показателем поглощения km=0. Задаем параметры, считающиеся известными: Длина волны падающего излучения λ= 632,8 нм. Диапазон углов падения и шаг изменения угла θStart=50°, θEnd=80°, Δθ=1° Показатель преломления окружающей среды nm=1. Показатель преломления слоя nL=2.67. Показатель преломления слоя kL=0.91. Толщина слоя dL= 220 ангстрем. Показатель преломления подложки ns=1.46. Показатель поглощения подложки ks=0. По формулам 3.4.12 и 3.4.15 строим зависимость Rp(Θ). 44 Рисунок 5. Угловая зависимость коэффициента отражения, построенная по вычисленным значениям. Д) Решение обратной задачи Получаем Y- массив моделируемых экспериментальных данных об угловой зависимости коэффициента отражения. Значения содержат погрешности измерений. Рисунок 6 Угловая зависимость коэффициента отражения, построенная по моделируемым экспериментальным значениям. Если проводится вычислительный эксперимент, то погрешности экспериментальных значений Yi могут моделироваться добавлением к вычисленным значениям ошибок измерений, распределенных, например, по нормальному закону с заданным среднеквадратическим отклонением σ, которое соответствует прогнозируемым погрешностям эксперимента. Зависимость 3.4.5 построена с добавлением 5 % ошибки к вычисленным данным. Используем функцию минимизации МНК (3.2.4) iMax S ( X ) Yi i 1 2 эксп F (ti , X ) , где iMax- количество углов падения. Особенностью обратной задачи этого примера по сравнению с примером 1 является ее переопределенность, т.к. необходимо найти 3 параметра dL, nL и kL, а по экспериментальным данным возможно составить 30 уравнений – по 45 одному для каждого угла падения. Это дает свободу выбора способа решения обратной задачи. Если в примере 1 решение уточнялось измельчением диапазона искомых параметров, то в этом примере спуск к минимуму S можно осуществлять дроблением шага изменения угла, например, так: 1а) Выбираем широкий диапазон и крупный шаг изменения параметров dL, nL, kL. Это даст уменьшение времени расчета угловой зависимости.; 1б) Рассчитываем F (ti , X ) для трех углов, например, θ=50,65,80 и для всех параметров из заданного в 1а) диапазона; 1в) Находим минимум S ( X ) , пользуясь рассчитанными в 1б) значениями F (ti , X ) . Принимаем параметры d1L , n1L , k1L соответствующие минимуму, как первое приближение к решению обратной задачи; 2а) Сужаем диапазон поиска параметров, отступая от каждого из параметров d1L , n1L , k1L влево и вправо на величины, превышающие размеры шагов предыдущей итерации. Диапазон подбираемых параметров должен сузиться. 2б) Рассчитываем F (ti , X ) для 7 углов, например, θ от 50° до 80° с шагом 5 ° для всех параметров из заданного в 2б) диапазона; 2в) Находим минимум S ( X ) , пользуясь рассчитанными в 2б) значениями F (ti , X ) . Принимаем параметры d 2L , n 2L , k 2L , соответствующие минимуму, как второе приближение к решению обратной задачи; *) и.т.д. до достижения требуемого значения минимума S ( X ) или до стадии, когда параметры найденные на текущей итерации будут отличаться от параметров на предыдущей итерации на величину меньшую точности метода. Количество итераций можно подобрать так, что при постоянном числе разбиений исследуемого диапазона на последней итерации шаг разбиения для всех параметров будет равен чувствительности метода. Расчет F (ti , X ) для малого числа углов позволит приближенно определить структуру S ( X ) и количество её минимумов, на последующих итерациях происходит локализация поиска сужением области определения и детализация функции S ( X ) в этой области. Если на какой-то стадии обнаруживается несколько минимумов, то выбирается наименьший из них. Если минимумы имеют одинаковые значения, что случается редко, то можно отслеживать углубление одновременно в несколько минимумов. Если это не сопряжено с чрезмерным объемом вычислений, то полезно визуально контролировать работу алгоритма, выводя многомерную функцию S (X ) , её сечения или двухмерный вариант (рисунок 2.4.6). Значение глобального минимума суммы квадратов невязок S (X ) характеризует качество решения обратной задачи и косвенно точность определенных параметров структуры. Проведем решение по описанной схеме. Будем сужать диапазон поиска параметров dL, nL и kL, уменьшать шаг разбиения диапазона и увеличивать количество рассматриваемых точек угловой зависимости. Условия поиска и результаты приведены в Таблице 2. 46 0.25 0.2 0.15 Sind 0.1 0.05 0 0 2000 4000 6000 8000 1 10 4 1.2 10 4 1.4 10 4 1.6 10 4 1.8 10 4 2 10 4 2.2 10 4 2.4 10 4 ind Рисунок 7. Функция S (X ) с многими экстремумами. ind- порядковый номер комбинаций параметров dL, nL и kL. Таблица 2. Поиск параметров структуры Ag2S на SiO2 с истинными параметрами слоя dL= 0.0220 мкм, nL=2.67, kL=0.91. Погрешность моделируемых экспериментальных значений Rp(Θ) составляет 5%. Количество углов Параметры Диапазон параметров Шаг Результат 0 … 0.1 мкм 1.5 … 4 0…2 0.001 … 0.05 мкм 2…4 0.5 … 1.5 0.02..0.03 мкм 2…3 0.7 … 1.2 0.02..0.03 мкм 2.4 … 3 0.8 … 1.2 0.02..0.03 мкм 2.5 … 2.8 0.85 … 1.2 0.01 мкм 0.02 мкм 0.1 2.6 0.1 1.2 6 0.005 мкм 0.0255 мкм 0.08 2.56 0.07 0.85 12 0.0001 мкм 0.0257 мкм 0.04 2.56 0.05 0.9175 24 0.0001 мкм 0.0211 мкм 0.024 2.688 0.02 0.957 30 0.0001 мкм 0.0217 мкм 0.01 2.68 0.01 0.918 Данные таблицы показывают, что даже при внесении 5% погрешности в экспериментальные значения решение обратной трехпараметровой задачи дает значения параметров с небольшим отличием от истинных значений. Для толщины слоя dL оно составляет 0.0005 мкм, для показателя преломления nL – 0.01 и для показателя поглощения kL- 0.008. 3 dL nL kL dL nL kL dL nL kL dL nL kL dL nL kL 47 Находить параметры также можно с использованием сочетаний,например, по три точки угловой зависимости из 10 выбранных точек. В таком случае образуется 120 сочетаний по три точки в каждом, решается обратная задача для каждого сочетания, полученные результаты усредняются. Пример 3. Определение потенциального рельефа и работы выхода методом туннельной зондовой микроскопии. Тип задачи: двухпараметровая, переопределенная. Особенности решения прямой задачи: для исключения мультипликативной и аддитивной погрешностей используются не прямые данные эксперимента, а образованные из них функции, которые включают измеренные производные при разных управляющих параметрах экспериментальной установки. А) Сущность метода Экспериментально метод реализуется с использованием сканирующего туннельного микроскопа (СТМ), который измеряет потенциальный рельеф поверхности, характеризующий её геометрический рельеф. Работа СТМ основана на явлении туннелирования электронов через узкий потенциальный барьер между металлическим зондом и проводящим образцом во внешнем электрическом поле. При подведении зонда к поверхности образца на расстояния в несколько ангстрем образуется туннельнопрозрачный потенциальный барьер, величина которого определяется, значениями работы выхода электронов из материала зонда φP и образца φS. При качественном рассмотрении барьер можно считать прямоугольным с эффективной высотой, равной средней работе выхода материалов по формуле 1 2 * ( P S ) (3.4.17) . При приложении к туннельному контакту разности потенциалов U между зондом и образцом появляется туннельный ток. В процессе туннелирования участвуют, в основном, электроны с энергией в окрестности уровня Ферми EF. В случае контакта двух металлов выражение для плотности туннельного тока (в одномерном приближении) примет вид j (U , , * ) * A e 2 * ( * qU ) e A q 4 2 2 h ; A 2 * qU (3.4.18) 2m , h2 где q – заряд электрона; β – коэффициент равный 23/24; δ – туннельный зазор между поверхностью и зондом, h- постоянная Планка, U – напряжение смещения, прикладываемое между зондом и образцом. При малых напряжениях смещения Uq<<φ* выражение (3.4.18) можно преобразовать в (3.4.19). 48 A *U A j e 2 * (3.4.19) При таких напряжениях справедливо соотношение (3.4.17) для φ*, а ширина барьера ΔZ соответствует расстоянию между кончиком зонда и поверхностью образца - δ. Если напряжение смещения сопоставимо с работой выхода, то формула для φ* запишется 1 2 * ( P S ) qU 2 (3.4.20) В работах [8, 9] описан метод определения контактной разности потенциалов на основе гармонической модуляции туннельного зазора. Для неоднородных образцов туннельный ток зависит не только от расстояния зонд - образец, но и от значения локальной работы выхода электронов на зондируемом участке поверхности. Предположим, что проводятся измерения на СТМ в режиме постоянного тока, когда при движении зонда над образцом туннельный ток поддерживается постоянным за счет перемещения Z - двигателя зонда. При таком режиме расстояние между зондом и поверхностью образца (туннельный промежуток δ) должно сохраняться постоянным, тогда перемещение зонда будет отражать изменение рельефа поверхности. Это верно в предположении постоянства работы выхода электронов с поверхности вещества. Если образец имеет неоднородное распределение работы выхода φ, то поддержание постоянного туннельного тока не гарантирует постоянство туннельного промежутка, а следовательно рельеф поверхности будет определяться с погрешностями. Для получения информации о распределении работы выхода применяется метод модуляции расстояния зонд - образец ∆Z. В процессе сканирования к управляющему напряжению пьезоэлемента Z-электрода сканера добавляется переменное напряжение с внешнего генератора на частоте ω и амплитудой Zm. Это приводит к тому, что расстояние зонд - образец становится модулированным с частотой ω, изменение Z координаты зонда описывается формулой Z (t ) Z 0 (t ) Z m sin( t ), (3.4.21) где Z0- Z координата зонда при постоянном напряжении на пьезоэлементе. Частота ω выбирается выше частоты полосы пропускания петли обратной связи для того, чтобы система обратной связи не могла отрабатывать накладываемые колебания зонда. Амплитуда колебаний пьезоэлемента Zm выбирается достаточно малой, чтобы возмущения туннельного промежутка также были малыми. При этом необходимо, чтобы значение напряжения смещения удовлетворяло неравенству Uq<<φ*. При постоянном напряжении смещения, с учетом 3.4.19 и принятых выше условий выражение для туннельного тока, модулированного на частоте ω запишется I I 0 (1 A * Z m cos(t )), (3.4.22) 49 где I0- постоянная составляющая туннельного тока. Это позволяет раздельно определять туннельный промежуток и работу выхода в каждой исследуемой точке поверхности. Поддерживая в процессе сканирования ток I0 постоянным, отслеживаем движение зонда по координате Z и таким образом получаем данные об экспериментальном рельефе Z = f(x,y). Одновременно по малой амплитуде высокочастотных колебаний туннельного тока получаем данные о распределении локальной работы выхода φ(x,y) на исследуемом участке поверхности. Истинный рельеф поверхности восстанавливается по экспериментальному рельефу с учетом определенных значений работы выхода. Б) Прямая задача По значениям работы выхода – φ и туннельного промежутка - δ, заданным для каждой исследуемой точки поверхности образца, определить fU производную туннельного тока по напряжению смещения и fδ – производную туннельного тока по туннельному зазору при трех различных напряжениях смещения U1, U2, U3. С использованием рассчитанных fδ и fU строятся новые функции D1 и D2, устраняющие возможные мультипликативные и аддитивные погрешности. В) Обратная задача По измеренным производным fU и fδ для трех различных напряжений смещения U1, U2 и U3 определить работу выхода φ и экспериментальный туннельный промежуток δ в каждой исследуемой точке. Относительное изменение туннельного промежутка отражает рельеф исследуемой поверхности. Г) Решение прямой задачи Задаются значения δ и φ для каждой исследуемой точки поверхности образца. Производные рассчитываются по формулам qU A 2 (( )e 2 f ( , ,U ) fU ( , ,U ) 1 A ( qe 2 2 qU 2 qU 2 qU qU 2 A qU ( qU )e 2 3 A 1 qU Aqe 4 2 qU 2 qU A ( Ae 2 3 1 A qe 2 qU qU 2 qU 2 A qU qU Ae 2 2 3 A 1 qU qU Aqe 4 2 qU qU 2 qU qU 2 ) В каждой точке измеряются величины производных при различных напряжениях на зонде U1, U2, U3. Влияние аддитивных и мультипликативных погрешностей исключается введением относительных величин разностей значений fU и fδ, для различных значений напряжений, описываемых соотношениями f ( , ,U 1) fU ( , ,U 3) D1 ( , , U123 ) U ; (3.4.23) fU ( , , U 1) fU ( , , U 2) f ( , , U 1) f ( , , U 3) D2 ( , , U123 ) , (3.4.24) f ( , , U 1) f ( , , U 2) где U123 - вектор, содержащий значения напряжений U1, U2, U3. Аддитивная погрешность устраняется взятием разности значений производных, мультипликативная погрешность – взятием отношения разностей. Уравнения 3.4.23 50 и 3.4.24 образуют два уравнения с двумя неизвестными – в таком случае система уравнений полностью определена. Если составлять систему уравнений из производных fU и fδ для трех различных напряжений, то по внутренней структуре задача будет переопределенной, т.к. можно составить систему из шести уравнений с двумя неизвестными. Д) Решение обратной задачи Для построения экспериментальных D1 и D2 определяются значения производных fU и fδ при трех напряжениях смещения U1, U2, U3. Как и в примерах 1, 2, используем обозначения раздела 3.2 и приведем задачу Y1 F 1 (t, X) нахождения параметров к виду Y F (t, X) 2 2 , здесь Y1 и Y2 - эксперимен- тальные значения D1 и D2 соответственно, F1 и F2- моделируемые значения функции D1 и D2 соответственно, т.е. выражения 3.4.23, 3.4.24. (а) (б) Рисунок 8. Действительный и восстановленный туннельный зазор (а), работа выхода (б) для 10 зондируемых точек поверхности. 51 Вектор t - есть значения напряжений смещения U123 =(U1, U2, U3), вектор искомых величин X ( , ) . Возьмем функцию минимизации аналогичную функции (3.4.9) в примере 1, тогда целевая функция запишется: S ( X ) Y 1 F 1 (t , X ) Y 2 F 2 (t , X ) (3.4.25). Методом минимизации невязки определяются искомые значения туннельного зазора δ и работы выхода φ. По найденным значениям строится действительный рельеф поверхности (рисунок 8). §3.5 Программная реализация многопараметрового определения свойств многослойных структур 3.5.1 IMD - Программа для моделирования оптических свойств многослойных структур Здесь будут описаны вычислительные и графические возможности программы IMD, а также приведен пример её использования для моделирования свойств двухслойной структуры. Программа IMD представлена в свободном доступе в сети Интернет по ссылке [1]. Программа IMD была разработана Дэвидом Виндтом (David Windt)[11] и предназначена для моделирования таких оптических свойств многослойных структур как отражение, пропускание, поглощение, фазовый сдвиг при отражении, интенсивность электрического поля и эллипсометрические параметры. Программа позволяет строить и использовать как спектрально - угловые зависимости оптических свойств, так и отдельно спектральные при фиксированном угле падения и отдельно угловые зависимости при фиксированной длине волны. Для построения различных зависимостей и визуализации вычислений используется программа IMDXPLOT, входящая в состав IMD. Достоинством программы является её направленность на решение обратной задачи для многослойных структур с размытыми переходными слоями и возможность оценки степени соответствия используемой модели реальной структуре по близости расчётных и экспериментально определённых зависимостей оптических свойств от частоты или угла падения. Работа программы IMD основана на анализе и определении свойств многослойных структур с использованием моделей слоев, задаваемых пользователем по определенному шаблону. Задание модели структуры состоит в указании химического состава и оптических свойств подложки и окружающей среды, химического состава, оптических свойств, толщин каждого слоя и параметров переходных слоёв, например, шероховатости. Для задания оптических свойств материалов программа IMD включает в себя базу данных, содержащую оптические константы для более чем 150 материалов в спектральном диапазоне от рентгеновского до дальнего инфракрасного. 52 IMD может моделировать как зеркальное, так и диффузное отражение излучения. Имеются средства задания поляризации используемого излучения: p-поляризации, s-поляризации и смешанной поляризации. Отражение и пропускание поляризованного излучения многослойными структурами вычисляются по формулам Френеля (3.4.3), дающим в зависимости от поляризации коэффициент отражения rijs или rijp , и коэффициент пропускания t ijp или t ijp , где индекс i обозначает среду, в которой распространяется излучение, падающее на границу раздела, j обозначает преломляющую среду. Используя различные профильные функции, IMD дает возможность моделировать шероховатость поверхности каждого слоя и диффузную размытость межслойных границ. Моделирование границ раздела При наличии шероховатости поверхности и, или, размытости межслойных границ доля зеркально отраженного излучения уменьшается из-за граничного рассеяния, при этом встает необходимость учитывать потери энергии излучения. Вместо представления границы раздела как резкой скачкообразной смены коэффициента преломления используется функция профиля границы p(z) (рисунок 9). Функция p(z) предложена Стернсом (Stearns) и определяется как нормализованное среднее значение диэлектрической функции ( x ) n2 ( x ) вдоль координаты z: p( z ) ( x )dxdy , ( ) dxdy i (3.5.1) j i , z где ( x ) j , z (3.5.2) Здесь х и у координаты в плане структуры из i-того и j-того слоёв, разделённых переходным слоем. Стернс показал, что в случае не резкой границы Рисунок 9. Изображение профильной функции p(z), описывающей шероховатую или диффузную межслойную границу[11]. результирующие изменения зеркального отражения могут учитываться умножением коэффициентов отражения Френеля на функцию w~ ( s ) , которая 53 является преобразованием Фурье функции w( z ) dp / dz . При этом модифицированные коэффициенты Френеля запишутся ~ ( s ), rij rij w (3.5.3) i где si=4π cosθi/λ , λ – длина волны излучения Уменьшение зеркального отражения зависит только от усредненного по (x, y) изменения коэффициента преломления поперек границы, поэтому считается, что коэффициент отражения может уменьшаться как чисто шероховатой границей, имеющей резкий переход, так и чисто диффузной границей, в которой коэффициент преломления меняется плавно вдоль координаты z или границей описываемой комбинацией свойств шероховатой и диффузной границ. В программе IMD доступно использование пяти функций профиля границы p(z), которые представлены в таблице 3 вместе с соответствующими функциями w~ ( s ) . Таблица 3. Профильные функции p(z) и соответствующие коэффициенты w(s) , модифицирующие коэффициенты отражения Френеля[11] Название функции p(z) w(s) Функция ошибок 1 Экспоненциальная Линейная Синусоидальная z e t 2 / 2 2 dt e s 2 / 2 1 2z / ,z 0 2 e 1 1 e 2 z / , z 0 2 0, z 3 z 1 , z 3 2 2 3 1, z 3 0, z a 1 1 z , z a sin 2 2 2 a 1, z a 1 1 s 2 / 2 2 sin( 3s ) 3s sin( as / 2) sin( as / 2) 4 as / 2 as / 2 a / 2 8 Ступенчатая 1 ( z ) ( z ) 2 cos(s) 54 Функция ~(s) w может модифицироваться заменой si на sij 4 cosi cos j / для корректного учета эффекта шероховатости при наличии полного внешнего отражения рентгеновского излучения, когда углы падения меньше критического. Ширина каждой профильной функции p(z), представленной в таблице 3, задается параметром σ (рисунок 9), характеризующий ширину граничного слоя. Параметр шероховато - диффузной границы σ определяется как среднеквадратическое значение параметров σшер и σдиф: 2 2 (3.5.4) шер диф Если граница раздела содержит только шероховатость, то σ= σшер, в случае диффузной границы σ= σдиф , в промежуточных случаях по формуле (3.5.4). В программе IMD несовершенство границы задается пользователем выбором функции профиля границы p(z) и заданием параметра σ. Вычисление оптических функций многослойных структур Рассмотрим многослойную структуру как последовательность N слоев нанесенных на подложку (рисунок 10), пусть каждый i-й слой имеет толщину di, комплексный показатель преломления ni, шероховатость/диффузность σi. Комплексный показатель преломления окружающей среды - na, комплексный показатель преломления подложки - ns, тогда коэффициенты Френеля ri и ti запишутся ri ti rij rj e2i i 1 rij rj e2i i tijt j e , (3.5.5) , (3.5.6) 2 i j 1 rij rj e2i i где βi=2πdinicosθi/λ, коэффициент rij вычисляется по формуле 3.5.3 с учетом поляризации излучения, rj и tj – коэффициенты относящиеся к слою j. Рисунок 10. Многослойная структура с N слоями [11]. 55 Энергетический коэффициент отражения R и коэффициент пропускания T запишутся 2 R r , (3.5.7 а) n cos s 2 T Re s t . na cos a (3.5.7 б) При зеркальном отражении излучения (отсутствии рассеяния - S) коэффициент поглощения – A вычисляется как A 1 R T (3.5.7 в) Фазы отраженных и прошедших волн вычисляются по формулам 1 , Im( r ) tan Re( r ) 1 t . Im( t ) tan Re( t ) r (3.5.8 а) (3.5.8 б) Указание параметров поляризации излучения Падающее на структуру излучение может иметь не только строго s или p поляризованные компоненты, но и смешанную s и p поляризацию. Программа IMD высчитывает оптические свойства с учетом фактора поляризации f: Is I p f s , I Ip (3.5.9) где Is и Ip – интенсивность s и p компонент, соответственно. Так, в случае p поляризации f =-1, в случае s поляризации f =1, при неполяризованном излучении f =0. Для учета различной чувствительности приемников излучения к s и p поляризации в программе IMD задается коэффициент чувствительности q, определяемый как отношение чувствительностей к s и pполяризованному излучению. С учетом введенных значений f и q средний (промежуточный) коэффициент отражения высчитывается как Ra R s q(1 f ) R p (1 f ) , f (q 1) (q 1) (3.5.10) Аналогично вычисляются значения пропускания - Ta, поглощения - Aa, и интенсивности - Ia. Учет конечного углового и спектрального разрешения аппаратуры в программе IMD происходит на основе задаваемых параметров ширины гауссова распределения точности измерения углов δθ и длин волн δλ. Определение свойств не резких «многоуровневых» межслойных границ Межслойную границу можно представлять не только как резкий скачок значений оптических свойств. В некоторых случаях более адекватной будет модель структуры, представляющая границу между слоями как область с плавно изменяющимися значениями оптических свойств от одного материала к другому (рисунок 11). 56 Рисунок 11. Модель структуры с многоуровневой границей шириной wg, состоящей из Ng слоев. В программе IMD такая «многоуровневая» граница описывается тремя параметрами, шириной границы -wg, числом слоев - Ng на которые разбивается граница и фактором распределения Xg, определяющим положение многоуровневой границы по отношению к условной границе между слоями. Толщина каждого слоя многоуровневой границы определяется величиной wg / Ng. Оптические константы каждого слоя l =1,…,Ng определяется по формулам nl kl ( N g 1 l )ni l n j ( N g 1) ( N g 1 l ) ki l k j ( N g 1) , (3.5.11 а) . (3.5.11 б) С учетом введения многоуровневой границы толщина слоёв i и j с однородным распределением свойств уменьшается (рисунок 11), в результате толщины i-го слоя di и j- го слоя dj уменьшаются до di' и d 'j , соответственно: (3.5.12 а) di' di wg (1 X g ) ' (3.5.12 б) d j d j wg X g , где фактор распределения принимает значения 0<Xg<1. При этом общая толщина слоев сохраняется, т.е. di' + d 'j +wg= di+dj. 3.5.2 Определение неизвестных параметров структуры. Решение обратной задачи программой IMD Пусть функция Y(X) - любая из оптических функций Ra, Ta, Aa, а X – независимая переменная, например, длина волны λ или угол θ. Ставится задача определить значения p параметров, настраиваемых так, что функция Y(X) оказывается максимально близкой к множеству экспериментальных данных Ym ± δYm, полученному как функция независимой переменной Xm, где Xm принимает i=1,…,Nm дискретных значений. 57 Для решения данной задачи в программе IMD используется градиентный алгоритм Маркардта (Marquardt) или алгоритм Левенберга - Маркардта [13], основанные на критерии χ2 и минимизации функции S определяемой как (Y (i) Ym (i)) 2 , w(i) 2 i 1 Nm S (3.5.13) где w(i) – вес i-й точки. Пользователем определяется набор искомых параметров, для каждого из них задается значение начального приближения, также может определяться интервал допустимых значений. Итерации алгоритма происходят до тех пор, пока функция S не станет менее заранее заданного числа, или пока не выполнится заданное число итераций. Пользователь может выбрать несколько способов вычисления веса w(i): «инструментальное взвешивание», в котором значение веса определяется по степени доверия к значению каждой i-й точки; «статистическое взвешивание», в котором вес w(i) Ym (i) и «однородное взвешивание», в котором вес w(i)=1. Кроме этого функция S может минимизироваться с заменой числителя на (lnY(i) – lnYm(i))2. Вычисление доверительного интервала Кроме определения точечных значений p искомых параметров, дающих наилучшее соответствие экспериментальных и расчетных значений, необходимо определить допустимый диапазон этих параметров, который совместим с экспериментальными данными. Для этого в программе IMD предусмотрено вычисление доверительных интервалов для каждого из p определяемых параметров. Построение доверительных интервалов необходимо для оценки точности определения параметров, которая зависит от количества и формы области минимумов функции S. Более пологая область исследуемого минимума будет означать меньшую чувствительность метода к определяемым параметрам, т.к. изменение значений параметров приводит к незначительному изменению функции S в области минимума. Обозначим Smin как минимальное значение функции S (3.5.13), которое определяется значениями параметров, обеспечивающими наилучшее соответствие. Если известно, что при подгонке параметров используется критерий χ2, то значения Smin распределены в соответствии с функцией распределения χ2- хи-квадрат с N - p степенями свободы [11]: S min 2 ( ), (3.5.14) где α – значимость подгонки параметров. Значение Smin характеризует насколько модель, с подобранными p параметрами, соответствует экспериментальным данным. Например, если найдено, что Smin 2 (0.68), тогда можно сказать, что модель с вероятностью 0.68 корректно описывает экспериментальные данные. В этом случае доверительная область, имеющая значимость ' определяется как p-мерная область пространства параметров, где значение S меньше или равно некоторому значению SL: (3.5.15) S L Smin S ( ' ), Nm p Nm p 58 где S ( ' ) равно значению распределения хи - квадрат с p степенями свободы и значимостью ' . Таблицы распределения хи – квадрат приведены, например, в [14]. Вычисление доверительных интервалов проводится только после нахождения p параметров структуры. Программа IMD поддерживает построение многомерной доверительной области для не более чем 8 произвольно задаваемых параметров. Для этого пользователь задает диапазон и шаг изменения каждого параметра. Для каждого набора параметров вычисляется функция S (3.5.13) одним из двух методов, зависящих от размерности доверительной области. Если определены p параметров, и требуется построить pмерную доверительную область, то её построение проводится прямой подстановкой в (3.5.13) всех наборов p параметров из заданного ранее диапазона с заданным шагом. Двухмерная контурная визуализация величины хиквадрат может проводиться для любой пары из p параметров при фиксировании остальных p-2 параметров. Зависимость величины хи-квадрат от значения любого из p параметров строится при фиксировании p-1 параметров. Если требуется построить доверительную область для q < p параметров, то для этого используется алгоритм минимизации Маркардта, в котором при каждом наборе q параметров, определяемом заданной пользователем сеткой значений, варьируется только p-q параметров. В последнем случае значение S ( ' ) в (3.5.15) вычисляется как значение распределения хи- квадрат с q степенями свободы и значимостью ' . Для описания пользовательского интерфейса и получения более наглядного представления о работе программы IMD приведем пример, в котором описывается процесс задания параметров модели структуры, определение неизвестных параметров и вычисление доверительных интервалов. Пример анализа экспериментальных данных в программе IMD Получены экспериментальные данные об угловой зависимости коэффициента отражения-R, p-поляризованного излучения с длиной волны λ=632,8 нм, в диапазоне углов 37 - 82 градусов (с шагом 0.5 градусов), от структуры: пленка серебра - Ag, нанесенная на SiO2/Si. Известно, что толщина слоя серебра такова, что слой полупрозрачен. Требуется с помощью программы IMD определить 4 параметра пленки серебра: оптические константы n и k, толщину – z и шероховатость поверхности – σ, при условии, что известны толщина SiO2 (537.6 нм), оптические константы слоя SiO2 и подложки. Отметим, что в структуре существует два переходных слоя между слоями Si, SiO2 и между SiO2, Ag. Главное окно программы IMD состоит из 4 областей (рисунок 12). Область STRUCTURE служит для задания модели структуры. Ниже расположена область, которая в зависимости от положения переключателя служит для выбора и настройки зависимых переменных (DEPENDENT VARIABLES), независимых переменных (INDEPENDENT VARIABLES), связанных параметров (COUPLED PARAMETERS), подгоняемых параметров (FIT PARAMETERS). 59 Ниже располагается область, отображающая информацию о загруженных экспериментальных данных (MEASURED DATA). Самая нижняя панель служит для ввода команд на языке IDL, на котором написана программа IMD. а) Задание модели структуры На панели STRUCTURE нажимаем кнопку Add substrate для указания свойств подложки, появляется окно (рисунок 13). Нажимаем на кнопку Browse для выбора файла, содержащего спектральные зависимости коэффициента преломления - n и коэффициента поглощения - k кремния Si. Если имеются данные об оптических константах используемых материалов, отличные от табличных, то пользователь может самостоятельно создать текстовый файл с описанием оптических констант для используемых длин волн и загрузить их в программу IMD также как файлы стандартной библиотеки. Поменяв положение переключателя с Optical constants file name на Density and Composition можно задавать свойства подложки или слоя указанием плотности материала и атомов, из которых он состоит. Рисунок 12. Вид главного окна программы IMD 60 Рисунок 13. Окно SUBSTRATE программы IMD В области Vacuum/ * Interface окна SUBSTRATE можно выбирать функцию, описывающую профиль границы (Interface Profile) (Таблица 3), задавать шероховатость границы (Roughness/Diffuseness), задавать параметры, по которым вычисляется плотность спектральной мощности (кнопка Power-Spectral-Density), задавать параметры многоуровневой границы (кнопка Graded Interface). После ввода информации в любые текстовые поля IMD необходимо нажимать кнопку Enter для подтверждения изменения информации. Для завершения ввода информации в окне SUBSTRATE и её сохранения нажимаем кнопку Done. Для указания свойств первого слоя – SiO2 нажимаем кнопку Add Layer главного окна IMD, открывается окно LAYER (1), вид которого аналогичен окну SUBTRATE за исключением добавленной области для указания толщины слоя. Выбираем оптические свойства оксида кремния, указываем толщину слоя 537.6 нм. Аналогично указываем свойства слоя серебра. б) Выбор переменных и параметров В области задания переменных и параметров главного окна IMD указываем зависимые переменные (положение переключателя DEPENDENT VARIABLES). Считаем, что длина волны падающего излучения намного больше размеров шероховатости поверхности и отражение зеркальное (установлен переключатель Specular Optical Functiond/ Electric Fields), в случае диффузного отражения необходимо устанавливать переключатель Non-Specular Reflected Intensity. Исследуем угловую зависимость отражения, поэтому устанавливаем флажок Reflectance, Phase, Psi, Delta. Поля User 1- User 3 – служат для задания пользовательских функций, образованных от основных с помощью простых действий. Определяем независимые переменные, установив переключатель в положение INDEPENDENT VARIABLES. Задаем длину волны падающего излучения λ = 632,8 нм. Для этого щелкаем 2 раза на строке текстового поля 61 Wavelength, Lambda или нажимаем кнопку Edit при выделенной строке Wavelength, Lambda. Появляется окно Wavelength/Energies (рисунок 14). Рисунок 14. Окно Wavelength/Energies программы IMD Указываем values - число длин волн =1 и длину волны 632,8 nm. При необходимости исследовать спектральные зависимости указывается число длин волн большее 1, тогда появляется поле для задания равномерно разбиваемого диапазона длин волн. В поле для указания поляризации Incident Polarization указываем f=-1, т.к. в нашем случае используется p-поляризованное излучение, которому по формуле (3.5.9) соответствует значение f=-1. Устанавливаем значение Polarization Analyzer Sensitivity, q =1 предполагая, что чувствительность приемника излучения не зависит от поляризации. Подтверждаем ввод данных, нажимая Done. Аналогичным способом указываются угловые параметры. В окне Incidence Angles указываем диапазон углов from 35 to 85 (чуть шире экспериментального), число углов падения равномерно разбивающих диапазон (values) равно 100. Самое правое поле указывает шаг разбиения 0.5 градусов. Инструментальное разрешение измерений угла можно указать в поле Instrumental Angular Resolution, delta (Theta). Устанавливая переключатель главного окна программы IMD в положение COUPLED PARAMETERS можно задавать параметры слоя, которые связаны с параметрами другого слоя через мультипликативный коэффициент. Например, можно задать, что толщина 1 слоя всегда в 2 раза больше толщины 2 слоя. Если потребуется найти толщины 1 и 2 слоя, то программа будет находить параметры основного – 2 слоя, по которому определять толщину 1 слоя. Для указания искомых параметров на главном окне программы IMD устанавливаем переключатель в положение FIT PARAMETERS. Нажав кнопку Add, выбираем показатель преломления n серебра Ag, открывается окно Fit Parameter (рисунок 15). В поле Initial Value указывается начальное значение параметра, используемое в алгоритме определения неизвестных параметров структуры. По умолчанию в данном поле устанавливается табличное значение параметра соответствующее выбранному ранее материалу и длине волны. Поля Constrained from .. to – служат для указания области значений искомого параметра, на которой будет работать алгоритм минимизации функ62 ции S (3.5.13). Для тонкого слоя серебра показатель преломления может сильно отличаться от табличных значений для монолитного серебряного образца, поэтому задаем широкий диапазон возможных значений параметра n от 0 до 3. Рисунок 15. Окно Fit Parameter программы IMD. Флажок Compute confidence intervals for this parameter (вычислять доверительные интервалы для этого параметра) пока недоступен. Доступ к нему открывается после определения значения данного параметра по минимуму функции S (3.5.13). Повторяем всю последовательность действий для указания показателя поглощения серебра –k, как искомого параметра. Зададим начальное значение параметра 3, область возможных значений параметра от 0 до 5. Добавляем третий искомый параметр – толщину слоя серебра d. Указываем начальное значение 10 нм, диапазон возможных значений от 0 до 20. Четвертый параметр σ - шероховатость/диффузность границы вакуум – Ag, задаем диапазон значений от 0 до 5 нм, начальное значение 2 нм. в) Загрузка экспериментальных данных Загрузка данных может производиться из пользовательских файлов или из файлов созданных самой программой IMD в форматах *.txt и *.dat. Для загрузки экспериментальных данных используется главное окно IMD, File→Open Measured Data File, открывается окно Open Measured Data File (рисунок 16). Поле Command to read measured data files служит для указания формата расположения данных в файле: команда EROM – считывает данные из файла, символы Y_M, X_M – указывают, что в первом столбце располагаются значения, откладываемые по оси Y, во втором – по X. По умолчанию в данном поле введена строка EROM, X_M, Y_M, SIGY_M, где SIGY_M – указывает столбец значимостей значений измеряемых по оси Y. Эти значения могут использоваться как веса w(i) при «инструментальном взвешивании» функции S (3.5.13). 63 Рисунок 16. Окно Open Measured Data File программы IMD Ниже, в поле File contains Y_m и X_m выбираются величины, измеряемые по соответствующим осям. В полях Add to X_m (Y_m) values an offset factor указываются значения систематических аддитивных погрешностей (коэффициентов), которые будут добавляться к данным, считываемым из файла. В полях Scale X_m (Y_m and SigY_m) values by a factor указываются систематические мультипликативные погрешности (коэффициенты), на которые будут умножаться значения, считываемые из файла. Устанавливая флажок Only use measured data within specified range, можно ограничить диапазон используемых экспериментальных значений. Указав необходимые параметры, нажимаем кнопку Open Data File выбора файла, содержащего экспериментальные данные. После загрузки данных на главном окне IMD в области MEASURED DATA появляется информация о загруженных данных (количество точек, диапазон углов) и кнопка Cleared Data для удаления загруженных данных. г) Графическое построение зависимостей Для вывода зависимости построенной по загруженным экспериментальным данным и зависимости построенной по модельным данным нужно выбрать в окне IMD пункт меню Calculate→ Specular Optical Functions/Electric Fields. После этого запустится программа визуализации данных IMDXPLOT и появится окно Specular Optical Functions (рисунок 17). Красная кривая отображает зависимость коэффициента отражения от угла, построенную по экспериментальным данным, зеленая – построенную по модельным данным. На поля вынесена основная информация о заданных параметрах. Кнопка Add служит для задания формата и построения дополнительных кривых. 64 Рисунок 17. Построение экспериментальных и модельных зависимостей в окне Specular Optical Functions На рисунке 17 видно, что пока модельные данные сильно расходятся с экспериментальными, т.к. для слоя Ag было указано произвольное значение толщины 10 нм и заданы табличные значения оптических констант. д) Определение неизвестных параметров Для запуска процедуры поиска параметров наиболее соответствующих экспериментальным данным используется строка меню Calculate→Fit to Measured Data главного окна IMD. При этом проводится минимизация функции S (3.5.13) с использованием параметров определенных ранее пользователем в категории FIT PARAMETERS. После проведенной таким способом подгонки параметров, вид модельной кривой изменится свой (рисунок 18). Теперь в окне Specular Optical Functions выводится новая информация об определенных параметрах, в которой сообщается, что алгоритм совершил 43 итерации (довольно много), значение функции S как величины подчиняющейся распределению хи-квадрат равно 8.754 E-5, что является очень хорошим соответствием настроенной модели и экспериментальных данных. Число 8.754 E-5, деленное на число степеней свободы (число экспериментальных точек за вычетом числа неизвестных параметров) дает величину хи – квадрат приходящуюся на одну степень свободы. 65 Рисунок 18. Построение экспериментальных и модельных зависимостей в окне Specular Optical Functions после определения параметров модели структуры Строкой ниже сообщается, что применялся алгоритм Маркардта без использования веса (т.е. взвешивание однородное, w=1), далее указываются начальные значения определяемых параметров (Initial values) и конечные значения (Final Values) – как результат определения неизвестных параметров структуры. Итак, программа IMD позволила обработать экспериментальные данные, определив, что слой серебра Ag, нанесенный на SiO2/Si имеет показатель преломления n=1.814, показатель поглощения k=2.964, толщину слоя z=11.33 нм, шероховатость поверхности пленки серебра σ=1.0 нм. Для открытия окна (рисунок 19) настройки алгоритма подгонки параметров в программе IMD существует кнопка Curve-Fit Parameters…, располагающаяся в окне IMD при установлении переключателя в положение Fit Parameters. Здесь выбирается один из двух алгоритмов определения неизвестных параметров (Маркардта или Левенберга - Маркардта). Если алгоритм не будет сходиться, то программа поиска завершит свою работу после числа итераций, указываемом в поле Maximum number of iteration. 66 Рисунок 19. Окно настройки алгоритмов поиска неизвестных параметров Ниже расположен переключатель, выбирающий способ определения веса w(Без веса, «Статистическое взвешивание», «Инструментальное взвешивание»). Флажок напротив строки Logarithmic Fitting- устанавливает, что определение параметров будет проводиться сравнением логарифмов значений модельной и экспериментальной кривых. Флажок напротив Scale Reflectance data открывает поле для задания коэффициента, умножающего значения коэффициента отражения, флажок напротив Add fixed offset to Reflected data – открывает поле для задания величины постоянного смещения коэффициента отражения. е) Построение доверительных областей Построение доверительных областей (интервалов) становится необходимым в случаях, когда необходимо оценить чувствительность метода определения неизвестных параметров структуры в некоторой области значений. Построение доверительных областей полезно также при выборе начальной точки приближения, т.к. можно визуально отслеживать минимумы функции S (3.15.13), наиболее точно настраивающие модель на экспериментальные данные. После численного определения параметров структуры, для каждого параметра в категории Fit Parameters открывается доступ к полям доверительных интервалов в окне Fit Parameter (флажок Compute confidence intervals for this parameter на рисунке 15). В полях Parameter Grid вводим количество частей, на которые разбивается диапазон значений параметра задаваемый здесь же. Построим доверительную область для определенных ранее оптических констант - n, k и толщины - z серебряного слоя. Для этого введем в соответствующее окно для n диапазон значений от 0 до 3 с разбиением на 30 частей, для k диапазон значений от 2 до 5 с разбиением на 30 частей и для в диапазон от 5 до 15 нм с разбиением на 20 частей. Оптические константы заданы так, что перекрывают и табличные значения для монолитного серебра и значения для тонкой пленки, определенные из эксперимента. Для запуска вычислений 67 доверительных интервалов используем меню окна IMD Calculate→ Confidence Intervals. По окончании счета появляется окно Confidence Intervals (рисунок 20). Ниже поля графиков располагается переключатель, определяющий вид графиков: контурный, заполненный цветом контурный или контурный с цветовым изображением величины хи-квадрат. Ниже расположены области CONFIDANCE LEVEL, FIT PARAMETERS и FIXED CURVES (предназначена для задания параметров дополнительных кривых). Движок Display области CONFIDANCE LEVEL задает в процентах величину значимости ' в формуле (3.5.15). По значению ' и по числу степеней свободы рассчитывается соответствующая величина χ2 , которая дает величину S ( ' ) в (3.5.15). Если в поле Confidence interval, находящееся рядом с движком Display установлено значение independent (независимый, т.е. для каждого параметра отдельно), то будет считаться, что число степеней свободы в распределении χ2 равно 1, при значении joint (объединенный) – число степеней свободы будет равно числу неизвестных параметров. В формуле (3.5.15) величина Smin определяется в процессе поиска значений неизвестных параметров, величина S ( ' ) определяется в процессе построения доверительных интервалов в окне Confidence Intervals. Сумма Smin+ S ( ' ) задает доверительную область. Поясним смысл доверительной области. Доверительная область заключает внутри себя те значения параметров, которые обеспечивают соответствие экспериментальных и модельных данных на количество процентов не ниже (100 ' ) . Так, на рисунке 20 изображена доверительная область значений толщин слоя- z и показателей поглощения - k, задано значение значимости ' 7 %, следовательно, доверительная область заключает внутри себя значения параметров, дающих не менее чем 93 процентное соответствие экспериментальных и модельных данных. Проценты высчитываются относительно полного соответствия, когда S ( ' ) =0, а доверительные интервалы сходятся в точке Smin. Если количество неизвестных параметров более одного, то появляется область FIT PARAMETERS. Флажок Continue variable установленный напротив параметра означает, что он будет принимать значения из диапазона определенного ранее в окне Fit Parameter (рисунок 15). При отметке флажком одного параметра строится двухмерная зависимость χ2 от соответствующего параметра (рисунок 21). Если отмечено два параметра, то строится двухмерное изображение распределения величины χ2, где по осям откладываются значения параметров, а цветом обозначается величина χ2 (рисунок 12). Изображение распределения величины χ2 можно строить для любой пары неизвестных параметров. 68 Рисунок 20. Окно Confidence Intervals подпрограммы IMDXPLOT Если напротив параметра флажок Continue variable снят, то движком Index для него можно выбрать конкретное значение из заданного ранее диапазона. При этом каждому значению параметра будет соответствовать свое распределение величины χ2 . На рисунке 21 строится зависимость величины χ2 от показателя поглощения k слоя серебра (зеленая линия), т.к. в области Fit Parameter отмечено, что параметр k принимает диапазон значений. Флажки напротив значений параметров n и z сняты, их значения можно изменять движком Index. На рисунке приведен случай, когда параметры n и z имеют значения близкие к тем, что определены во время подгонки параметров. В области CONFIDANCE LEVEL установлено значение 7%, в поле Confident Interval значение independent, потому доверительные интервалы строятся на основе распределения χ2 с одной степенью свободы и значимостью 0.07 (в 69 программе IMD при вычислении доверительных интервалов аргументом распределения χ2 является величина 1 ' ). Рисунок 21. Окно Confidence Intervals, двухмерная зависимость На рисунке 21 доверительный интервал обозначен белыми линиями. Уровень горизонтальной белой линии определяется прибавлением величины χ2 (1- ' =0.93)=0.01 к минимальному значению Smin . Пересечение горизонтальной белой линии с зеленой линией дискретного распределения χ2(k) дает искомый доверительный интервал, который показывает, что в данном случае величина показателя поглощения k в диапазоне от 2.92 до 3.03 даст не менее 70 чем 93 процентное соответствие модельных и экспериментальных данных, при значениях n=1.86 и z= 11.84 нм. Построение доверительных интервалов при меньшем шаге параметров показало, что 99 процентное соответствие гарантируется при изменении значений показателя поглощения в диапазоне от 2.923 до 2.953 и фиксированных значениях n=1.79, z=11.53. Описанные возможности показывают, что программа IMD является попыткой интегрировать моделирование и определение свойств многослойных структур, проводимые спектральными и угловыми методами; в рентгеновском, ультрафиолетовом, видимом и инфракрасном диапазонах длин волн; при зеркальном и диффузном отражении; при наличии несовершенства границ слоев или моделировании многоуровневых границ. IMD соединяет средства моделирования данных, полученных как по измерению интенсивности, так и по измерению поляризационных характеристик. К трудностям, которые могут появиться при работе с IMD, можно причислить использование значений оптических констант не соответствующих исследуемому образцу. При попытках использования табличных значений оптических констант нужно помнить, что они зависят не только от длины волны, но в меньшей степени и от того какой справочник мы используем. При диагностике многослойных структур наилучшим вариантом будет измерение оптических параметров подложки и последующее измерение параметров каждого слоя после его формирования или измерение параметров in situ. Еще одной трудностью является задание начальной точки приближения для алгоритма поиска значений неизвестных параметров, т.к. от этого может сильно зависеть результат счета. В этом контексте построение величины χ2 как функции искомых параметров изменяющихся в широком диапазоне может служить ориентиром для выбора такой точки. В описании программы указана возможность определения 8 неизвестных параметров структуры, однако, на практике точность определения параметров программой IMD уменьшается с ростом их числа и наблюдается повышение чувтсвительности решения к начальной точки приближения. В целом программа IMD является примером детально продуманной среды моделирования свойств многослойных структуры, с богатым набором и гибкой настройкой характеристик модели и возможностью проводить многопараметровое определение неизвестных величин. В сочетании с хорошей визуализацией количественных данных совокупность этих возможностей может стать мощным диагностическим средством в руках квалифицированного исследователя. 71