НАДЕЖНОСТЬ ИНФОРМАЦИОННЫХ СИСТЕМ 2 Содержание 1 1.1 1.2 1.3 ОБЩИЕ ПОЛОЖЕНИЯ ТЕОРИИ НАДЕЖНОСТИ ....................................... 4 Основные понятия и определения ..................................................................... 4 Классификация отказов ...................................................................................... 6 Характеристики надежности при внезапных и постепенных отказах ........... 8 1.3.1 1.3.2 1.3.3 1.3.4 Показатели безотказности ....................................................................................................... 9 Показатели ремонтопригодности. ........................................................................................ 12 Показатели долговечности. ................................................................................................... 13 Показатели сохраняемости.................................................................................................... 13 1.4 1.5 Комплексные показатели надежности ............................................................ 14 Показатели надежности сложных объектов ................................................... 16 1.5.1 1.5.2 Последовательное соединение элементов. .......................................................................... 16 Параллельное соединение элементов. ................................................................................. 17 2 2.1 2.2 ОСНОВЫ РАСЧЕТОВ НАДЕЖНОСТИ ........................................................ 19 Области использования расчетов надежности ............................................... 19 Характеристики случайных величин и случайных событий ........................ 20 2.2.1 2.2.2 Расчет надежности с использованием элементов математической логики ..................... 27 Расчет надежности восстанавливаемых систем .................................................................. 29 3 ОПТИМАЛЬНОЕ РЕЗЕРВИРОВАНИЕ В ОТКАЗОУСТОЙЧИВЫХ ВЫЧИСЛИТЕЛЬНЫХ СИСТЕМАХ .......................................................................... 33 3.1 Исходные положения ........................................................................................ 33 3.2 Оптимальное распределение резервов методом неопределенных множителей Лагранжа ...................................................................................... 34 3.3 Оптимальное резервирование методом динамического программирования ............................................................................................................................. 39 4 КОНТРОЛЬ И ДИАГНОСТИКА ИНФОРМАЦИОННЫХ СИСТЕМ ........ 43 4.1 Общие положения ............................................................................................. 43 4.2 Методы аппаратурного контроля .................................................................... 46 4.2.1 Программно-логические методы контроля ......................................................................... 50 4.3 Тестовый контроль ............................................................................................ 53 5 ПРИНЦИПЫ ПОСТРОЕНИЯ ОТКАЗОУСТОЙЧИВЫХ ИНФОРМАЦИОННЫХ СИСТЕМ .............................................................................. 55 5.1 Основные задачи создания отказоустойчивых систем ................................. 55 5.2 Способы и средства устранения последствий ошибок и отказов в ИС ....... 57 5.3 Способы восстановления отказоустойчивой ИС ........................................... 59 6 ИСПЫТАНИЯ НА НАДЕЖНОСТЬ ............................................................... 61 6.1 Значение и виды испытаний на надежность .................................................. 61 6.2 Задачи, возникающие при испытаниях на надежность ................................. 62 6.3 Выводы об испытаниях на надежность информационных систем ............. 64 3 4 1 ОБЩИЕ ПОЛОЖЕНИЯ ТЕОРИИ НАДЕЖНОСТИ 1.1 ОСНОВНЫЕ ПОНЯТИЯ И ОПРЕДЕЛЕНИЯ Надежность - свойство объекта сохранять во времени в установленных пределах значения всех параметров, характеризующих способность выполнять требуемые функции в заданных режимах и условиях применения, технического обслуживания, ремонтов, хранения и транспортирования (ГОСТ 27.002-83). Надежность является одной из важнейших характеристик качества объекта совокупности свойств, определяющих пригодность его использования по назначению. Но в отличие от точечных характеристик качества (быстродействие, производительность и т.д., которые измеряются для некоторого момента времени), надежность характеризует зависимость точечных характеристик качества либо от времени использования, либо от наработки объекта, т.е. надежность - характеристика временная. Элемент – один или несколько однотипных устройств, предметов, испытуемых образцов, имеющих количественные характеристики надежности, учитываемые при расчете надежности всего соединения. Ячейка – отдельная конструкция, не имеющая самостоятельного функционального назначения. Узел – несколько деталей, ячеек, объединенных для выполнения определенных функций, но не имеющих самостоятельного эксплуатационного назначения (регистр команд, регистр флагов). Устройство – соединение деталей, узлов, имеющее самостоятельное эксплуатационное назначение (блок питания). Прибор – группа блоков, имеющая конструктивно самостоятельное назначение. Установка – группа приборов. Система – устройство, состоящее из нескольких установок. Надежность его имеет самостоятельное значение. Различают системы восстанавливаемые (после отказа их можно ремонтировать) и невосстанавливаемые. Системы могут быть однократно и многократно использованы. Надежность - это сложное свойство, включающее в себя более простые свойства объекта, которые называются сторонами надежности. Сторонами надежности являются: 1. Безотказность - свойство объекта непрерывно сохранять работоспособность в течение некоторого времени или некоторой наработки. Наработка - время работы объекта до первого отказа. 2. Ремонтопригодность - свойство объекта, заключающееся в приспособленности его к предупреждению и обнаружению отказов и восстановлению работоспособности объекта либо путем проведения ремонта, либо путем замены отказавших элементов. 5 3. Долговечность - свойство объекта сохранять работоспособность до наступления предельного состояния при установленном режиме технического обслуживания и ремонта. 4. Сохраняемость - свойство объекта сохранять работоспособность в течение и после его хранения и (или) транспортирования. 5. Работоспособность - такое состояние объекта, при котором он способен выполнять заданные функции, удовлетворяя требованиям нормативнотехнической документации. Работоспособность - это характеристика состояния объекта в некоторый момент времени. Для оценки надежности ИС находят применение дополнительные стороны надежности: 1. Живучесть - свойство объекта или системы сохранять работоспособность (полностью или частично) в условиях неблагоприятных воздействий, не предусмотренных нормативными условиями эксплуатации. 2. Сбой - кратковременное нарушение работоспособности системы, после которого работоспособность восстанавливается оператором без проведения ремонта или самовосстанавливается. 3. Ошибка - проявление сбоя или отказа компонента ИС. 4. Достоверность информации - свойство системы выдавать достоверную информацию при возникновении в ней сбоев. 5. Отказоустойчивость - свойство системы продолжать выполнение заданных функций после возникновения одного или нескольких сбоев или отказов отдельных элементов. 6. Конфигурация - совокупность и способ взаимодействия программных и аппаратных средств системы, направленных на выполнение рабочего задания. 7. Реконфигурация - изменение состава и способа взаимодействия программных и аппаратных средств системы с целью исключения отказавших элементов. 8. Ремонт - восстановление работоспособности системы с помощью специалистов. 9. Избыточность - дополнительные программные и аппаратные средства, возможности алгоритма для выполнения дополнительных функций, предназначенных для повышения надежности ИС. Алгоритмическая избыточность - способность обеспечить правильный результат, несмотря на возможные отдельные ошибки в ходе вычислений. Информационная избыточность - некоторое повторение информации в той или иной форме, позволяющее восстанавливать исходные данные в случае каких-либо нарушений в работе системы. Характерным способом введения избыточности является резервирование - использование дополнительных средств и возможностей с целью сохранения работоспособности системы при отказе одного или нескольких ее элементов. Различают статическую и динамическую избыточность. Статическая избыточность реализуется автоматически сразу после возникновения отказа: система построена так, что после отказа ее ненарушенная часть позволяет продолжить выполнение задания. Динамическая из- 6 быточность реализуется только после некоторой перестройки работы системы, получившей сигнал об отказе от устройства контроля. 10. Отказ - событие, заключающееся в том, что система полностью или частично теряет свойство работоспособности. В непосредственной связи с понятием «надежность» находится понятие «эффективность». Эффективностью системы называется свойство выдавать некоторый полезный результат (эффект) при использовании ее по назначению. Надежность и эффективность – взаимосвязанные понятия. Чем выше надежность, тем выше и эффективность системы, но до определенного уровня, так как дальнейшее повышение надежности сопряжено с существенными экономическими затратами. Различают эффективность номинальную, реальную, техническую, экономическую. Эффективность номинальная - это эффективность системы при безотказном ее состоянии. Эффективность реальная - это эффективность реальной системы, т.е. не обладающей идеальной надежностью. Эффективность техническая - это технический эффект, полученный при использовании объекта (количество переданной информации, снижение затрат времени и т.п.). Эффективность экономическая - степень выгодности экономических затрат при использовании системы. Слияние показателей надежности и показателей эффективности в комплексный показатель позволяет получить - коэффициент сохранения эффективности: Ýð , K ýôô Ý íîì где Ý ð - реальное значение эффективности; Ý íîì - номинальное значение эффективности. В качестве показателей Ý ð и Ý íîì могут выступать, например, номинальная и реальная пропускные способности системы массового обслуживания. Рассмотренные определения позволяют сделать вывод о том, что надежность можно характеризовать как способность системы работать безотказно в заданных условиях эксплуатации. В наиболее общих случаях надежность ИС и вычислительных машин определяется как сочетание безотказности, ремонтопригодности и долговечности. 1.2 КЛАССИФИКАЦИЯ ОТКАЗОВ Отказы объектов могут классифицироваться по многим признакам, например, по условиям возникновения, внешним проявлениям, способам обнаружения. В табл. 1.1 приведена классификация отказов по основным признакам. При анализе надежности конкретного объекта классификация его отказов позволяет выявить причины отказов, а значит, найти пути повышения надежности. 7 Следует отметить, что в общей массе отказов ЭВМ преобладают сбои, т.е. самоустраняющиеся отказы. Хотя сбои и рассматриваются как самоустраняющиеся отказы, для устранения их влияния на вычислительный процесс, как правило, требуется принятие специальных мер (введение дополнительных программ устранения последствий сбоев, дополнительной аппаратуры, вмешательства оператора). Это обусловлено тем, что во время сбоев может быть искажена часть данных, хранимых в памяти ЭВМ. Более подробно остановимся на внезапных и постепенных отказах. Внезапному отказу может не предшествовать постепенное накопление повреждений, он возникает внезапно. Причинами внезапных отказов электронной аппаратуры обычно являются скрытые дефекты их производства. В процессе эксплуатации могут создаться условия (пиковые нагрузки, тряска, вибрация, температурный скачок, помехи), при которых скрытый дефект приводит к отказу элемента. Таблица 1.1 Классификационный признак Значение классификационного признака Вид отказа 1. Характер изменения основных параметров объекта до момента возникновения отказа Скачкообразное изменение одного или нескольких параметров Внезапный отказ Постепенное изменение одного или нескольких основных параметров Постепенный отказ 2. Взаимосвязь отказов Отказ элемента объекта не обусловлен повреждениями или отказами других элементов объекта Независимый отказ элемента Отказ элемента объекта обусловлен повреждениями или отказами других элементов объекта Зависимый отказ элемента Нарушение установленных правил и (или) норм конструирования, несовершенство принятых методов конструирования Конструкционный отказ Нарушение установленного процесса изготовления или ремонта объекта, несовершенство технологии Производственный отказ Нарушение установленных правил и (или) условий эксплуатации объекта Эксплуатационный отказ Неработоспособность сохраняется устойчиво Устойчивый отказ Неработоспособность сохраняется кратковременно, после чего работоспособность самовосстанавливается или восстанавливается оператором без проведения ремонта Самоустраняющийся отказ (сбой) Неработоспособность одного и того же характера возникает и самоустраняется многократно Перемежающийся отказ 3. Происхождение отказов 4. Устойчивость неработоспособного состояния (характер отказа) 8 Постепенный отказ возникает в результате постепенного накопления повреждений, главным образом, вследствие износа и старения материалов. В следствии разной природ происхождения, внезапные и постепенные отказы подчиняются различным закономерностям, поэтому должны быть различны и способы борьбы с ними. Для уменьшения числа внезапных отказов используется тренировка и приработка систем в условиях, близких к условиям эксплуатации, с целью выявления скрытых дефектов производства, а также введение защиты от помех, перегрузок, вибрации и т.п. Уменьшению числа постепенных отказов способствует своевременная замена блоков, выработавших свой технический ресурс. Отказы в ИС целесообразно подразделять на аппаратные и программные. Аппаратным отказом принято считать событие, при котором изделие утрачивает работоспособность и для его восстановления требуется проведение ремонта аппаратуры или замена отказавшего изделия на работоспособное. Программным отказом считается событие, при котором объект утрачивает работоспособность по причине несовершенства программы (несовершенство алгоритма решения задачи, отсутствие программной защиты от сбоев, отсутствие программного контроля за состоянием изделия и т.д.). Программный отказ устраняется путем исправления программы. работы): (1.1) P( t ) P( T t ) , 1.3 ГДЕ Т ХАРАКТЕРИСТИКИ НАДЕЖНОСТИ ПРИ ВНЕЗАПНЫХ И ПОСТЕПЕННЫХ ОТКАЗАХ Показатели надежности – это количественные характеристики одного или нескольких свойств, определяющих надежность системы. В основе большинства показателей надежности лежат оценки наработки, т.е. продолжительности или объема работы, выполненной объектом. По отношению к ЭВМ и ее элементам обычно в качестве наработки рассматривают только продолжительность работы. Когда система работает с перерывами, учитывается суммарная наработка. Если объект эксплуатируется в различных режимах, влияющих на показатели надежности, то наработки могут суммироваться для каждого режима отдельно. Показатель надежности, относящийся к одному из свойств, определяющих надежность объекта, называется единичным. Комплексный показатель надежности относится к нескольким свойствам, определяющим надежность системы. И единичные и комплексные показатели являются вероятностными характеристиками, т.е. случайными величинами. При рассмотрении показателей надежности следует различать: наименование показателя; формулировку показателя, содержащую указание о способах экспериментального или расчетного определения его численного значения; численные значения показателя. 9 1.3.1 ПОКАЗАТЕЛИ БЕЗОТКАЗНОСТИ Вероятность безотказной работы P(t) – вероятность того, что в пределах заданной наработки отказ не возникает (наработка – это продолжительность или объем – случайное время работы объекта до отказа; t – заданная наработка. Этот показатель обладает следующими свойствами: P( t ) 1 , т.е. до начала работы ( t 0 ) система являлась безусловно работоспособной; P( t ) – невозрастающая функция времени; lim P( t ) 0 , т.е. объект не может сохранять свою работоспособность неt ограниченно долго. Вероятность отказа Q( t ) – вероятность того, что в пределах заданной наработки отказ объекта возникает: Q( t ) 1 P( t ) , (1.2) Она характеризует вероятность того, что случайное время T работы объекта до отказа меньше заданного времени t ( t T ). Под T понимается непрерывная случайная величина, для которой существует плотность распределения наработки до отказа: d f ( t ) F( t ) , (1.3) dt где F(t) - функция распределения времени до отказа, совпадающая с функцией Q(t): t Q( t ) F ( t ) f ( t )dt , (1.4) 0 Средняя наработка до отказа t – математическое ожидание наработки объекта до первого отказа (среднее время до отказа): 0 0 t t f ( t )dt t P( t ) 0 P( t )dt P( t )dt , 0 (1.5) где t – время от начала работы невосстанавливаемого объекта до его отказа. Наработка на отказ – отношение наработки восстанавливаемого объекта к математическому ожиданию количества его отказов в течение этой наработки. Для ЭВМ этот показатель называется средним временем между отказами. Если после каждого отказа объект восстанавливается до первоначального состояния, то среднее время между отказами равно среднему времени до отказа. Интенсивность отказов – условная плотность вероятности возникновения отказа невосстанавливаемого объекта, определяемая для рассматриваемого момента времени при условии, что до этого момента отказ не возник: 10 d d dP( t ) F( t ) ( 1 P( t )) f ( t ) dt (1.6) dt , ( t ) dt P( t ) P( t ) P( t ) P( t ) Интенсивность отказов показывает, какая часть элементов выходит из строя в единицу времени по отношению к среднему числу исправно работающих элементов. Внезапные отказы Постепенные отказы 0 t t1 t2 Рис. 1.1. Зависимость интенсивности отказов от времени. Как видно из рис. 1.1, работа элементов и систем характеризуется тремя этапами. Начальный этап (период доводки – [0, t1]) отличается небольшим количеством отказов. Здесь выходят из строя элементы с малым запасом прочности. Второй этап (t1, t2) – период нормальной эксплуатации – характеризуется пониженным уровнем и примерным постоянством интенсивности отказов. Здесь отказы в основном носят внезапный характер. Продолжительность этого периода зависит от среднего срока службы элементов и условий эксплуатации. Третий этап (от t2 и далее) – период износа и старения. Он характерен значительным ростом числа отказов; с наступлением этого периода дальнейшая эксплуатация системы становится нецелесообразной. Решая соотношение (1.6) как линейное однородное дифференциальное уравнение первого порядка относительно функции безотказности, получим связь между ( t ) и P( t ) : dP( t ) ; ( t )dt P( t ) t t dP( t ) . Первообразная подынтегральной функP ( t ) 0 ( t )dt 0 t ции равна ln P( t ) , тогда ( t )dt ln P( 0 ) ln P( t ) . 0 t При начальном условии P( 0 ) 1 получим ln P( t ) ( t )dt , откуда: 0 t ( t )dt P( t ) e 0 , (1.7) 11 В частном случае, когда ( t ) const , выражение (1.7) представляет собой экспоненциальный закон надежности. По этому закону вероятность безотказной работы элементов, обладающих интенсивностью отказов , убывает со временем по экспоненциальной кривой (рис. 1.2). P(t) t Рис.1.2. Функция надежности. Это справедливо для периода нормальной эксплуатации системы, когда эффект износа неощутим. Такую кривую называют функцией надежности. Она имеет большое значение для практического использования, когда необходимо знать, с какой вероятностью АСУ или ИС способна выполнить задание, требующее определенной продолжительности безотказной работы. Подставив значение P(t) в (1.5), получим: t ( t )dt t e dt. 0 0 Если ( t ) равна постоянной величине, то t e t dt 0 где 1 (1.8) 1 – среднее число отказов в единицу времени. Тогда (1.7) принимает вид: t t P( t ) e (1.9) По известной из курса теории вероятностей формуле дисперсия времени безотказной работы: D[ T ] ( t 0 1 )2 e t dt. Это выражение после интегрирования дает значение 1 / 2 . При этом среднеквадратичное отклонение D [ T ] 1 / 12 Таким образом, для нормального периода эксплуатации системы интенсивность отказов остается постоянной и справедлива показательная модель надежности, время безотказной работы имеет экспоненциальный закон распределения. Параметр потока отказов (средняя частота отказов) ( t ) – плотность вероятности возникновения отказа восстанавливаемого объекта, определенная для рассматриваемого момента времени. Если система состоит из n элементов, находящихся в нормальной эксплуатации и работающих в одинаковых условиях, и в ней за время t наблюдалось m отказов, то параметр потока отказов будет составлять: m nt При ( t ) const средняя частота отказов ( t ) ( t ) const . 1.3.2 ПОКАЗАТЕЛИ РЕМОНТОПРИГОДНОСТИ. Вероятность восстановления в заданное время – вероятность того, что время восстановления не превысит заданного. Время, затрачиваемое на обнаружение и устранение отказов, является случайной величиной, зависящей от ряда факторов: квалификации обслуживающего персонала, качества применяемых в системе испытательных программ, полноты контроля и сигнализации и т.п. Закон распределения времени обнаружения и устранения отказов приближается к экспоненциальному. Среднее время восстановления t â – это математическое ожидание времени восстановления работоспособности, т.е. времени, затраченного на поиск и устранение неисправностей. Если на отыскание и устранение m отказов было затрачено время t1 ,t1 ,...t m , то среднее время восстановления объекта можно определить как: 1 m (1.10) tâ m ti i 1 Пример 1.1. Интенсивность отказов элемента ( t ) at (1/ч). Определить плотность распределения наработки до отказа f ( t ) . Решение В соответствии с выражением (1.6) f ( t ) ( t ) P( t ) . С другой стороны P( t ) e at 2 2 P( t ) e t ( t )dt 0 . Таким образом, f ( t ) at e t , где at 2 2 at 2 ( t )dt 2 ; следовательно, 0 . Пример 1.2. Какова вероятность безотказной работы объекта в течение средней наработки до отказа P( t ) , если плотность распределения наработки до отказа f ( t ) e t . 13 Решение Искомая характеристика находится по формуле (1.7): t P( t ) exp ( t )dt , где t P(t )dt . 0 0 С другой стороны P( t ) f ( t ) e t e t ( t ) (1.6); следовательно, t P( t ) e ( t )dt 0 e 1 0 ,37 . 1.3.3 ПОКАЗАТЕЛИ ДОЛГОВЕЧНОСТИ. Долговечность системы характеризуется ее наработкой от начала эксплуатации до наступления предельного состояния. Эта наработка называется техническим ресурсом. Ресурс для каждого объекта может быть величиной случайной. Долговечность ИС и ее элементов может оцениваться следующими показателями. Средний ресурс – математическое ожидание ресурса. Гамма-процентный ресурс – время, в течение которого объект не достигает предельного состояния с заданной вероятностью процентов. Назначенный ресурс – установленная в нормативно-технической документации суммарная наработка, при достижении которой дальнейшее применение системы по назначению следует прекратить независимо от ее технического состояния. 1.3.4 ПОКАЗАТЕЛИ СОХРАНЯЕМОСТИ. В режиме хранения и (или) транспортирования, так же как и в режиме использования, могут возникать отказы, поэтому сохраняемость характеризуется показателями, аналогичными показателям безотказности: вероятностью невозникновения отказов в течение заданного времени хранения (транспортирования), средним временем хранения до отказа, интенсивностью отказов и параметром потока отказов при хранении. Однако основным в эксплуатации системы является применение, непосредственное ее использование по назначению, поэтому особое значение приобретает оценка влияния хранения и транспортирования на последующее поведение объекта в рабочем режиме. Показатели сохраняемости характеризуют величину срока сохраняемости – календарной продолжительности хранения (транспортирования) объекта в заданных условиях, в течение и после которой сохраняются значения заданных характеристик в установленных пределах. Средний срок сохраняемости – математическое ожидание срока сохраняемости. Гамма-процентный срок сохраняемости – срок сохраняемости, который будет достигнут объектом с заданной вероятностью процентов. 14 1.4 КОМПЛЕКСНЫЕ ПОКАЗАТЕЛИ НАДЕЖНОСТИ Обычно комплексные показатели надежности используются для совместной оценки свойств безотказности и ремонтопригодности восстанавливаемых объектов. Коэффициент готовности – вероятность того, что восстанавливаемый объект окажется работоспособным в произвольный момент времени его использования по назначению: t Kà P , (1.11) tP t где t P – суммарное время нахождения объекта в работоспособном состоянии; t  – суммарное время восстановления объекта. Формула (1.11) широко применяется в инженерной практике. Степень ее приближения к истинному значению Кг тем больше, чем больше интервал времени, на котором определяется tp. Поток отказов и восстановлений при этом становится установившимся и Кг приобретает стационарный характер. Коэффициент готовности, как правило, учитывает свойства аппаратурной безотказности и восстанавливаемости. Если под отказом понимать не только отказ аппаратуры, но любой отказ системы в выполнении заданных функций (в том числе вызванный дефектами программного обеспечения, снижением достоверности и т.п.), тогда Кг может выполнять роль комплексного показателя надежности ИС, учитывающего и другие свойства системы. Поэтому при использовании коэффициента готовности необходимо указывать, какие свойства объекта он учитывает. Коэффициент оперативной готовности – вероятность того, что объект, находясь в режиме ожидания, окажется работоспособным в произвольный момент времени и, начиная с этого момента, будет работать безотказно в течение заданного времени: (1.12) K Îà K à P(t ç ), где P(tз) - вероятность безотказной работы на интервале заданного времени. Коэффициент вынужденного простоя – вероятность того, что объект окажется неработоспособным в произвольный момент времени в промежутках между плановыми ремонтами: t t K 1 Ê Ã 1 Ð Â . (1.13) tP t tP t Коэффициент сохранения эффективности – это отношение показателя эффективности реального с точки зрения надежности объекта к показателю эффективности того же объекта при условии его идеальной надежности: W Ê ÝÔÔ . (1.14) W0 15 В качестве показателя эффективности может быть принята вероятность безотказной работы ЭВМ (в этом случае Ê ÝÔÔ Ê Îà ) или пропускная способность системы массового обслуживания. Достоверность функционирования информационной системы – это свойство производить безошибочно преобразование, хранение и передачу информации. Показатель достоверности – либо вероятность искажения, либо потери информации в одном знаке. Примерами количественной оценки достоверности могут служить следующие: вероятность ошибки при передаче данных по линиям связи составляет 10 -3 - 10-5 на один знак; вероятность ошибки при хранении информации на машинном носителе составляет 210-6; вероятность ошибки в выходных данных АСУ специального назначения не должна превышать 10-10 - 10-12 на один знак. Отличительными чертами сложных систем (АСУ, ИС, ВС) являются: многоканальность, т.е. наличие нескольких каналов, каждый из которых выполняет определенную функцию, частную по отношению к общей задаче системы; многосвязность, т.е. большое количество функциональных связей между элементами системы; наличие вспомогательных и дублирующих устройств. В связи с перечисленными особенностями сложная система может находиться в нескольких работоспособных состояниях, так как выход из строя некоторых ее элементов не вызывает полного отказа системы, т.е. прекращения ею заданных функций, но ухудшает в той или иной степени качество функционирования. Следовательно, отказ элемента переводит систему из состояния с полной работоспособностью в состояние с частичной работоспособностью. Информационную систему можно характеризовать функциональной и эффективной надежностью. Функциональная надежность Рф – вероятность того, что система будет удовлетворительно выполнять свои функции в течение заданного времени. Функциональная надежность отличается от определения надежности, данного во введении, тем, что учитывает наличие в системе дополнительных схем контроля. Эффективная надежность Рэ – среднее значение (математическое ожидание) величины, характеризующей объем и полезность выполняемых системой функций в течение заданного времени по сравнению с ее предельными возможностями. Введение понятия эффективной надежности обусловлено тем, что отдельными показателями надежности не удается оценить функционирование сложной системы. Сложная система кроме надежности каждого блока и всей системы характеризуется еще относительной важностью потери тех или иных качеств. Поэтому под Рэ понимается некоторая количественная мера, оценивающая качество выполнения системой своих функций. В ряде случаев выполнение конкретной частной задачи с некоторой эффективностью требует работоспособности лишь части аппаратуры. С другой стороны, даже при полной работоспособности всех 16 блоков системы нельзя говорить о выполнении некоторой задачи как о достоверном событии. Основная идея определения эффективной надежности заключается в том, что учитывают не только внутренние свойства системы, но и качество ее функционирования и выполнения задачи. 1.5 ПОКАЗАТЕЛИ НАДЕЖНОСТИ СЛОЖНЫХ ОБЪЕКТОВ Сложные системы состоят из более простых объектов (элементов). В зависимости от характера влияния надежности элементов на надежность системы в целом различают два типа соединений элементов – основное (последовательное) и параллельное. Под последовательным соединением, с точки зрения надежности, понимают такое, при котором отказ любого элемента приводит к отказу системы в целом. Под параллельным соединением понимают такое, при котором отказ системы наступает только при отказе всех ее элементов (отказ не наступает, если работоспособен хотя бы один элемент). 1.5.1 ПОСЛЕДОВАТЕЛЬНОЕ СОЕДИНЕНИЕ ЭЛЕМЕНТОВ. Пусть система состоит из n элементов, каждый из которых имеет определенные характеристики надежности Pi(t), Qi(t), i(t), t i (средняя наработка до отказа). Если аналогичные показатели надежности системы обозначить соответственно через P(t), Q(t), (t) и t , то можно получить следующие расчетные зависимости: 1. Из определения последовательного соединения элементов следует, что вероятность безотказной работы: n Pt P1 t P2 t Pn t Pi t . (1.15) i 1 2. Вероятность отказа системы равна: n n i 1 i 1 Q(t ) 1 P(t ) 1 Pi (t ) 1 [1 Qi (t )]. (1.16) 3. Интенсивность отказов системы найдем из соотношения: t P(t ) e (t ) dt 0 t n Pi (t ) e n [ i (t )]dt 0 i 1 , i 1 откуда n (t ) i (t ). (1.17) i 1 В случае постоянной интенсивности отказов [(t)==const]: n P(t ) e t Pi (t ) e i 1 n i i 1 t , 17 откуда n i . (1.18) i 1 Если разложить функцию P(t) в ряд и учесть только два первых члена разложения, получим: P(t ) e t 1 t n (t ) 2 1 t 1 t i . 2! i 1 (1.19) 4. Средняя наработка системы до отказа (=const): n t i t P (t )dt e 0 i 1 0 dt 1 n i . (1.20) i 1 1.5.2 ПАРАЛЛЕЛЬНОЕ СОЕДИНЕНИЕ ЭЛЕМЕНТОВ. 1. Из определения параллельного соединения элементов вероятность отказа системы равна: n Q(t ) Q1 (t ) Q2 (t ) Qn (t ) Qi (t ). (1.21) i 1 2. Вероятность безотказной работы системы: n n i 1 i 1 Pt 1 Q1 (t ) 1 [1 Pi (t )] 1 (t ) n . (1.22) Допустим, что все элементы одинаковы, находятся в одинаковых условиях эксплуатации и t(t)=0=const. Тогда: Q(t ) (1 e 0t ) n ; P(t ) 1 (1 e 0t ) n ; d Q(t ) f (t ) dt [(1 e 0t ) n ] n(1 e 0t ) n 1 0 e 0t (t ) ; P(t ) P(t ) P(t ) 1 (1 e 0t ) n (1.23) 1 n 1 t . 0 i 1 i Эти выражения позволяют сделать вывод о том, что при параллельном соединении элементов надежность системы выше, чем надежность составляющих ее элементов. Пример 1.3. Система состоит из n параллельно соединенных равнонадежных подсистем, вероятность безотказной работы каждой из которых P (t ) e t 0.9 18 Определить потребную кратность резервирования, чтобы вероятность безотказной работы системы была не ниже P0=0,99. Решение: Pñèñò (t ) 1 [1 Pi (t )]n . При параллельном соединении элементов 1 [1 Pi (t )]n 0.99 откуда 1 0.1n 0.99 или 0.01 0.1n откуда n log 0.1 0.01 ln 0.01 т.е. n 2 0.1 Пример 1.4. Вычислительное устройство состоит из рабочего блока, блока, находящегося в нагруженном резерве и автоматического переключающего устройства (ПУ). Интенсивность отказов каждого блока =10-2 1/ч. Отказы ПУ могут быть двух видов: а) отказы, приводящие к нарушению работы всего вычислительного устройства, с интенсивностью 1=10-4 1/ч; б) отказы, приводящие к невозможности подключения резервного блока, с интенсивностью 2 = 10-2 1/ч. Требуется определить вероятность безотказной работы устройства в течение наработки t=2 ч. Решение 1.Составим логическую схему работоспособности устройства: Рабочий блок 1 2 Резервный блок P(t ) e 1 t {1 [1 e t ] [1 e( 2 )t ]} (1 1t ) {1 [1 1 t ] [1 1 ( 2 ) t ] 2 (1 1t ) [1 t ( 2 ) t ] (1 1t ) [1 ( 2 ) t ]. 2. На основании логической схемы составим уравнение для определения вероятности безотказной работы всей системы, учитывая, что схема имеет смешанное соединение элементов P e t : P(t ) e 1t 1 1 e t 1 e t e 2t e 1t 1 1 e t 1 e ( 2 )t 1 1t 1 1 1 t 1 1 2 t 1 1t 1 t 2 t 1 1t 1 2 t 2 т.е P(0, ti ) (1 2 10 4 ) [1 10 2 (2 10 2 ) 4] 0,999. 19 Вероятность безотказной работы вычислительного устройства в течение наработки (0, 2) ч равна: Выводы 1. Показатели надежности сложного объекта типа АСУ или ИС имеют характер системы показателей. Чем большее число показателей надежности системы определяется при анализе ее надежности, тем более подробным становится этот анализ. Вместе с тем перечень используемых показателей надежности должен быть не просто максимально полным, но и целесообразным, т.е. отвечающим задаче объективной характеристике требуемых свойств объекта. 2. В системе показателей надежности необходимо выделять основные и вспомогательные. Для объектов, сложных по своей структуре, многофункциональных по решаемым задачам, используемых в различных рабочих режимах, к основным показателям надежности относятся комплексные показатели надежности. 3. Количественные значения показателей надежности следует задавать с учетом двух противоречивых требований: с одной стороны показатель надежности должен быть не ниже уровня, обеспечивающего требуемую эффективность, с другой стороны, он не должен превышать уровня, который может быть обеспечен возможностями производства. Задача проектирования системы заключается в том, чтобы выбором принципиальной схемы, алгоритма и средств обеспечения надежности выполнить эти два противоречивых требования. Для этого необходим всесторонний анализ возможных вариантов решения поставленной задачи с привлечением моделирования и численных методов расчета. 4. Дальнейшее совершенствование показателей надежности современных сложных систем продолжает оставаться актуальной задачей. Важнейшими направлениями совершенствования являются внедрения показателей надежности, учитывающих индивидуальную надежность конкретных объектов; показателей надежности, учитывающих влияние надежности на эффективность, влияние программного обеспечения, человеческого фактора, живучести и достоверности. 2 ОСНОВЫ РАСЧЕТОВ НАДЕЖНОСТИ 2.1 ОБЛАСТИ ИСПОЛЬЗОВАНИЯ РАСЧЕТОВ НАДЕЖНОСТИ Расчеты надежности имеют своей целью получение количественных значений показателей надежности исследуемого объекта. Эти расчеты стали обязательным элементом на всех этапах разработки, создания и использования технических систем. При анализе надежности системы основную трудность представляет составление структурной схемы расчета и аналитических (расчетных) формул. Если они имеются (например, взяты из справочника), то расчет не представляет затрудне- 20 ний и получает преимущества перед другими способами исследования надежности. Существующие в настоящее время расчетные формулы получены при большом числе ограничений (допущений). Наиболее часто такими ограничениями являются: обязательность экспоненциального распределения времени до отказа объекта и времени восстановления его работоспособности; исследуемые процессы – марковские, исследуемые потоки событий – простейшие; при расчетах учитываются только средние значения показателей надежности. На этапе эскизного проектирования расчет надежности производится с целью прогнозирования ожидаемых показателей надежности. На этапе технического проектирования результаты расчетов надежности используются для обоснования выбора технических средств, входящих в систему, а также для выбора способов резервирования, контроля и диагностики, обоснования структуры системы, требований к надежности комплектующих элементов и программному обеспечению. На этапе испытаний системы расчеты надежности проводятся с целью определения соответствия показателей надежности испытуемой системы заданным требованиям. На этапе эксплуатации системы расчеты надежности используются для выбора и обоснования состава и объема запасных изделий взамен отказавших, а также для обоснованного планирования профилактического обслуживания. 2.2 ХАРАКТЕРИСТИКИ СЛУЧАЙНЫХ ВЕЛИЧИН И СЛУЧАЙНЫХ СОБЫТИЙ В работах по исследованию и обеспечению надежности большое место занимают статистические методы исследований и вероятностные оценки надежности. Это обусловлено тем, что события и величины, используемые в теории надежности, носят, как правило, случайный характер. Отказы объектов вызываются большим числом причин, связь между которыми установить не возможно, поэтому отказы изделий принадлежат к категории случайных событий. Время до возникновения отказа может принимать различные значения в пределах некоторой области возможных значений и принадлежит к категории случайных величин. Случайное событие – это событие, которое может появиться или не появиться в результате данного опыта. Вероятность случайного события – это количественная характеристика случайного события. Она представляет собой теоретическую частоту событий, около которой имеет тенденцию стабилизироваться действительная частота события при повторении опыта в данных условиях. Частота случайного события – статистическая вероятность события – отношение числа появления данного события к числу всех произведенных опытов. 21 Примерами случайных событий, которые используются в прикладной теории надежности, являются: событие, заключающееся в том, что на интервале времени от 0 до t объект непрерывно находится в работоспособном состоянии. Вероятность такого события обозначается P(t); событие, заключающееся в том, что на интервале времени от 0 до t изделие может перейти в отказовое состояние. Вероятность такого события обозначается Q(t); событие, заключающееся в том, что работоспособная к моменту времени t система перейдет за время t из состояния работоспособности (состояние 1) в состояние отказа (состояние 2). Вероятность такого события P(t t ) P(t ) P1 2 (t ) (2.1) Случайные события, следующие одно за другим в некоторой последовательности, образуют поток случайных событий. Ординарный поток событий - поток, при котором вероятность попадания двух событий на один и тот же малый участок времени t пренебрежительно мала (в один и тот же момент времени может произойти только одно событие). Поток без последействия - поток, при котором будущее развитие процесса появления событий не зависит от того, как этот процесс протекал в прошлом. Стационарный поток - поток, параметры которого не зависят от времени, т.е. плотность потока событий (среднее число событий в единицу времени) является постоянной. Поток, обладающий свойствами ординарности, стационарности и отсутствия последействия, называется простейшим потоком или стационарным пуассоновским потоком. Нестационарный пуассоновский поток - это поток, обладающий свойством ординарности и отсутствием последействия, но не обладающий свойством стационарности. Простейший поток находит широкое применение в теории надежности ввиду следующих факторов: имеется предельная теорема, согласно которой сумма большого числа независимых потоков с любыми законами распределения приближается к простейшему потоку с ростом числа слагаемых потоков; практика исследования потоков отказов, потоков восстановлений и других потоков, имеющих место при исследовании надежности, подтверждает обоснованность предположений о широкой распространенности простейших потоков. Случайная величина – величина, которая в результате опыта может принимать то или иное значение (заранее не известно, какое именно). Она может быть либо дискретной (число отказов за время t, число отказавших изделий при испытаниях заданного количества образцов и т.п.), либо непрерывной (время работы объекты до отказа, время восстановления работоспособности). Исчерпывающее 22 представление о случайной величине дает закон распределения случайной величины – соотношение между значениями случайной величины и их вероятностями. Экспоненциальный закон. Функция распределения случайной величины: F (t ) 1 e t Q(t ) (2.2) где - интенсивность (среднее число событий в единицу времени) появления случайного события. Далее под t будем подразумевать время до возникновения отказа. Функция плотности распределения времени до отказа: d d dP(t ) f (t ) F (t ) 1 P(t ) et (2.3) dt dt dt где P (t ) e t (2.4) это вероятность того, что за время t отказ не возникнет. Интенсивность отказов (t ) изменяется во времени следующим образом: f (t ) e t (t ) const P(t ) e t (2.5) Таким образом, признаком экспоненциального закона распределения времени до отказа служит постоянство интенсивности отказов, что характерно для внезапных отказов на интервале времени, когда период приработки аппаратуры закончился, а период износа и старения еще не начался. Также постоянной становится системы, если отказы вызываются отказами большого числа комплектующих элементов, отказ каждого из которых приводит к отказу объекта. Этими факторами, а также тем, что экспоненциальное распределение случайной величины существенно упрощает расчеты надежности, не вызывая значительных погрешностей, обусловлено широкое применение экспоненциального закона в инженерной практике. В табл. 2.1 приведены значения интенсивностей отказов для некоторых распространенных элементов ИС. Таблица 2.1 10-6 1/ч Элементы и устройства Интегральная схема Диод Транзистор Конденсатор Резистор Трансформатор Разъем Триггер на интегральных схемах Память на дисках Контроллер Специализированная ЭВМ (13000 интегральных схем) 0,1 0,2 – 0,5 0,05 –0,3 0,002 – 0,04 0,01 –0,1 0,1 – 0,2 2 – 3,5 0,1 250 10 – 15 40 23 Закон Пуассона. Вероятность того, что на интервале времени t произойдет n случайных событий (отказов) определяется формулой: a n a Pn (t ) e , n! (3.6) где a t - среднее число отказов на интервале времени t . Время между двумя соседними событиями (отказами) подчиняется экспоненциальному распределению с параметром , т.е. вероятность того, что на участке времени , следующим за одним из отказов, не появится ни одного отказа, равна: P(t ) e . Пример 3.1. Определить вероятность того, что за время t 100 ч произойдет 0-2 отказа, если 0,025 . Решение 1) Среднее число отказов за время t : a t 2,5 . 2) Вероятность отсутствия отказов P0 (100) e 2,5 0,082. 3) Вероятность одного отказа: P1 (100) (2,5)1 2,5 e 0,205 . 1 4) Вероятность двух отказов: P2 (100) (2,5) 2 2,5 e 0,256. 2 Распределение Вейбулла. Модель распределения случайной величины, предложенная шведским ученым Вейбуллом, находит широкое применение ввиду своей простоты и гибкости, так как в зависимости от значений параметров, характер модели видоизменяется. Она удобна для выбора наиболее подходящего аналитического выражения для определения показателей надежности объекта на основе опытных данных. Вероятность безотказной работы за время t: P(t ) e 0t , (3.7) где 0 , - параметры закона распределения. Функция плотности распределения времени до отказа: dP(t ) t f (t ) 0 t 1 e 0 . (3.8) dt Интенсивность отказов: f (t ) (t ) 0 t 1 . (3.9) P(t ) Если 1 , то распределение Вейбулла совпадает с экспоненциальным распределением, у которого 0 . Если 1 , интенсивность отказов - монотонно убывающая функция; при 1 интенсивность отказов - монотонно возрастающая функция (рис. 3.1). 24 (t) >1 =1 <1 t Рис 3.1 Зависимость =f(t) в модели надежности Вейбулла Ориентировочно значение 0,2 0,4 для электронных устройств с убывающей функцией интенсивности отказов и 1,2 1,4 для механических устройств с возрастающей функцией интенсивности отказов. Распределение Вейбулла для времени до отказа системы возникает обычно тогда, когда имеют место отказы различной физической природы (износ, старение, механические и электрические перегрузки и т.п.). Пример 3.2. Пусть вероятность безотказной работы ВС за время t 1000 ч составляет P(1000) 0,99 . Составить прогноз вероятности безотказной работы этой же системы через 100000 ч работы без обслуживания по экспоненциальной модели и модели Вейбулла. Решение 3 а). В случае выбора экспоненциальной модели P(1000) e 10 , откуда определим интенсивность отказов ВС: 0,99 e 103 ; ln 0,99 ln e 103 ; ln100,99 1,00510 10 3 2 3 10 51 / ч const . Прогнозируемая вероятность безотказной работы через 105 часов: 5 105 PЭ (10 5 ) e 10 e 1 0,37. б). В случае выбора модели Вейбулла P(1000) e равной 0,5. Тогда 0,99 e 0 1000 e 0 31, 62 , откуда 0 0 103 , где принята ln 0,99 102 0,000318 . 31,62 31,62 Прогнозируемая вероятность безотказной работы через 105 ч: 5 )0,5 PВ (10 5 ) e 0,000318(10 0,904 . Следовательно, прогнозируемые показатели надежности работы объекта зависят от правильно выбранной модели. 25 Выбор модели надежности – сложная научно-техническая задача. Она может быть решена методами математической статистики, если имеется большой статистический материал об отказах исследуемой системы. Ввиду высокой надежности ИС и ее компонентов, как правило, статистических данных об отказах немного. В последнем случае при выборе модели руководствуются результатами ускоренных испытаний, физическими соображениями, предыдущим опытом. В случае приближенных оценок часто выбирается экспоненциальная модель как наиболее удобная с точки зрения аналитических преобразований. Эту модель рекомендуется использовать при выполнении расчетов надежности при отсутствии других исходных данных, кроме интенсивностей отказов. В случае наличия более полных исходных данных целесообразно пользоваться более точными моделями, например, моделью Вейбулла. Вероятностные процессы. Если случайная величина изменяется в процессе опыта, то возникает случайная функция - функция, которая может принимать тот или иной вид, заранее не известный. Если аргументом случайной функции является время, то такая случайная функция называется вероятностным или случайным процессом. Функционирование любой технической системы, в том числе ИС, представляет собой реализацию вероятностных процессов, так как процесс смены состояний объекта - это следствие потоков отказов и потоков восстановлений. Чтобы охарактеризовать вероятностный процесс, необходимо указать тип процесса и его числовые характеристики. Наиболее часто для описания процессов, происходящих в системах, используется марковский процесс. Марковский процесс - это процесс, у которого для каждого момента времени вероятность любого состояния объекта в будущем зависит только от состояния объекта в данный момент и не зависит от того, каким образом объект пришел в это состояние. Необходимым условием для марковского процесса является экспоненциальное распределение времени работы до отказа и времени восстановления работоспособности. Важнейшая числовая характеристика такого процесса - вероятность перехода объекта в то или иное состояние за заданный промежуток времени. Зная это, можно определить вероятности каждого из возможных состояний объекта. Пусть объект, состоящий из двух параллельно работающих элементов, может находиться в состояниях 0, 1 и 2 (рис. 3.2). Состояние 0 - оба элемента, входящие в объект, работоспособны; состояние 1 - один из элементов находится в отказовом состоянии; состояние 2- оба элемента находятся в отказе. Из i-го состояния в j-е объект переходит с постоянной интенсивностью ij , обратно - с постоянной интенсивностью ji . 26 а) 01 б) 1 0 10 12 1 21 2 2 Рис. 3.2. Схема резервированного объекта (а) и граф его состояний (б). Составим уравнения для определения вероятностей каждого из состояний марковского процесса в рассматриваемом объекте (дифференциальные уравнения А.Н. Колмогорова). dP0 dt 01 P0 (t ) 10 P1 (t ); dP 1 (12 10 ) P1 (t ) 01 P0 (t ) 21 P2 (t ); dt dP2 P (t ) P (t ). 21 2 12 1 dt (3.10) В практике расчетов надежности систему уравнений Колмогорова можно получить непосредственно по виду графа состояний объекта, если пользоваться следующим правилом: для каждого из возможных состояний объекта записывается уравнение, в левой части которого dPi / dt , а в правой - столько слагаемых, сколько стрелок графа соприкасается с данным состоянием. Если стрелка направлена в данное состояние, то перед слагаемым ставится знак плюс, если стрелка направлена из данного состояния - знак минус. Каждое слагаемое равно произведению интенсивности перехода из данного состояния (либо в данное состояние) на вероятность состояния, из которого выходит стрелка. Решение системы (3.10) можно получить по известным правилам решения системы дифференциальных уравнений. Однако его можно существенно упростить, если учесть, что рассматривается стационарный марковский процесс, для которого dPi (t ) 0 (вероятности состояний не меняются с течением времени). Тогда 0 01 P0 10 P1 ; 0 P ( ) P P ; 01 0 12 10 1 21 2 (3.11) 0 21 P2 12 P1 ; P0 P1 P2 1, где последнее уравнение 2 P 1 i 0 i называется нормировочным условием, ко- торое обусловлено тем, что первые три уравнения сводятся к двум (при трех неизвестных). Решив систему линейных алгебраических уравнений (3.11), например, методом Гаусса, найдем вероятности состояний системы. 27 Лекция 9. 2.2.1 РАСЧЕТ НАДЕЖНОСТИ С ИСПОЛЬЗОВАНИЕМ ЭЛЕМЕНТОВ МАТЕМАТИЧЕСКОЙ ЛОГИКИ Расчет надежности сложного объекта, по существу, является определением истинности сложного высказывания. Использование аппарата математического логики позволяет формализовать условия работоспособности сложных структур и получать формулы для расчета надежности. 1. Если о системе можно утверждать, что она работоспособна, если работоспособны ее элементы a и b, то можно сделать вывод о том, что работоспособность системы (событие с) и работоспособности элементов a и b (событие a и событие b) связаны между собой логическим уравнением работоспособности: c a b. Логическое уравнение работоспособности для данного случая может быть представлено схемой последовательного соединения элементов a и b (рис. 3.3). a b Рис. 3.3. Схема последовательного соединения элементов. 2. Если о системе можно утверждать, что она работоспособна, если работоспособны ее элемент a или элемент b, можно сделать вывод о том, что работоспособность системы (событие c) и работоспособности элементов a и b (событие a и событие b) связаны между собой логическим уравнением работоспособности: c ab. Этому уравнению соответствует схема параллельного соединения элементов a и b (рис. 3.4). 3. Если работоспособное состояние элемента обозначить через a , то неработоспособное состояние этого элемента будет a . Логическое отрицание может быть отражено в виде схемы инвертора (рис. 3.5). a a a b Рис. 3.5. Схема инвертирования Рис. 3.4. Схема параллельного соединения элементов. 4. Логические операции конъюнкции, дизъюнкции и отрицания - основные операции, используемые в теории надежности, так как к ним могут быть сведены все другие логические операции. 28 5. Сложную логическую функцию можно минимизировать, т.е. преобразовать таким образом, что она будет содержать минимальное число членов. 6. Логические функции можно преобразовать в алгебраические функции, если заменить все логические операции арифметическими по следующим правилам: a 1 a . a b a b a b ; a b a b ; Логическая функция работоспособности F , у которой все логические операции заменены арифметическими, называется функцией работоспособности, представленной в арифметическом виде Fa . Последовательность расчета надежности с использованием логических схем. Чтобы получить формулу для вероятности работоспособного состояния сложного объекта (функцию надежности), необходимо: 1) сформулировать словесно условие работоспособности системы; 2) на основании словесной формулировки записать логическую функцию работоспособности F ; 3) минимизировать F (исключить повторяющиеся члены); 4) в логической функции работоспособности заменить логические операции арифметическими, т.е. получить функцию Fа ; 5) в арифметической функции работоспособности заменить простые события (простые высказывания) их вероятностями; 6) в полученную формулу, дающую связь между вероятностями состояний элементов системы и вероятностью состояния системы, подставить числовые значения вероятностей состояний элементов. Решением полученного уравнения является численное значение вероятности работоспособного состояния сложной системы. Пример 3.3. Определить вероятность работоспособного состояния тракта передачи данных (рис. 3.6) при условии, что вероятности работоспособных состояний элементов a, b, d, e равны по 0,9, а элемента с - 0,8. а d c b е Рис. 3.6. Структура тракта передачи данных типа «мостик». Решение 1). Словесная формулировка минимально необходимых условий работоспособности тракта передачи данных: «тракт работоспособен, если работоспособны элементы a и d или элементы a, c и e или элементы b, c и d или элементы b и e. 29 2). На основании словесной формулировки запишем логическую функцию работоспособности в следующем виде: Fл a d (a c e) (b c d ) (b e) . 3). Разложим функцию Fл с целью исключения повторяющихся членов (3.12): Fл cad ae bd be cad be . Упростим логическое выражение в первых фигурных скобках: a(d e) b(d e) (d e)(a b). В окончательном виде логическая функция работоспособности имеет следующий вид: Fл c(d e)(a b) cad be. 4). Заменим логические операции арифметическими: Fа c(d e de)(a b ab) (1 c)(ad be adbe) . 5). Заменим события a, b, c, d, e их вероятностями и определим количественное значение вероятности работоспособного состояния тракта: P Pc ( Pa Pb Pa Pb )( Pd Pe Pd Pe ) (1 Pc )( Pa Pd Pb Pe Pa Pd Pb Pe ) 0,8(1,8 0,81)(1,8 0,81) 0,2(0,81 0,81 0,812 ) 0,977 . 2.2.2 РАСЧЕТ НАДЕЖНОСТИ ВОССТАНАВЛИВАЕМЫХ СИСТЕМ Как уже отмечалось ранее, в качестве показателей надежности восстанавливаемых объектов используются параметр потока отказов (t ) , вероятность безотказной работы в течение наработки 0, t P(t ) , коэффициент готовности K Г (t ) , коэффициент вынужденного простоя системы K П (t ) . Нерезервированная система может находиться в произвольный момент времени t в одном из двух состояний: 0 - система работоспособна; 1 - система неработоспособна и находится в ремонте. Если обозначить вероятности этих состояний через P0 (t ) и P1 (t ) , то, очевидно, что K Г (t ) P0 (t ) и K П (t ) P1 (t ) . При длительной эксплуатации (t ) могут быть достигнуты установившиеся значения K Г P0 , K П P1 . Если время безотказной работы и время восстановления имеют показательное распределение, то для вычисления функций готовности и простоя системы можно применить марковскую модель. Тогда в соответствии с графом состояний системы (рис. 3.11) имеем следующую систему дифференциальных уравнений: 30 dP0 (t ) dt P0 (t ) P1 (t ); dP (t ) 1 P0 (t ) P1 (t ). dt (3.15) 0 1 Рис. 3.11. Граф состояний нерезервированной ремонтируемой системы: - интенсивность отказов; интенсивность восстановления. Если при t 0 система находилась в работоспособном состоянии, то начальные условия P0 (0) 1, P1 (0) 0 . Используя преобразования Лапласа, получим: SP0 ( S ) 1 P0 ( S ) P1 ( S ); или SP ( S ) 0 P ( S ) P ( S ). 0 1 1 ( S ) P0 ( S ) P1 ( S ) 1; P0 ( S ) ( S ) P1 ( S ) 0. Решим систему по формулам Крамера: (S ) ( S )( S ) S 2 S S (S ) S 2 S ( ) S S ; 1 1 S ; 0 (S ) P0 ( S ) 2 (S ) 1 . 0 S 1 . ; P1 ( S ) S S S S S S S Переходя от изображений к оригиналам (обратное преобразование Лапласа), получим: K Г (t ) P0 (t ) e ( ) t e ( ) t . e 0t e ( ) t (3.16) ( )e ( )t e ( )t 31 K П (t ) P1 (t ) e 0t e ( ) t e ( )t . (3.17) Если при t 0 система находилась в ремонте, то P0 (0) 0 , P1 (0) 1 и результатом решения системы (3.15) будет: ( ) t K ( t ) P ( t ) e ; Г 0 ( ) t K (t ) P1 (t ) e . При длительной эксплуатации получим стационарные значения коэффициентов готовности и простоя, не зависящие от начальных условий: K Г P0 ; K П P1 . Поскольку K 1 tВ 1 1 , , то приходим к уже известным выражениям: tР tВ t Вt Р tР tВ , т.е. коэффициент готовности ; K t В (t Р t В ) t Р t В tР tВ 1 1 tВ tР характеризует долю времени, в течение которого система работоспособна, а коэффициент простоя - долю времени, в течение которого она восстанавливается (ремонтируется). Если система имеет несколько работоспособных состояний, то функция готовности системы определяется как n K Г (t ) Pi (t ) , где n - число работоспособных состояний; Pi (t ) - вероят- i 1 ность i-го работоспособного состояния. Пример 3.6. Восстанавливаемая система с показательным законом распределения времени безотказной работы и времени восстановления имеет коэффициент готовности K Г 0,95 . Вычислить вероятность безотказной работы системы в течение наработки (0,10) ч, если среднее время восстановления tВ 5 ч. Решение tp Из соотношения K Г 0,95 находим значение наработки на отказ: tР tВ K Г t Р t В t Р ; 0,95t Р 4,75 t Р ; 32 tР Интенсивность отказов 4,75 95 ч. 0,05 1 1 1/ч. t Р 95 Вероятность безотказной работы в течение 10 часов: P(0,10) e t e 10 95 0,9 . 33 Лекция 10. и Лекция 11. 3 ОПТИМАЛЬНОЕ РЕЗЕРВИРОВАНИЕ В ОТКАЗОУСТОЙЧИВЫХ ВЫЧИСЛИТЕЛЬНЫХ СИСТЕМАХ 3.1 ИСХОДНЫЕ ПОЛОЖЕНИЯ При проектировании отказоустойчивых систем стремятся не только к достижению необходимой их надежности, но и к достижению этой надежности при минимальных затратах, т.е. к нахождению оптимального решения. В отказоустойчивых ЭВМ и ВС существует ряд параметров x x1 , x2 ,..., xn , от которых зависит надежность системы. Сюда относятся количество резервных элементов, устройств или подсистем, параметры систем контроля и диагностики, характеристики программного обеспечения и др. Часть из этих параметров являются целочисленными (например, количество резервных элементов). Рассмотрим задачи оптимизации, связанные с определением числа резервных элементов системы с учетом ограничивающих факторов (затрат). Под затратами будем понимать массу, габариты, стоимость, потребление энергии или другие характеристики системы. Подобные задачи могут быть двух видов. Задачи оптимального резервирования первого вида состоят в определении требуемого количества резервных элементов, обеспечивающих максимум значения показателя надежности системы при величине затрат, не превышающей заданную: П ( x) max , xG где G - ограничения в виде множества допустимых значений, налагаемые на параметры x . Задачи второго вида состоят в определении требуемого количества резервных элементов, обеспечивающих заданное значение показателя надежности системы при минимальных затратах: ( x) min, П ( x) H где H - ограничение, налагаемое на показатель надежности П (x ) . Задачи оптимального резервирования встречаются в системах с резервированием на уровне процессоров, устройств или других подсистем. Для их решения используют методы неопределенных множителей Лагранжа, градиентный, прямого перебора и динамического программирования. 34 3.2 ОПТИМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ РЕЗЕРВОВ МЕТОДОМ НЕОПРЕДЕЛЕННЫХ МНОЖИТЕЛЕЙ ЛАГРАНЖА Данный метод дает приближенное решение задачи, так как он оперирует действительными числами, в то время как количество резервных элементов (подсистем) выражается как целое число. Округление результатов до целых чисел вызывает сдвиг экстремума в пространстве параметров, вследствие чего возникает погрешность решения. Пусть ВС состоит из n подсистем (процессоры, ОЗУ, внешние устройства и др.) и каждая подсистема имеет mi резервов. Вероятность безотказной работы i й подсистемы i 1, n обозначим через Pi . Тогда вероятность безотказной работы ВС выразится как n P П 1 1 Pi i . i 1 m (4.1) Чтобы упростить выражение (4.1), допустим, что Pi 1 qi 1 , где qi - вероятность отказа i-й подсистемы. Тогда вероятность отказа системы: n Q(m) qimi , (4.2) i 1 где m m1 , m2 ,..., mn - вектор состава системы. Масса, габариты или стоимость системы выражается в виде простой линейной зависимости: n C C m ci mi , (4.3) i 1 где c i - масса, габариты или стоимость i-й подсистемы. При первой постановке задачи необходимо определить значения mi , обеспечивающие min Q (m) при условии, что C (m) Cзад , где C зад - заданное значение массы, габаритов или стоимости системы. В этом случае функция Лагранжа F (m) имеет следующий вид: F (m) Q(m) (C зад C (m)), (4.4) где - неопределенный множитель Лагранжа. Необходимые условия экстремума функции F (m) выражаются системой уравнений: F (m) 0; (4.5) mi C C (m). (4.6) зад Совместное решение уравнений (4.5) и (4.6) позволяет определить n оптимальных значений mi , которые могут получиться нецелочисленными. Поэтому необходимо производить округления этих значений до ближайших целых чисел. 35 После этого часть целочисленных значений сразу же исключается, поскольку для них не выполняются накладываемые ограничения. Функцию Лагранжа перепишем в виде: n n F (m) q (C зад ci mi ) . i 1 mi i i 1 Подставив F (m) в уравнение (4.5), получим: F (m) qimi ln qi ci 0, mi ln откуда mi где ai ci ln qi ln ai , ln qi ln qi (4.7) ci . ln qi Для определения множителя Лагранжа , подставим mi из выражения (4.7) в уравнение (4.6): n n ln ai ln ai ci mi ci ai ln qi ai (ln ln ai ) ln qi ln qi i 1 i 1 i 1 i 1 n C зад n n n n i 1 i 1 i 1 ln ai (1 ln ai ) ln ai ai ln ai ; следовательно, n ln C зад ai ln ai i 1 n ai . i 1 Подставляя последнее выражение в (4.7), окончательно получим: n C ai ln ai зад 1 i 1 mi ln ai . (4.8) n ln qi ai i 1 При второй постановке задачи (найти оптимальное число mi для обеспечения минимальных затрат при заданном уровне надежности) функция Лагранжа примет вид: 36 F (m) C (m) (Qзад Q(m)), (4.9) где Qзад - заданное значение вероятности отказа. Перепишем функцию с учетом (4.2) и (4.3): n n i 1 i 1 F (m) ci mi (Qзад qimi ). (4.10) Для обеспечения экстремума F (m) необходимы условия: F (m) ci qimi ln qi 0; mi n Qзад qimi . i 1 Из уравнения(4.11) находим mi : ln mi где ai (4.11) (4.12) ci ln qi ln ai , ln qi ln qi (4.13) ci . ln qi Находим множитель Лагранжа, подставив mi из (4.13) в (4.12): n Qзад i 1 qimi n i 1 ai 1 n ai , i 1 n откуда ai i 1 Qзад . В окончательном виде выражение для определения оптимального резерва i-й подсистемы имеет вид: n ai i 1 ln ai ln Q зад a ln i ln ai ln ai Qзад 1 . mi ln (4.14) n ln qi ln qi ln qi ln qi ai i 1 Выражения (4.8) и (4.14) являются приближенными из-за необходимости округления результата. Ошибка получается особенно большой при малых m i . Кроме того аналитический метод позволяет получать решения в явном виде только при простейших моделях надежности. 37 Пример 4.1. Имеется система, состоящая из четырех подсистем (n=4). Подсистемы характеризуются стоимостями C i и вероятностями отказа за заданное время qi : i ci qi 1 1,2 0,2 2 2,3 0,3 3 3,4 0,25 4 4,5 0,15 Требуется построить систему, т.е. оптимальный вектор состава системы m m1m2 m3 m4 , обладающую вероятностью безотказной работы P 0,99 при минимальной стоимости. 3.2.1.1 Решение 1. Первоначальное состояние системы, когда нет резервов, описывается вектором состояния m 1111; при этом: 4 C ci mi 1,2 2,3 3,4 4,5 11,4; i 1 4 Q qimi 0,2 0,3 0,25 0,15 0,9, i 1 т.е. Р = 0,1. 2. По формуле (4.14) определяем оптимальное количество элементов каждой подсистемы: a1 Qзад 1 1 0,746 0,01 m1 ln ln 4,29 , ln q1 4 1,609 7,481 ai i 1 c 1,2 где a1 1 0,746 ; ln q1 ln 0,2 m2 c 1 1,91 0,01 ln 4,96 , где a 2 2 1,91; ln q 2 1,204 7,481 m3 c 1 2,453 0,01 ln 4,13 , где a3 3 2,453; ln q3 1,386 7,481 m4 c 1 2,372 0,01 ln 3,03 , где a 4 4 2,372. ln q 4 1,897 7,481 Округляя результаты до ближайших целых значений, получим приближенный оптимальный состав системы: m 4543. Таким образом, схема системы имеет вид, приведенный на рис. 4.1. 38 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 2 Рис. 4.1. Оптимальная схема системы. При этом: Q q14 q 25 q34 q 43 0,2 4 0,35 0,25 4 0,15 3 0,011; P 1 Q 0,989 0,99; 4 C ci mi 43,4 ед. i 1 Пример 4.2. Система состоит из двух блоков, соединенных последова1 4 10 3 1ч , тельно. Интенсивности отказов этих блоков равны 2 2 10 3 1ч ; массы блоков с1 2 кг , с2 3 кг . Требуется определить оптимальный состав блоков системы при ее резервировании с учетом того, что масса системы не должна превышать 8 кг и вероятность ее отказа в течение наработки 1 ч должна быть минимальной. Решение Используем формулу (4.8), причем перепишем ее в виде: 2 C a ln( a ) зад i i 1 i 1 mi ln( a ) i . 2 ln qi a i i 1 a1 c1 2 0,362; a1 ln( a1 ) 0,362(1,017 ) 0,368; ln q1 ln 0,004 a2 c2 3 0,483; a2 ln( a2 ) 0,483(0,728) 0,351; ln q2 ln 0,002 2 2 i 1 i 1 ai 0,845; ai ln( ai ) 0,719. 39 m1 1 8 0,719 1 , 017 1,69; 5,521 0,845 m2 1 8 0,719 0 , 728 1,27. 6,215 0,845 Таким образом, m1 2 , m2 1 (рис. 4.2). При этом C 2 2 1 3 7 кг, 2 Q qimi 16 10 6 2 10 3 2 10 3 . i 1 1 2 1р Рис. 4.2. Оптимальный состав блоков системы. 3.3 ОПТИМАЛЬНОЕ РЕЗЕРВИРОВАНИЕ МЕТОДОМ ДИНАМИЧЕСКОГО ПРОГРАММИРОВАНИЯ В отличие от аналитического решения задачи оптимального резервирования, существующие численные методы позволяют найти точное решение и применимы для весьма сложных моделей надежности. Простейшим численным методом является метод прямого перебора, когда сравниваются между собой все возможные варианты структуры и выбирается тот из них, который лучше всего отвечает заданным требованиям. Однако число конкурирующих вариантов N получается очень большим, что резко ограничивает практическое применение этого метода. Например, если система состоит из n подсистем, каждая из которых имеет m-кратное резервирование, то N n mi , где П i 1 m i - максимально возможное число параллельных подсистем i-го типа. При n 10 и mi 10 получим N 1010 , что практически исключает возможность перебора. Метод динамического программирования является модификацией метода прямого перебора. В этом методе для сокращения числа вариантов при переборе вводится понятие доминирующая последовательность - подмножество вариантов, перспективных с точки зрения поиска оптимального варианта. Рассмотрим график вариантов технических решений в координатах «стоимость - вероятность отказа» (рис. 4.3). 40 С Q Рис. 4.3. Графическая иллюстрация доминирующей последовательности. Из всех вариантов заданной (или меньшей) стоимости С интерес представляют только варианты, обладающие минимальной вероятностью отказа Q . Из всех вариантов при заданной (или меньшей) вероятности отказа Q интересны только варианты, отличающиеся минимальной стоимостью. Отсюда следует, что из всего множества вариантов интерес представляют только те, которые находятся снизу и слева на рисунке. Мощность (количество элементов) доминирующей последовательности обычно намного меньше мощности множества всех вариантов. Поэтому остается лишь выбрать оптимальное решение из вариантов, входящих в доминирующую последовательность. Применительно к задаче оптимального резервирования будем считать, что один состав системы, представляющий собой некоторую комбинацию расположения резервных элементов, доминирует над другим, если для одного и того же уровня надежности обеспечение этого состава связано с наименьшими затратами. Все неоптимальные решения, не входящие в состав доминирующей последовательности в силу того, что они обладают большей величиной затрат при той же надежности или меньшей надежностью при тех же затратах, чем члены доминирующей последовательности, исключаются из рассмотрения. Пример 4.3. Рассмотрим порядок расчета оптимального состава системы применительно к условиям примера 4.2. 3.3.1.1 Решение Примем, что максимальное количество резервных элементов к блокам 1 и 2 равно двум. Для построения доминирующей последовательности составим таблицу: 1 0 4 3 7 Число K1 резервных блоков к блоку 1 0 1 2 2 2 4 3 6 -3 -6 410 1610 6410-9 5 8 7 9 9 41 Число K2 резервных блоков 1 5 к блоку 2 2 6 210-3 6 410-6 9 810-9 610-3 10 8 410-3 13 11 410-3 210-3 11 10 2010-6 14 13 1610-6 210-3 12 12 410-6 15 15 7210-9 В клетках 7-15 записываем значения вероятностей отказов и затрат для последовательного соединения блоков 1 и 2 с различным числом резервных блоков. С учетом заданных ограничений получаем три члена доминирующей последовательности - клетки 7, 8, 10. Просматривая полученную доминирующую последовательность, находим требуемый вектор состава системы, удовлетворяющий условию C 8 кг и минимуму вероятности отказа. Этот вектор состава находится в клетке 8 Q(t ) 2 10 3 и C 7 кг, при этом K1=1 и K2=0, т.е. получаем оптимальную схему системы, приведенную на рис. 4.2. Пример 4.4. Требуется составить оптимальную схему передающего устройства, состоящего из трех последовательно соединенных блоков, которая может быть получена путем введения нагруженного резерва к каждому блоку при условии, что вероятность отказа устройства за наработку (0, t i ) должна составлять Q(t i ) 3 10 2 при минимальных затратах. Исходные данные: Q1 (t i ) 0,1 , C1 3; Q2 (ti ) 0,02 , C 2 2; Q3 (t i ) 0,01 , C 3 1 . Решение Примем максимальное число резервных блоков равным двум. Вначале рассмотрим композицию блоков 1 и 2 и построим для них доминирующую последовательность: 0 4 2 210-2 Число K2 резервных блоков 1 5 к блоку 2 2 6 4 410-4 6 810-6 Число K1 резервных блоков к блоку 1 0 1 2 1 3 2 6 3 9 -2 0,1 10 10-3 7 5 8 8 9 11 -1 -2 1,2 10 3 10 2,110-2 10 7 11 10 12 13 10-1 10-2 1,410-3 13 9 14 12 15 15 -1 -2 10 10 10-3 42 С учетом заданных ограничений получаем четыре члена доминирующей последовательности - клетки 8, 11, 12 и 15. Далее строится таблица, в которую заносятся значения полученной доминирующей последовательности (клетки 1, 2, 3, 4) и значения Q( K 3 ) и C ( K 3 ) , полученные для блока 3: 0 5 резервных блоков 1 6 2 10-4 к блоку 3 2 7 3 10-6 Число K3 1 10-2 Числа K1 и K2 резервных блоков, подключаемых к блокам 1 и2 K1=1 K1=1 K1=2 K1=2 K2=0 K2=1 K2=1 K2=2 1 C12=8 2 C12=10 3 13 4 15 -2 -2 -3 10 10-3 Q12=310 1,410 8 9 9 11 10 14 11 16 -2 -2 -2 4 10 2 10 1,14 10 1,110-2 12 10 13 12 14 15 15 17 -2 -2 -3 10 3 10 1,5 10 1,110-3 16 11 17 13 18 16 19 18 -2 -2 -3 10 10-3 3 10 1,4 10 Просматривая клетки 8-19, находим требуемый вектор состава системы, удовлетворяющий условиям Q(t i ) 3 10 2 и минимуму затрат. Этот вектор находится в клетке 12 - Q(t i ) 3 10 2 и C 10 , при этом K1=1, K2=0, K3=1. Таким образом, оптимальная схема передающего устройства имеет вид, приведенный на рис. 4.4. 1 1р 2 3 3р Рис. 4.4. Оптимальная схема передающего устройства. 43 Лекция 12. 4 КОНТРОЛЬ И ДИАГНОСТИКА ИНФОРМАЦИОННЫХ СИСТЕМ 4.1 ОБЩИЕ ПОЛОЖЕНИЯ Под контролем ИС понимают процессы, обеспечивающие обнаружение ошибок в их функционировании, вызванных отказами аппаратуры, ошибками в программах или другими причинами. В сочетании с мерами по резервированию контроль является одним из самых эффективных средств повышения надежности и достоверности обработки информации. Ошибки, возникающие в процессе функционирования цифровых систем, можно рассматривать как композицию следующих потоков ошибок: проектирования, операторов ЭВМ, исходных данных, в линиях связи при передаче данных, при хранении информации на машинных носителях, сбоев в работе аппаратуры. Ошибки проектирования. К ним относят ошибки в документации, аппаратуре или программном обеспечении, которые не были обнаружены в процессе проектирования и опытной эксплуатации системы, но проявились в процессе работы. В математическом обеспечении ИС можно выделить следующие типы ошибок: программные, алгоритмические и системные. Программные ошибки – ошибки, порождаемые неправильным использованием команд, операторов, адресации и т.п. Их количество зависит от квалификации программистов и степени автоматизации проектирования программ. Алгоритмические ошибки возникают из-за неадекватности модели реальному процессу, неправильного выбора численного метода решения задачи. Системные ошибки являются следствием неправильного взаимодействия алгоритмов друг с другом при функционировании системы в целом. Ошибки операторов возникают в работе системы из-за неправильных действий обслуживающего персонала, а также вследствие плохой организации технической эксплуатации. Поэтому важно правильно предусмотреть роль человека в системе, учитывая его возможности по физическим, психическим и другим видам нагрузок. Ошибки исходных данных возникают в ИС, в которых большое количество исходной информации подготавливается вручную. Например, при обработке экономической информации наиболее характерными являются ошибки из-за неправильного заполнения исходной документации и при вводе данных с исходных документов в ЭВМ. Ошибки в линиях связи. Линии связи, предназначенные для передачи информации, являются в настоящее время неотъемлемой компонентой большого числа ИС. Средняя вероятность ошибки q для большинства линий связи составляет 10-3 – 10-5. 44 Ошибки, порождаемые неисправностями логических и специальных элементов. Для их вычисления необходимо знать вероятности возникновения ошибок (неисправностей) в отдельных элементах. В инженерной практике, как правило, предполагают, что поток неисправностей в работе элементов является пуассоновским с параметром , причем значение состоит из двух составляющих, т.е. =0+сб, где 0 – интенсивность отказов элемента, сб – интенсивность сбоев. Значения 0, сб определяют на основании испытаний аппаратуры на надежность или с помощью статистических данных, полученных при эксплуатации. При отсутствии статистических данных по интенсивностям возникновения сбоев для приближенных расчетов можно полагать, что сб на порядок больше, чем интенсивность отказа. Суммарный поток рассмотренных ошибок определяет возможность соблюдения временного регламента решения задач в ИС и достоверность информации, получаемой при решении. Выдачу системой недостоверных результатов почти во всех случаях следует рассматривать как отказ в ее работе. Поэтому понятие «ошибка» в ряде случаев целесообразно рассматривать как явление искажения информации, поддающееся с определенной вероятностью обнаружению и регистрации. Для обнаружения ошибок в работе информационных систем широко используют различные методы контроля, позволяющие зафиксировать наиболее типичные ошибки. Поэтому необходимо знание причин и характеристик возникающих ошибок для правильного выбора метода контроля. Сбои, зафиксированные системой контроля, устраняют, и тем самым не допускается их распространение на выход системы. При обнаружении систематической ошибки требуется локализовать и устранить причину ошибки. Средства контроля ИС подразделяются на аппаратные, программные и смешанные. Они характеризуются тремя основными параметрами: полнотой (глубиной) контроля, временем обнаружения ошибки и сложностью. Полнота контроля оценивается как доля отказов, обнаруживаемых в результате контроля, от общего их количества: i ni iM k i ni , iM где M K - множество элементов, подлежащих контролю; M - множество всех элементов системы; n i - число элементов i-го типа; i - интенсивность отказов элементов i-го типа. Время обнаружения ошибки (время контроля) определяется как интервал времени от момента возникновения ошибки до момента ее обнаружения. Сложность средств контроля характеризуется массой, размерами, стоимостью, потребляемой энергией, памятью и другими параметрами аппаратных средств. 45 По характеру контроль в ИС подразделяется на оперативный и тестовый. Оперативный контроль осуществляется в ходе решения задач и позволяет в процессе их решения немедленно обнаруживать ошибку. Однако оперативный контроль в принципе является неполным, поскольку выполняется на случайных, не приспособленных для целей контроля задачах. Тестовый контроль осуществляется в специально отведенные промежутки времени на основе решения специальных, тестовых задач. Он основан на тестах, обеспечивающих контроль всех элементов системы (аппаратуры, команд программы) за короткое время. Недостаток тестового контроля - затраты дополнительного процессорного времени. По способу организации различают контроль прямой, обратный и смешанный. При прямом контроле основной вычислительный процесс О с исходными данными х и результатами у сопровождается параллельным вычислительным процессом П (рис. 5.1, а). В случае безошибочной работы системы результаты процессов О и П должны совпадать, что определяется устройством сравнения БС. Если результаты отличаются, то БС выдает сигнал об ошибке. Если процессы О и П осуществляются по одной и той же программе, то приведенная схема позволяет выявить только сбои и отказы аппаратуры. В случае, когда информация обрабатывается по различным, но функционально эквивалентным программам, прямой контроль позволяет, кроме того, выявлять и ошибки в программах. х а) у О БС П Сигнал контроля х б) у О П х БС Сигнал контроля Рис. 5.1. Схемы организации контроля. Недостаток прямого контроля - большие затраты аппаратных средств. Они могут быть снижены, если параллельный процесс П будет упрощен за счет сни- 46 жения точности: можно предположить, что большинство ошибок приведет к сильному отклонению результата О от правильного значения, такому, которое перекроет погрешность результата процесса П и ошибка будет обнаружена по расхождению между результатами процессов О и П. При обратном контроле (рис. 5.1, б) параллельный процесс П с исходным данными у и результатами х осуществляет обратное преобразование результата контролируемого процесса О. Сопоставление обратного решения с исходными данными позволяет обнаружить ошибку. Недостаток обратного контроля, кроме ограниченности класса решаемых задач, заключается и в том, что время, необходимое на получение контролируемого решения, будет не меньше суммарного времени выполнения процессов О и П. По объекту контроля различают контроль аппаратуры (АЛУ, функциональные преобразователи, память, управление, ввод-вывод), программного обеспечения и работы операторов. 4.2 МЕТОДЫ АППАРАТУРНОГО КОНТРОЛЯ При аппаратурном контроле в состав узла или устройства вводится избыточная (контрольная) аппаратура, которая функционирует одновременно с основной. Сигналы, возникающие в процессе работы основной и контрольной аппаратуры, по определенным законам сравниваются между собой. В результате этого сопоставления вырабатывается информация о правильности функционирования контролируемого узла или устройства. Контроль дублированием. Контроль дублированием является наиболее простым способом аппаратного контроля. Суть метода состоит в том, что два одинаковых операционных устройства A и B работают синхронно при одинаковых исходных данных (рис. 5.2). В случае возникновения ошибки в одном из них, результаты на выходах A и B будут различаться, что фиксируется устройством сравнения. х у А В БС Сигнал контроля Рис. 5.2. Схема контроля дублированием. Полнота контроля дублированием приближается к единице. Необнаружение ошибки может произойти по двум причинам: а) если в устройствах А и В одновременно возникнут одинаковые ошибки; б) если откажет устройство сравнения. 47 Недостатком контроля дублированием является большое количество необходимой аппаратуры, а также то, что сравнение сигналов на выходе устройств позволяет обнаруживать ошибку не сразу, а только при появлении ошибочных результатов на выходе. Контроль дублированием применяется иногда для контроля самых ответственных и труднопроверяемых узлов и устройств ЭВМ, например, АЛУ. Контроль по модулю. Наиболее широко в цифровых ЭВМ применяется контроль по модулю. Он относится к неполному контролю, основанному на группировании чисел в классы эквивалентности. Если в случае возникновения ошибки число переходит в другой класс эквивалентности, то такая ошибка обнаруживается простыми средствами. В противоположном случае ошибка не обнаруживается. В один и тот же класс эквивалентности входят числа, сравнимые по модулю. В случае, когда числа А1 и А2 имеют одинаковые остатки ra1=ra2, то говорят, что А1 и А2 сравнимы по модулю q и записывают это условие следующим образом: A2 A1 mod q или A1 A2 mod q . Например, числа 6 и 11 сравнимы по модулю 5, так как 6 mod 5=1 и 11 mod 5=1. Пусть некоторое целое положительное число представлено в виде A a q ra , где a, q, ra - также целые положительные числа. Тогда число q называется модулем, число a - целая часть отношения A/q, ra - остаток A по модулю q, т.е. остаток от деления (вычет) A на модуль q: r A a a . q q Остаток ra для различных чисел может принимать значения 0, 1, 2, ..., q-1. Таким образом, каждому целому числу А можно поставить в соответствие остаток ra, полученный в результате деления A на модуль q. Это соответствие записывается в виде: A ra mod q и читается: число А сравнимо с остатком ra по модулю q. С каждым остатком по модулю q сравнимо некоторое множество чисел. Все они называются сравнимыми между собой по модулю q и составляют класс чисел, сравнимых по модулю q. Таким образом, разбив все кодовые слова на классы, можно параллельно с основной операцией в контролируемом устройстве выполнять в контролирующем устройстве аналогичную операцию над их остатками. Результаты, полученные в этих устройствах, будут принадлежать к одному классу. 48 А* А М П1 r* а ra П2 БС Мд ra Рис. 5.3 Схема устройства хранения или передачи чисел с контролем по модулю Контроль хранения или передачи числа. Пусть число А передается по каналу связи или записывается на магнитный носитель М. Тогда при помощи преобразователя П2 образуется остаток ra, который передается дополнительным каналом связи (или записывается в дополнительное запоминающее устройство Мд). Пропускная способность дополнительного канала (или объем памяти дополнительного ЗУ) при этом значительно меньше тех же характеристик основного канала или ЗУ, т.к. разрядность остатка ra намного меньше разрядности числа А. Принятое (или считанное) число А*, которое, возможно, содержит искажения, подвергается также преобразованию П1 с образованием остатка ra*, который затем сравнивается с остаток ra. При несовпадении формируется соответствующий сигнал контроля. Числовой контроль арифметических операций. В основе числового контроля по модулю лежат следующие две теоремы: 1. Сумма чисел Ai (i 1, n) сравнима по модулю q с суммой остатков rai данных чисел: n n i 1 i 1 Ai rai mod q . 2. Произведение чисел Ai (i 1, n) сравнимо по модулю q с произведением остатков этих чисел: n n Ai П rai mod q . П i 1 i 1 Контроль сложения чисел (рис. 5.4.) производится на основании теоремы 1. Кроме суммы A*, которая после сложения чисел А1 и А2 в сумматоре S1, возможно, содержит ошибку, преобразователями П1 и П2 образуются остатки слагаемых ra1 и ra2. После их суммирования в сумматоре S2 небольшой разрядности получается остаток суммы остатков ra, который сравнивается с остатком ra*. 49 A* A1 П3 S1 A2 ra * ra1 П1 БС S2 ra П2 ra2 Рис. 5.4. Схема устройства сложения с контролем по модулю. Контроль умножения чисел (рис. 5.5) производится аналогично контролю сложения, но с использованием теоремы 2. В приведенной схеме P1 - основное множительное устройство, Р2 - вспомогательное множительное устройство небольшое разрядности. А1 А* Р1 А2 П3 П1 ra* ra1 Р2 П2 БС ra ra2 Рис. 5.5. Схема устройства умножения с контролем по модулю. Схема устройства деления чисел с контролем по модулю функционирует на основании теоремы 1 и изображена на рис. 5.6. В этой схеме div - делительное устройство, Р - вспомогательное множительное устройство небольшой разрядности. 50 А* А1 div П А2 rа* ra2 П Р БС ra1 П Рис. 5.6. Схема устройства деления с контролем по модулю. Кодовый контроль по модулю отличается от числового контроля по модулю тем, что при этом контроле осуществляются операции с вычетами от суммы цифр двоичного слова без учета их «веса», т.е. без учета того, к какому разряду принадлежат эти цифры. Пусть, например, по каналу передается слово A an 2 n an1 2 n1 ... a1 2 a0 2 0. Перед тем как послать это слово в канал, определяется сумма ai и в случае необходимости дополняется дополнительным разрядом так, чтобы вычет, т.е. остаток от деления на модуль q, был равен вполне определенному числу. Вычет числа, получаемый на выходе канала, контролируется. В случае расхождения с ожидаемым результатом фиксируется отказ в выполнении задачи передачи информации. Обычно используются модуль q=2 и вычет, равный либо 1 (при проверке на нечетность), либо 0 (при проверке на четность). При таком контроле обнаруживается невыполнение функции передачи данных, если имели место ошибки, т.е. запись 1 вместо 0 и наоборот в одном, трех, пяти, семи, т.е. в нечетном числе разрядов. Для обнаружения ошибки в большем числе случаев необходимо увеличение значения модуля, а, следовательно, усложнение контрольной аппаратуры. 4.2.1 ПРОГРАММНО-ЛОГИЧЕСКИЕ МЕТОДЫ КОНТРОЛЯ Необходимость программного контроля обусловлена недостатками существующих аппаратных методов контроля: недостаточными полнотой охвата и глубиной контроля всех устройств, большими затратами оборудования и, как следствие, большой стоимостью. Кроме того, для ряда устройств и блоков ЭВМ в принципе трудно реализовать аппаратурный контроль. Наибольший интерес представляют методы программного контроля, позволяющие контролировать вычислительный процесс, т.е. правильность решения задачи с помощью ЭВМ. 51 На первых этапах развития методов программного контроля широко применялся метод двойного-тройного счета. Однако он требовал для своей реализации больших затрат машинного времени, что снижало производительность ВС более чем в два раза. Поэтому возникла необходимость в разработке и практическом внедрении более экономичных и совершенных методов контроля, которая привела к созданию алгоритмических и логических методов программного контроля процессов решения задач на ЭВМ. Алгоритмическим контролем называются специальные программные методы проверки правильности реализации с помощью ЭВМ алгоритмов обработки информации и управления. Под реализацией алгоритмов понимается как процесс вычислений, так и преобразование потока информации в требуемую форму для последующей обработки или передачи потребителю. Алгоритмический контроль предназначен для обнаружения и исправления случайных сбоев, возникающих в процессе обработки информации в ИС. Он является частным случаем контроля методом двойного счета, но более экономичным с точки зрения затрат машинного времени. При этом виде контроля задача решается дважды: один раз по усеченному (упрощенному) алгоритму, а второй раз - по основному. Полученные результаты сравниваются между собой по формуле X i 0 X iy X i , где хi0 - результаты решения задачи по основному алгоритму в i-м цикле вычислений; хiy - то же, но по усеченному алгоритму; X i - величина невязки, в пределах которой расхождения между хi0 и хiy в i-м цикле считаются допустимыми. В случае вычисления хi0 и хiy по одному алгоритму (при двойном счете) сравнение результатов ведется на абсолютное равенство ( X i =0). Под усеченным алгоритмом понимают такой алгоритм, который позволяет рассчитать те же параметры, что и основной алгоритм, но за более короткое время с использованием специальных логических приемов и с учетом особенностей построения алгоритма. Логический контроль основан на избыточности исходной, промежуточной и результирующей информации, используемой при вычислениях. Наличие избыточности позволяет в ряде случаев находить определенные контрольные соотношения, при помощи которых можно обнаружить грубые ошибки. а). Контроль по предельным значениям вычисляемых параметров. Этот вид контроля состоит в проверке ряда условий, которые определяются физической сущностью контролируемого параметра или математическими соотношениями. Например, правильность вычисления значений вероятностей различных событий контролируется по выполнению соотношения 0 P 1. 52 Если вычисляются углы A, B, C треугольника, то правильность их определения можно проконтролировать по выполнению равенства A B C 0. Одним из частных случаев этого метода контроля является контроль скорости изменения переменных. Он применяется для контроля переменных хi, имеющих некоторый физический смысл и являющихся непрерывными функциями времени. Сущность контроля заключается в том, что определяется скорость измеdx x (t ) xi (t t ) нения переменной i i и проверяется условие xi min xi xi max . dt t b). Контрольные соотношения с использованием дополнительных переменных. Метод состоит во введении искусственных переменных, которые либо связаны известными соотношениями с основными переменными, либо значения этих переменных при определенных условиях известны заранее. Пусть решается алгебраическое уравнение Pn ( x) a 0 x n a1 x n 1 ... a n 1 x ab 0 , корни которого X k (k 1,2,..., n) . Перейдем к новому уравнению Pn 1 ( x) ( x a) Pn ( x) 0 , корни которого обозначим X l (l 1,2,..., n, n 1) . Первые n корней вспомогательного уравнения совпадают с корнями исходного, а последний (n+1)-й корень равен а. Тогда алгоритм контроля правильности функционирования программы решения алгебраического уравнения будет состоять в следующем: - перейти от исходного уравнения к вспомогательному; - найти все корни хl вспомогательно уравнения; - для каждого полученного значения корня осуществить проверку xl a . Если хотя бы для одного из корней неравенство выполняется, считается, что уравнение решено верно. В этом примере в качестве дополнительной переменной выступает заранее известное значение одного из корней. Метод находит ограниченное применение, так как в общем случае отыскиваются не все корни уравнения. Данный метод может быть применен для контроля решения некоторых dy y 2 1 при дифференциальных уравнений. Допустим, решается уравнение dx начальных условиях y ( x0 ) y 0 . Для контроля введем дополнительную переменную z, продифференцировав дважды исходное уравнение: d3y d2y z 2. ; 2 y dx 3 dx 2 53 Теперь, решая заданное уравнение, можно на каждом шаге или в контрольных точках находить значение z и проверять условие z 2 . Выполнение неравенства свидетельствует о правильности вычислений. c). Контроль обратным просчетом. В данном методе по полученному результату находят исходные данные (аргументы) и сравнивают их с начальными исходными данными. Если они совпадают (с заданной точностью), то полученный результат считается верным. Например, выполняется контроль правильности работы подпрограммы, вычисляющей y 3 x . Для этого можно возвести в куб результат и предусмотреть проверку условия: y3 x . При выполнении этого условия делается вывод о правильности работы подпрограммы. Достоинство этого метода состоит в том, что он обнаруживает ошибки, возникшие как в результате сбоев, так и отказов. d). Контроль повторным счетом. Сущность метода заключается в том, что отдельные действия по передаче данных, переработке информации и т.д. повторяются многократно. Полученные при этом результаты сравниваются между собой. Правильным считается тот, который дает наибольшее количество совпадений. Контроль повторным счетом позволяет с вероятностью, равной единице, обнаруживать ошибки, возникающие в результате сбоев, и практически не обнаруживает ошибок, возникающих в результате отказов аппаратуры. 4.3 ТЕСТОВЫЙ КОНТРОЛЬ Принцип работы тестового контроля состоит в том, что на вход контролируемого устройства подают специально подобранную совокупность входных воздействий и наблюдают реакцию на выходе. Сравнивая полученную реакцию с эталонной, судят о правильности функционирования устройства. Тестовый контроль обеспечивает проверку пребывания устройств ЭВМ в работоспособном состоянии на момент контроля. В отличие от алгоритмического и программно-логического, он не может быть использован для проверки состояния устройств в процессе выполнения ими основной задачи, но может применяться периодически в процессе функционирования ЭВМ между решениями основных задач. На практике строят такие тесты, которые обнаруживают не все, а только заранее определенные отказы. Задача этих тестов состоит в проверке работоспособности устройства в целом с достаточно большой глубиной. Жестких требований на время их выполнения не накладывается, поэтому данные тесты, как правило, достаточно объемны. 54 Тестовый контроль устройств ЭВМ осуществляется при помощи специальных тест-программ, составленных из отдельных блоков. Все блоки построены по единому принципу: вначале осуществляется подача на вход устройства входного слова, затем происходит сравнение выходного слова с эталоном. Если они совпали, переходят к выполнению следующего блока, если не совпали, то автоматическая проверка прекращается. Различают два вида проверок: 1). На постоянных словах, когда входные слова и эталоны подбираются заблаговременно и в процессе контроля не меняются. Тест-программы, использующие постоянные слова, обладают малым временем выполнения и обеспечивают максимальный охват проверяемых элементов, однако они занимают большой объем памяти и их построение требует больших затрат времени. 2). На переменных словах, когда входные слова формируются по случайному закону, а сравнение с эталоном осуществляется косвенным образом. Тестпрограммы, использующие переменные слова, создают более тяжелые режимы в работе устройств и , следовательно, позволяют произвести проверки с большей глубиной. Проверка на постоянных словах производится со специально подобранными словами, при работе с которыми все отказы проявляются в виде искажений заранее известных выходных слов. Например, для контроля цепей сумматора обратных кодов целесообразно выбрать следующие исходные операнды: a=1111...11, b=0000...01; c=0101...01, d=1010...10 и выполнить операции a+b, b+a, c+d, d+c. Первые две операции обеспечивают срабатывание всех цепей переноса и результат при этом должен быть 0000...01. В двух последних операциях цепи переноса не участвуют и результат должен быть равен 1111...11. Если в ходе контроля указанные результаты не получены, то либо сигнал переноса в одном из разрядов отсутствует, либо где-то возникает ложный сигнал переноса. Проверка на переменных словах производится следующим образом. При помощи генератора случайных слов формируются несколько случайных операндов a, b, c, d, над которыми производятся либо две одинаковые операции и результаты сравниваются, либо две взаимно-обратные операции и результаты сравниваются с нулем, например: ab b . ab ba , a Затем формируются новые случайные операнды и вновь производятся те же операции. После многократного повторения данного участка тест-программы переходят к следующему участку. При достаточно большом количестве повторений каждого участка получают весьма высокую вероятность обнаружения отказа в аппаратуре. 55 Лекция 13. 5 ПРИНЦИПЫ ПОСТРОЕНИЯ ОТКАЗОУСТОЙЧИВЫХ ИНФОРМАЦИОННЫХ СИСТЕМ 5.1 ОСНОВНЫЕ ЗАДАЧИ СОЗДАНИЯ ОТКАЗОУСТОЙЧИВЫХ СИСТЕМ При создании новых систем для обработки информации перед разработчиками стоят две основные задачи: а) достижение высокой производительности; б) обеспечение высокой надежности. Эти задачи противоречивы, и в каждом конкретном случае необходимо принимать компромиссное решение. Путь решения первой задачи – повышение быстродействия отдельных элементов ИС и максимальное распараллеливание процесса обработки данных. При решении второй задачи возможны два основных подхода: 1. Предотвращение отказов системы реализуется путем повышения технологического уровня изготовления компонентов ИС, минимизации ошибок разработчиков, программистов, операторов. Улучшению надежностных характеристик отдельных подсистем способствует входной контроль, повышение степени интеграции элементов, эффективные методы рассеивания тепловой энергии. Однако данный подход наталкивается на естественные ограничения технического и экономического характера. 2. Создание отказоустойчивых систем. При этом допускается возникновение отказов, но используются эффективные методы устранения их последствий. Отказоустойчивость – свойство архитектуры ИС, обеспечивающее выполнение заданных функций в случаях, когда в аппаратных и программных средствах системы возникают отказы. По способу реализации отказоустойчивость подразделяется на активную и пассивную. Активная отказоустойчивость базируется на отдельно выделенных процессах обнаружения отказа, локализации отказа и реконфигурации системы. Отказы обнаруживаются средствами контроля, локализуются при помощи средств диагностики и устраняются автоматической реконфигурацией системы. Последняя заключается в перестройке структуры системы таким образом, чтобы ее отказавшие компоненты были устранены от участия в работе. Пассивная отказоустойчивость заключается в способности системы не потерять свои функциональные свойства в случае отказа отдельных элементов. В таких случаях говорят, что отказ маскируется системой. Пассивная отказоустойчивость связана с увеличением количества аппаратуры в несколько раз; она применяется обычно тогда, когда недопустимы даже кратковременные перерывы в работе ИС, а также для обеспечения отказоустойчивости важнейших блоков или устройств системы. Применение активной отказоустойчивости характеризуется более экономным расходом аппаратных средств, однако связано с некоторыми потерями времени 56 при восстановлении работы системы после отказа (иногда возможны потери некоторой части данных). Активная отказоустойчивость реализуема только в многопроцессорных системах. В то же время применение пассивной отказоустойчивости гарантирует практически бесперебойную работу ИС и сохранение всей информации. Эти обстоятельства определяют области применения активной и пассивной отказоустойчивости. Введение отказоустойчивости является одним из способов повышения надежности ИС. Вопрос о построении и применении отказоустойчивых систем возникает тогда, когда другие пути повышения надежности не обеспечивают требуемого ее уровня по техническим или экономическим причинам. Отказоустойчивость системы обеспечивается введением избыточности, т.е. созданием определенных запасов или резервов. В отказоустойчивых ИС может быть использована избыточность параметрическая, временная, алгоритмическая и структурная. Параметрическая избыточность выражается в облегчении режимов работы элементов и узлов аппаратуры с целью повышения их надежности. Однако для правильно спроектированной системы эксплуатационные и другие параметры выбраны близкими к оптимальным, поэтому существенного увеличения надежности за счет параметрической избыточности, достигнуто быть не может. Временная избыточность заключается в наличии дополнительного времени для решения задачи, с тем, чтобы в случае возникновения сбоев можно было исправлять их путем повторной обработки данных. Временная избыточность создает предпосылки для реализации ресурсов по повышению отказоустойчивости, имеющихся в данной системе (реконфигурация, повторение вычислений), поскольку для этого требуется дополнительное время. Алгоритмическая избыточность заключается в применении таких алгоритмов, которые обеспечивают удовлетворительные результаты в случае наличия или возникновения ошибок в процессе обработки информации. Алгоритмическая избыточность предполагает наличие временной избыточности и является средством ее реализации. Например, свойствами избыточных алгоритмов обладают итерационные алгоритмы, обеспечивающие сходимость при больших случайных отклонениях промежуточных результатов. Структурная избыточность является наиболее эффективным видом избыточности. Она выражается в наличии дополнительных элементов, узлов, устройств в структуре системы, предназначенных для автоматической замены отказавших компонентов (см. гл. 2). Структура пассивно отказоустойчивых систем основана либо на мажоритарном принципе, либо на резервировании с контролем. Количество резервной и дополнительной аппаратуры в таких системах превышает количество основной аппаратуры. Структура активно отказоустойчивых систем может быть различной. Активная отказоустойчивость может быть применена в многопроцессорных системах с общей памятью, общей шиной, кольцевой, иерархической или другой структурой. 57 Ниже обзорно рассмотрены средства устранения последствий отказов и сбоев, а также основные способы восстановления процесса обработки данных. В общем же случае процесс функционирования отказоустойчивой ИС может быть представлен схемой, приведенной на рис. 6.1. Работоспособное состояние системы Возникновение ошибки Выявление ошибки Локализация ошибки Реконфигурация системы Восстановление потерянной информации Восстановление вычислительного процесса Работоспособное состояние системы Рис. 6.1. Последовательность состояний ИС. 5.2 СПОСОБЫ И СРЕДСТВА УСТРАНЕНИЯ ПОСЛЕДСТВИЙ ОШИБОК И ОТКАЗОВ В ИС Как известно, простейшим способом устранения ошибок является повторение вычислений. Однако он позволяет устранить только ошибки, вызванные сбоями, и требует значительных затрат машинного времени. Поэтому в практике используют два основных способа устранения последствий отказов и ошибок в работе ИС (рис. 6.2): - маскирование ошибочных действий; - реконфигурация системы. 58 Способы и средства устранения последствий отказов и ошибок Маскирование Реконфигурация Постепенная «деградация» Дублирование Динамическая Замещение Схемы с голосованием Логика с переплетениями Корректирующие коды Статическая Рис. 6.2. Классификация способов и средств устранения последствий ошибок и отказов. Суть первого способа состоит в том, что избыточная информация скрывает действие ошибочной информации за счет особенностей схемных решений и организации процесса обработки данных. При этом используются средства устранения последствий ошибок – средства маскирования, которые делятся по принципу действия на следующие группы: - корректирующие коды (коды Хэмминга, итеративные коды, AN-коды); - логика с переплетениями; - схемы с голосованием. В последнем случае используется нечетное число блоков, выполняющих одни и те же вычислительные операции, и большинством «голосов» определяется правильный набор выходных данных. Реконфигурация системы заключается в изменении состава средств обработки информации или способа их взаимодействия. Реконфигурация производится после выявления отказа. Этот способ устранения последствий ошибок и отказов включает: - статическую реконфигурацию; - динамическую реконфигурацию. Статическая реконфигурация системы осуществляется путем отключения отказавших компонентов. При этом система делится на две части: активную, участвующую в работе, и пассивную, охватывающую неработоспособные компоненты системы и отключенные в ходе реконфигурации. Динамическая реконфигурация по принципу проведения делится на следующие виды: 59 - замещение (поддержка запасом); - дублирование; - постепенная деградация системы (снижение функциональных способностей). 5.3 СПОСОБЫ ВОССТАНОВЛЕНИЯ ОТКАЗОУСТОЙЧИВОЙ ИС После реконфигурации для продолжения нормальной работы системы необходимо ее восстановить. Восстановление системы происходит на двух уровнях (рис. 6.3). Способы восстановления Повторное выполнение программы Возвращение к контрольной точке Программный уровень Повторение операции Ремонт (восстановле ние вручную) Автоматическое Аппаратный уровень Рис. 6.3. Классификация способов восстановления ИС. Аппаратный уровень. Здесь для восстановления отказавших компонентов ИС используют два способа: - автоматическое восстановление, реализуемое путем дополнительной реконфигурации системы. При этом предполагается, что в системе имеется ряд запасных блоков, благодаря которым она возвращается в работоспособное состояние. Производительность системы либо сохраняется, либо несколько снижается; - ремонт (восстановление вручную). В этом случае отказавший блок выводится из системы, и она либо продолжает работать с меньшей производительностью, либо приостанавливается до возвращения отремонтированного блока в активную часть ИС. Программный уровень. Здесь осуществляется восстановление информации о состоянии системы, необходимой для продолжения ее работы. В зависимости от нарушений в работе системы (от количества ошибочной информации) можно выделить следующие способы восстановления: - повторение операции на различных уровнях (команд или микрокоманд). Повторное выполнение некоторых операций может дать правильный результат, если связанная с ними ошибка является случайной или временной (ошибка исчезает в процессе восстановления); 60 - возвращение к контрольной точке. Контрольной точкой называется некоторый этап процесса обработки информации, для которого зафиксированы (в запоминающем устройстве) промежуточные результаты и информация о состоянии системы, позволяющая возобновить обработку данных. При обнаружении ошибки система возвращается к контрольной точке, предшествующей моменту возникновения отказа, и продолжает свою работу, используя данную точку в качестве исходной; - повторное выполнение программы. При этом способе восстановления все незавершенные (до возникновения отказа) программы выполняются с самого начала. Это необходимо, когда в системе разрушено такое количество информации, что восстановление путем повторного выполнения отдельных операций или участков программ невозможно. Данный способ применяется в случаях: а) если последствия отказа успели отразиться на большей части системы; б) если возможно восстановление только части вычислительных процессов; в) если продолжение работы системы при использовании других способов восстановления сопряжено с трудностями и большими затратами времени. 61 Лекция 14. 6 ИСПЫТАНИЯ НА НАДЕЖНОСТЬ 6.1 ЗНАЧЕНИЕ И ВИДЫ ИСПЫТАНИЙ НА НАДЕЖНОСТЬ Испытания на надежность - это определение показателей надежности объекта на основании непрерывного наблюдения за состоянием его работоспособности в условиях, предписанных методикой испытаний. Испытания на надежность являются обязательным видом испытаний при изготовлении изделий и при приемке их от заводов-изготовителей. Методики проведения таких испытаний регламентируются Государственными и отраслевыми стандартами. Испытания на надежность могут дать объективную информацию о надежности объекта с учетом комплексного влияния всех действующих при его работе факторов. Вместе с тем испытания на надежность обладают и отрицательными сторонами: 1) они требуют больших затрат времени и средств. Кроме того, в процессе испытаний расходуется значительная часть ресурса изделия; 2) результаты испытаний на надежность часто обращены в прошлое: об изделиях, которые успешно выдержали испытания, можно сказать, что они до испытаний обладали такой-то надежностью и это подтверждено испытаниями. Чтобы перенести выводы по результатам испытаний на надежность на период эксплуатации, необходимо выполнение ряда условий. Прежде всего необходима стабильность технологического процесса изготовления изделий, обеспечивающая устойчивость показателей надежности. Если все изделия, изготавливаемые по определенной технической документации, обладают одинаковой надежностью, то для определения показателей надежности большой совокупности изделия достаточно испытать некоторую выборку изделий из этой генеральной совокупности. Этот способ применим для изделий массового производства. Для объектов мелкосерийного и особенно индивидуального производства возникают серьезные затруднения. Пути их преодоления различны и зависят от конкретных условия производства и особенностей изделий. К таким путям относятся: - обеспечение устойчивости показателей надежности объектов на значительном интервале времени, с тем, чтобы после проведения испытаний на надежность оставался необходимый интервал времени, на котором сохраняется обнаруженная при испытаниях надежность изделия; - сочетание натурных испытаний с расчетом и моделированием. По целевой направленности испытания на надежность подразделяются на определительные, контрольные и специальные. Определительные испытания - испытания, в результате которых определяются количественные показатели надежности, как точечные (средняя наработка до отказа), так и интервальные (среднеквадратическое отклонение времени работы до отказа относительно среднего значения). 62 Контрольные испытания на надежность - испытания, в результате которых контролируемые изделия по некоторым признакам и с заданным риском относятся либо к категории годных, либо к категории негодных по уровню своей надежности. Такими признаками могут быть: отсутствие отказов на заданном интервале времени; число отказов в случайный момент времени и т.п. По результатам таких испытаний может быть сделан, к примеру, следующий вывод: изделия с риском поставщика (т.е. с вероятностью забраковать годные), равным 0,02, и риском заказчика-потребителя (т.е. вероятностью принять негодные), равным 0,03, могут быть отнесены к категории годных. Это менее информативный результат по сравнению с определительными испытаниями, но зато он требует меньшего объема испытаний. Специальные испытания на надежность - испытания, предназначенные для исследования некоторых явлений, связанных с оценкой надежности (определение долговечности, анализ влияния отдельных факторов на показатели надежности и т.д.). Чтобы испытания на надежность были менее трудоемкими и менее дорогостоящими, применяют специальные приемы: 1) ускорение испытаний путем использования таких режимов, которые приводят к ускорению процесса возникновения отказов; 2) прогнозирование отказов по изменению тех или иных параметров объекта; 3) использование предварительной информации о надежности испытуемого изделия, а также принципа накопления информации, полученной из различных источников. 6.2 ЗАДАЧИ, ВОЗНИКАЮЩИЕ ПРИ ИСПЫТАНИЯХ НА НАДЕЖНОСТЬ Ускорение испытаний. Ускоренные испытания – испытания в условиях, когда используются факторы, ускоряющие процесс возникновения отказов. Такими факторами могут быть температура, повышенная нагрузка, влажность и т.п. Для проведения ускоренных испытаний предварительно получают зависимости показателя надежности от изменения ускоряющего фактора или связь между значениями показателя надежности, полученными при различных условиях испытаний. Исключение «анормальных» результатов испытаний. Статистические данные о надежности элементов, входящих в состав сложной системы, собираются обычно на разных объектах. Поэтому важно обеспечить однородность статистического материала. «Анормальные» результаты испытаний должны исключаться из статистической совокупности по правилам исключения «анормальных» результатов измерений. Суть этих правил состоит в следующем: 1) если некоторое измерение хк внушает сомнение в его принадлежности к генеральной совокупности, определяются: а) среднее значение хср и средне- 63 квадратическое отклонение генеральной совокупности без сомнительных измерений; б) коэффициент k, равный k = (хк - хср)/ , где N ( xi xcp ) 2 /( N 1) ; 1 2) если k больше допустимого значения, указанного в специальной таблице допустимых значений, то делается вывод о том, что хк не принадлежит к генеральной совокупности. Приведем извлечение из таблицы значений допустимых k: Число измерений Значение k 4 6 8 10 12 14 16 1,49 1,94 2,22 2,41 2,55 2,66 2,75 Пример 7.1. Определить наличие “анормальных” измерений, если получены измерения: 1. 0,9986 5. 0,9996 10. 0,9975 14. 0,9993 2. 0,9997 6. 0,9759 11. 0,9997 15. 0,9995 3. 0,9934 7. 0,9986 12. 0,9998 16. 0,9996 4. 0,9991 8. 0,9986 13. 0,9998 17. 0,9992 9. 0,9993 Предварительный анализ состава измерений ставит под сомнение результаты 3, 6, как существенно отличающиеся от остальных. Произведем обработку основной группы измерений: 15 xcp xi / 15 0,9990; ( xi xcp ) 2 /14 0,0008 . 1 Определим значение k=7. Определим по приведенной выше таблице предельно допустимое значение k для 15 измерений. Оно не превышает 2,75. Следовательно, полученное значение k для третьего измерения значительно больше допустимого значения, поэтому результат третьего измерения – «анормальный». Использование косвенных признаков прогнозирования отказов. Для современных технических систем все большее значение приобретает предупреждение отказов, а не их пассивная регистрация. Предупреждать же отказы можно только тогда, когда возможно прогнозирование их возникновения. К наиболее распространенным прогнозирующим признакам относятся признаки, косвенным образом информирующие о надежности. Связь их с показателями надежности выражается сложными зависимостями. Если эти зависимости обнаружены и зафиксированы в виде графика, таблицы или математического выраже- 64 ния, то нетрудно по изменению косвенного признака определить прогнозируемую вероятность возникновения отказа. В качестве прогнозирующих косвенных параметров могут, например, использоваться: - температура поверхности токоведущих элементов, зависящая от мощности рассеяния, которая, в свою очередь, зависит от сопротивления элемента. Повышение сопротивления часто предшествует обрыву цепи, поэтому изменение температуры может использоваться в качестве косвенного параметра, прогнозирующего отказ; - отношение прямого и обратного сопротивлений диодов (отклонение этого отношения от номинального значения прогнозирует отказ). Индивидуальное прогнозирование надежности. В практике испытаний на надежность находит применение метод индивидуального прогнозирования, или метод, основанный на теории распознавания образов. В этой теории разрабатываются приемы, позволяющие относить исследуемый объект к той иной категории объектов на основании некоторых признаков. На основе такой теории созданы методы расшифровки старинных текстов, медицинской диагностики, опознавания объектов и т.п. Контрольные испытания на надежность так же, по существу, решают задачу распознавания образа – на основании зафиксированного числа отказов или их отсутствия делается вывод о принадлежности изделия к определенной категории. Но распознавание образа при контрольных испытаниях на надежность можно развить дальше. Предварительно выбираются признак отказа изделия и несколько контролируемых параметров, например, электрическое напряжение в нескольких контрольных точках, сила тока, выделяемая мощность, коэффициент усиления и т.д. Перед испытаниями проводится изучение зависимости изменения работоспособности изделия от изменения контролируемых параметров. Строится распознающая функция, т.е. такая функция, которая позволяет по ее числовому значению или по знаку определить, к какой категории относится данное изделие. 6.3 ВЫВОДЫ ОБ ИСПЫТАНИЯХ НА НАДЕЖНОСТЬ ИНФОРМАЦИОННЫХ СИСТЕМ При планировании испытаний ИС на надежность необходимо учитывать следующие особенности таких систем: 1. Процесс создания ИС - это длительный процесс, состоящий из нескольких этапов. После выбора структуры системы, который сопровождается математическим моделированием, изготавливается аппаратура, входящая в состав системы. Происходит постепенное наращивание аппаратных средств вплоть до создания аппаратурных комплексов, выполняющих заданные функции ИС. Эта особенность ИС требует, чтобы испытания на надежность также были непрерывным и длительным процессом. 65 2. Аппаратные средства ИС состоят из различных комплектующих элементов. По своему назначению аппаратура подразделяется на средства вычислительной техники, передачи и хранения информации, отображения информации, источники питания и т.д. Аппаратура может быть электронной, электрической, оптической и механической. Характер производства аппаратуры ИС также различен - от изделий массового производства до изделий единичного выпуска. Эта особенность требует, чтобы испытания на надежность ИС состояли из набора программ испытаний, учитывающих специфику устройств и объем производства аппаратуры. Например, для аппаратных средств массового производства могут быть запланированы выборочные испытания, а для изделий единичного производства - испытания, основанные на расчетно-экспериментальном принципе. 3. На надежность ИС оказывают влияние разнообразные факторы. Эта особенность требует проведения испытаний, позволяющих выявить их влияние в различных режимах использования системы. Отмеченные особенности информационных систем позволяют сформулировать следующие рекомендации по проектированию испытаний на надежность ИС. 1. Испытания на надежность ИС должны представлять собой систему взаимосвязанных испытаний, которые сопровождают процесс создания системы от этапа проектирования до сдачи в эксплуатацию. Не допускается механически переносить принципы организации испытаний на надежность простых изделий, на организацию испытаний больших систем типа ИС. Если для простых объектов массового производства испытания на надежность ориентированы либо на принятие, либо на забраковку объекта, то система испытаний большой системы ориентируется на управление надежностью в ходе ее создания. Это означает, что на различных этапах испытаний отвергаются или принимаются комплектующая аппаратура, варианты структуры системы, способы резервирования, контроля и другие технические решения для достижения главной цели - обеспечить на заключительном этапе создания системы требуемую надежность. 2. Испытаниям на надежность следует подвергать объекты, предварительно проверенные на функционирование. Надежность - это свойство сохранять работоспособность. Если объект не подготовлен к выполнению заданных функций (не настроен, не отрегулирован), то нет смысла подвергать его испытаниям на надежность. 3. В состав системы испытаний следует включать разнообразные виды и способы испытаний, отвечающих особенностям производства испытуемых объектов. Для изделий, изготавливаемых в условиях массового или крупносерийного производства, преобладающим видом испытаний являются определительные; для изделий серийного и мелкосерийного производства - контрольные испытания и сочетание контрольных испытаний с определительными; для изделий единичного производства контроль надежности следует осуществлять путем контроля за 66 факторами, влияющими на надежность - качество технологического процесса, надежность комплектующих элементов и т.п. 4. Система испытаний ИС по времени их проведения включает в себя следующие основные этапы: а) испытания аппаратуры и ее элементов с целью получения информации о надежности частей системы; б) испытания аппаратурных комплексов и системы в целом с использованием информации о надежности аппаратуры; в) уточнение оценки надежности системы по результатам подконтрольной эксплуатации системы и ее частей. 5. Наиболее целесообразным решением проблемы оценки надежности ИС в целом является расчетно-экспериментальный метод, т.е. сочетание натурных испытаний и расчетов, и последующее подтверждение полученных расчетных оценок с помощью ограниченного объема испытаний. 6. Каждая большая система требует разработки своей методики испытаний, отражающей ее особенности. Испытания элементов, входящих в состав большой системы, следует рассматривать в качестве предварительного этапа испытаний всей системы.