Модель идентификации пользователей по клавиатурному почерку

реклама
8Ч
УДК 519.72+681.3
Л.Э. Чалая
Харьковский национальный университет радиоэлектроники, Харьков,
kovalivnich@kture.kharkov.ua, Украина
Модель идентификации пользователей
по клавиатурному почерку
В работе рассмотрены вопросы биометрической идентификации пользователей компьютерных
систем. Предложена модель идентификации пользователей распределенных информационных
систем по клавиатурному почерку. Модель основана на использовании математического аппарата
теории нечетких множеств и теории вероятностей. Практическая реализация предложенной
модели осуществлена при помощи технологии программных агентов.
Введение
Основой
современных
информационных
технологий
является
автоматизированная компьютерная обработка данных. С развитием и
расширением сферы применения средств вычислительной техники острота
проблемы обеспечения безопасности в вычислительных системах и
разграничения доступа в распределенных информационных системах возрастает
по ряду объективных причин. Главная из них – повышение доверия к
информационным ресурсам и компьютерным системам. Распределенные
информационные системы и сети с удаленным доступом выдвинули на первый
план вопрос безопасности информационных ресурсов.
Актуальной задачей в распределенных компьютерных системах и сетях с
удаленным доступом является разработка моделей и методов идентификации
пользователей распределенных информационных систем. Одним из перспективных
направлений идентификации личности являются биометрические технологии [1].
Цель работы
Целью данной работы является повышение достоверности идентификации
пользователей в условиях неопределенности на основе разработки и реализации
моделей идентификации пользователей распределенных информационных систем
по клавиатурному почерку.
Постановка задачи
В данной работе предлагается на основе содержательного анализа
биометрических методов идентификации личности разработать и обосновать математическую модель идентификации пользователей распределенных информационных
систем; исследовать подходы к использованию в реализации технологии программмных агентов; выполнить экспериментальную проверку теоретических положений.
«Штучний інтелект» 4’2004
811
Чалая Л.Э.
8Ч
Классификация биометрических характеристик
Биометрические характеристики человека можно разделить на две группы:
статические и динамические. К первым относятся характеристики, данные
человеку от рождения и неизменяемые с течением времени: отпечатки пальцев,
геометрия лица, геометрия руки, рисунок сетчатки глаза. Ко вторым же можно
отнести
поведенческие
характеристики,
основанные
на
динамике
подсознательных движений: рукописный почерк, клавиатурный почерк,
голосовую идентификацию [1].
Для осуществления идентификации по статическим характеристикам
необходимо использовать специализированную аппаратную поддержку, в
большинстве случаев дорогостоящую. Для снижения стоимости биометрического
контроля целесообразно отказаться от дополнительных аппаратных средств и
использовать стандартные устройства ввода информации (в случае
идентификации по клавиатурному почерку – стандартную клавиатуру).
Достоинство методов идентификации и аутентификации пользователей с
использованием дополнительного программного обеспечения в отличие от
идентификации по отпечаткам пальцев, геометрии лица и др. заключается в том,
что они не требуют денежных затрат на приобретение дополнительного
оборудования и могут быть реализованы на программном уровне. Принципы,
лежащие в основе применяемых алгоритмов, можно разделить на следующие:
классификация биометрических и поведенческих параметров и классификация
круга информационных интересов пользователя с динамикой их изменения.
Наряду с несомненными достоинствами динамическая биометрия имеет
трудности в реализации. К положительным моментам можно отнести уменьшение
затрат на создание систем идентификации, возможность менять пароли, не
переобучая систему. К недостаткам же относятся следующие моменты: влияние
на динамику подсознательных движений физического и психологического
состояния человека (усталость, возбуждение и т.д.), влияние внешних
раздражающих факторов. Необходимо также заметить, что идентифицируемая
личность должна иметь достаточно высокую квалификацию работы на
персональном компьютере, так как данные, полученные от неквалифицированных
пользователей, непоследовательны и противоречивы.
В связи с вышеизложенным автоматизация процедур биометрической
идентификации пользователей по клавиатурному почерку является важной и
актуальной задачей.
Задачу идентификации можно разделить на несколько этапов, основными из
которых являются обучение системы и собственно распознавание. Первоначально
системой снимаются и сохраняются в базе данных значения временных
характеристик (время удержания каждой клавиши (ВУК) и время между нажатиями
двух клавиш (ВМН)) зарегистрированных пользователей; на основании значений
этих параметров стоится шаблон (или профиль пользователя). Затем происходит
сравнение предъявляемого шаблона с уже хранимыми в базе данных системы, т.е.
собственно осуществляется идентификация.
Биометрическую идентификацию можно разделить на следующие этапы:
– предъявление биометрических образов пользователем – ввод текста с
клавиатуры;
812
«Искусственный интеллект» 4’2004
Модель идентификации пользователей по клавиатурному почерку
8Ч
–
измерение заданных биометрических параметров в предъявленном образе –
вычисление ВУК и ВМН;
– создание, сохранение в базе данных системы и уточнение биометрического
эталона идентифицируемой личности – построение шаблона (или профиля)
пользователя;
– сравнение предъявляемого пользователем профиля с сохраненными;
– предсказание уровня ошибок первого и второго рода для полученного
биометрического профиля.
Эти этапы являются подготовительными для аутентификации. Различием
идентификации и аутентификации является уровень доверия к пользователю. На
этапе идентификации уровень доверия априорно высок, так как происходит
обучение системы. На этапе же аутентификации уровень доверия, напротив,
очень низок, так как пользователь в процессе аутентификации должен доказать
свою «подлинность». Необходимо заметить, что биометрическая аутентификация
может служить лишь дополнением к классической, построенной на
использовании паролей и ключей [1].
Разработка математической модели идентификации
Традиционно ограничение доступа к информации осуществляется с
помощью паролей. Однако если увеличить длину парольной фразы, то появляется
возможность наблюдать при вводе пароля характерный для пользователя
клавиатурный почерк. При вводе парольной фразы биометрическая система
фиксирует время нажатия каждой клавиши и интервал времени между нажатием
очередной клавиши и отпусканием предыдущей клавиши. Обработав эти данные,
получаем время удержания каждой клавиши (ВУК) и время между нажатиями
клавиш (ВМН). Предлагается обрабатывать не отдельные клавиши, а так
называемые полиграфы – диграфы и триграфы – сочетания двух или трех клавиш.
Имеется статистика о часто встречающихся диграфах и триграфах в русском и
английском языках [2]. Именно на анализе этих полиграфов предлагается
разработка модели идентификации пользователя по клавиатурному почерку.
Для классификации объектов исследования (пользователей) в данной работе
предлагается использование кластерных методов. Все зарегистрированные
пользователи разделяются на кластеры по некоторым определяющим
характеристикам, например по скорости набора текста или некоторым другим
особенностям работы пользователя. Для каждого кластера строится эталонный
шаблон (или n-мерное множество характеристик) C k  c1 , c 2 ,..., c n , k  1,2,...l , l –
количество кластеров. При идентификации образца печатания из тестовой
выборки (или предъявленного профиля) профиль пользователя заносят в один из
кластеров, и дальнейшее сравнение происходит уже внутри этого кластера.
В работе предлагается совместное использование аппарата теории
вероятностей и теории нечетких множеств, что существенно снижает уровень
неопределенности при идентификации объекта исследования.
Биометрический
профиль
пользователя
получают
вычислением
математических ожиданий и дисперсий контролируемых параметров. При
обработке данных, полученных из обучающей выборки, очень важным является
исключение из нее нехарактерных значений параметров или аномальных
«Штучний інтелект» 4’2004
813
Чалая Л.Э.
8Ч
выбросов. Такими выбросами может быть время перед и после нажатия клавиши
«пробел», знаков препинания, цифр, управляющих клавиш.
Для уменьшения неопределенности исходных данных и результатов анализа
предлагается использовать математический аппарат нечетких множеств [3], [4].
Определим входной профиль пользователя как нечеткое подмножество
~
временных характеристик клавиатурного почерка пользователя: A  a 1 , a 2 ,..., a n , а
шаблон пользователя, хранимый в базе данных системы, как обычное подмножество,
~
ближайшее к нечеткому: A  a 1 , a 2 ,..., a n , где a i , i  1,2,..., n , –рассматриваемые
временные характеристики; n – количество рассматриваемых диграфов.
Функцию принадлежности можно представить в виде
2
(x )  e  k ( x  b) ,
(1)
где k – коэффициент крутизны, k  0 ; b – некоторая константа, определяющая
экстремум функции принадлежности.
Для идентификации образа пользователя рассмотрены возможности
использования евклидова расстояния, расстояния Хемминга между векторами
функций принадлежности множеств входных и хранимых характеристик.
Обобщенное относительное расстояние Хемминга между векторами,
хранимым и предъявляемым:
~ ~
1 n
(A, A)    ~ (a i )   A~ (a i ) ,
(2)
n i 1 A
где a i , i  1,2,..., n , – рассматриваемые временные характеристики; n –
количество рассматриваемых диграфов;  – функция принадлежности.
Относительное евклидово расстояние
1 n

n i 1
Так как в разных текстах одни и
~
встречаться, то подмножества A и
мощностью. При обучении системы
~ ~
( A , A ) 

~ (a i )
~ (a i )   A
A

2
,
(3)
те же диграфы могут встречаться или не
~
A могут характеризоваться различной
используются тексты гораздо большей
~
длины, чем при тестировании, поэтому подмножество A , естественно, будет
~
больше подмножества A . В связи с этим определение расстояний согласно (1), (2)
становится затруднительным. Поэтому целесообразно применение квадратичного
индекса нечеткости
n
2
~ ~
(4)
(A, A ) 
  A~ (a i )   A~ (a i ) 2 .
n i 1
~
Для «неизвестного» A (из тестовой выборки или предъявленного)
квадратичного индекса нечеткости соответствующих значений функций
~
принадлежности выбирается такой профиль A j ( j  1, m , где m – количество
зарегистрированных пользователей), для которого значение вычисленных
расстояний до предъявленного профиля и индекса нечеткости минимально.
Важной характеристикой технологии биометрической идентификации по
клавиатурному почерку является длина тестовой фразы. Критерием оптимальной
длины тестового текста принимаем время набора, например, не более минуты (в

814

«Искусственный интеллект» 4’2004
Модель идентификации пользователей по клавиатурному почерку
8Ч
среднем 150 символов). В связи с этим предлагается использовать специально
подобранную библиотеку текстов [5]. Тогда все пользователи будут находиться в
равных условиях, что определяется подбором текста и пользовательским
интерфейсом.
В эксперименте выявляются и используются также знания о некоторых
особенностях работы пользователей с текстами. Например, количество нажатий
клавиши BackSpace, Delete (частота устранения описок), время перед нажатием и
после нажатия пробела и т.д.
Выбор технологии реализации метода
Поддержка безопасности информационных ресурсов распределенных
систем на основе технологии программных агентов является одним из
перспективных направлений в широком спектре средств и методов защиты
данных [5]. Предложенный алгоритм идентификации был реализован с помощью
двухуровневой агентной системы: агент-менеджер, находящийся на сервере,
хранит образы (профили) всех пользователей; агенты-мониторы, расположенные
на каждой клиентской машине, сканируют, вычисляют временные
характеристики, формируют профиль пользователя и передают его для сравнения
агенту-менеджеру. От агента-менеджера к мониторам поступают результаты
сравнения.
Как уже было сказано, биометрическая аутентификация может служить
лишь дополнением к классической, поэтому при передаче данных через открытый
канал от агента-монитора к агенту-менеджеру и наоборот должна использоваться
криптографическая
аутентификация.
Схема
безопасного
варианта
биометрической аутентификации представлена на рис. 1.
Контролируемая зона
Пользователь
Агент-монитор
Биометри
ческая
Агент-менеджер
Криптографи
ческая аутентификация
Рисунок 1 – Схема удаленной биометрической аутентификации
Под контролируемой зоной понимается локальный компьютер с
расположенным на нем агентом-монитором, где существуют гарантии
целостности программного обеспечения биометрии и корректности поведения
пользователя – заявителя своих прав.
«Штучний інтелект» 4’2004
815
Чалая Л.Э.
8Ч
Пример
Для подтверждения эффективности предложенной модели был проведен
эксперимент, в котором было запланировано обучение и тестирование системы
идентификации пользователей по клавиатурному почерку.
В ходе эксперимента были собраны и проанализированы временные
характеристики клавиатурного почерка двадцати пользователей. По скорости
набора текста пользователи были разделены на три кластера. Для обучения
системы каждому из пользователей необходимо было набрать предложенный
текст (один и тот же), длиной 1000 символов, не менее 30 раз. На основании
полученных данных для пользователей были построены профили, основанные на
математических ожиданиях ВУК и ВМН. Для тестирования были предложены
литературные тексты, содержащие около 150 символов (включая пробелы).
Правильная идентификация с использованием квадратичного индекса нечеткости
в данной тестовой выборке составила 83,22 %.
На рис. 2 приведен биометрический профиль клавиатурного почерка одного
пользователя.
80
70
60
50
Время (мс)
Ряд1
40
Ряд3
30
20
10
0
из
эо
мо
ре
ни
ст
ло
зм
ги
кр
ру
ко
аи
ии
ог
ки
ий
ме
ов
ва
Буквосочетания (диграфы)
Рисунок 2 – Биометрический профиль одного пользователя:
ряд 1 – время между нажатиями клавиш диграфа;
ряд 3 – время удержания первой клавиши диграфа
Точки на графике построены по математическим ожиданиям
соответствующих временных характеристик одного пользователя. Предложенный
для обучения системы текст содержал не менее 1000 символов, включая пробелы,
для построения профиля выбраны диграфы, встречающиеся в тексте не менее 4
раз. Из обучающей выборки были исключены времена перед и после нажатия
пробела, знаков препинания, управляющих клавиш.
816
«Искусственный интеллект» 4’2004
Модель идентификации пользователей по клавиатурному почерку
8Ч
Выводы
В ходе работы был проведен содержательный анализ биометрических
методов идентификации; была построена модель идентификации пользователей
распределенных информационных систем с применением математического
аппарата нечетких множеств; обоснован выбор технологии программных агентов.
В ходе эксперимента были собраны и проанализированы временные
характеристики
клавиатурного
почерка
пользователей.
Правильная
идентификация с использованием квадратичного индекса нечеткости в тестовой
выборке составила 82,3 %.
Полученные в проведенных исследованиях результаты позволяют сделать
вывод об эффективности разработанного метода идентификации пользователя
распределенной информационной системы по клавиатурному почерку с
использованием аппарата теории вероятностей, теории нечетких множеств и
агентных технологий. Данная разработка может использоваться для повышения
надежности систем разграничения доступа в комплексе с классической
идентификацией, построенной на использовании паролей и ключей, для усиления
контроля над пользователями в распределенных информационных системах.
Литература
1.
2.
3.
4.
5.
Иванов А.И. Биометрическая идентификация личности по динамике подсознательных
движений. – Пенза: ПГУ, 2000.
Аршинов М.Н., Садовский Л.Е. Коды и математика. – М.: Наука, 1983. – 144 с.
Кофман А. Введение в теорию нечетких множеств. – М.: Радио и связь, 1982. – 432 с.
Tsoukalas L.H., Uhrig R.E. Fuzzy and Neural Approaches in Engineering. – New York: John
Wiley&Sons.Inc, 1997. – 587 p.
Филатов В.А., Чалая Л.Э. Об одном подходе к использованию агентных технологий в задачах
идентификации пользователей информационных систем // Искусственный интеллект. – 2003.–
№. 4 – С. 460-466.
Л.Е. Чала
Модель ідентифікації користувачів за клавіатурним почерком
У роботі проведено огляд питань біометричної ідентифікації користувачів комп’ютерних систем.
Запропоновано модель ідентифікації користувачів розподілених інформаційних систем за
клавіатурним почерком. Модель базується на використанні математичного апарату теорії нечітких
множин та теорії ймовірностей. Практична реалізація запропонованої моделі здійснена за
допомогою технології програмних агентів.
The questions of biometric identification of computing system users are considered. The identification
model of users of distributed information systems by keystroke dynamic is proposed. The model based on
the fuzzy logic and probability theory mathematical tools. The practical implementation of the proposed
model realized by the program agent technology
Статья поступила в редакцию 30.07.2004.
«Штучний інтелект» 4’2004
817
Скачать