А.В. ЕРШОВ МЕТОДЫ ПРОВЕДЕНИЯ ОЧИСТКИ ДАННЫХ, ПРИМЕНЯ- ЕМЫЕ ПРИ ПОСТРОЕНИИИ БАЗ ДАННЫХ

реклама
УДК 004.4(06) Технологии разработки программных систем
А.В. ЕРШОВ
Московский инженерно-физический институт (государственный университет)
МЕТОДЫ ПРОВЕДЕНИЯ ОЧИСТКИ ДАННЫХ, ПРИМЕНЯЕМЫЕ ПРИ ПОСТРОЕНИИИ БАЗ ДАННЫХ
Для эффективного решения задач, связанных с обработкой разносторонней
информации, при загрузке её в хранилище данных возникает проблема “очистки”.
Очистка данных занимается выявлением и удалением ошибок и несоответствий в
данных с целью улучшения их качества. Когда интеграции подлежит множество
источников данных, (например, анкетная информация) необходимость в очистке
данных существенно возрастает.
При проведении массовых анкетных опросов в базы данных загружают и постоянно обновляют значительные объемы данных из различных
источников, поэтому вероятность попадания в них "грязных данных"
весьма высока. Более того, эти базы данных используются для выдачи
рекомендаций для дальнейшего принятия решений, следовательно, чтобы
некорректные данные не привели к некорректным выводам, жизненно
необходимо проводить корректировки таких данных.
Существует множество средств, с различной функциональностью,
предназначенных для поддержания подобных задач, однако часто достаточно большой объем работы по очистке и преобразованию приходится
выполнять вручную или низкоуровневыми программами, трудными для
написания и использования.
В основном проблемы возникают при утрате значений (не введённые
значения), орфографических ошибках, вложенных значениях (несколько
значений в одном атрибуте), при значениях не соответствующих своим
полям, а также при нарушении логических связей, при дублирующихся
или противоречивых записях. Учитывая, что очистка источников данных
представляет собой довольно дорогостоящий процесс, предотвращение
ввода загрязненных данных является важным шагом в уменьшении проблем. Для этого требуется соответствующим образом спроектированные
схема базы данных и ограничения целостности, а также приложения для
ввода данных. [1, 2]
Очистка данных включает несколько этапов:
 Анализ данных: для выявления подлежащих удалению видов ошибок
и несоответствий необходим подробный анализ данных.
 Определение порядка и правил преобразования данных: этот этап зависит от числа источников данных, степени их неоднородности и заISBN 978-5-7262-0883-1. НАУЧНАЯ СЕССИЯ МИФИ-2008. Том 11
49
УДК 004.4(06) Технологии разработки программных систем
грязненности. Первые шаги по очистке данных могут скорректировать проблемы отдельных источников данных и подготовить данные
для интеграции. Дальнейшие шаги должны быть направлены на интеграцию схемы/данных и устранение проблем множественных элементов, например - дубликатов.
 Подтверждение: правильность и эффективность процесса и определений преобразования должны тестироваться и оцениваться, чтобы выяснить, необходимо ли как-то улучишь эти определения.
 Противоток очищенных данных: когда ошибки отдельного источника
удалены, очищенные данные должны заместить загрязненные данные
в исходных источниках.
Необходимо определить и соблюдать последовательность шагов преобразования для обработки различных проблем с качеством данных уровня схемы и элементов данных, отраженных в близлежащих источниках
данных. Ряд типов преобразований следует выполнять на отдельных источниках данных, подготавливая его к интеграции с другими источниками. Такие подготовительные этапы обычно включают также:
 Извлечение значений из атрибутов свободного формата
 Проверка допустимости и исправления
 Стандартизация
Есть несколько способов оптимизации процесса очистки данных.
Первый способ основывается, на том, что проверка одних критериев может зависеть от результатов проверки других, в этом случае рекомендуется по результатам проверки критериев с более высоким приоритетом
формировать временные таблицы, которые будут потом проверяться на
соответствие другим критериям. Другой способ для анализа критериев,
время проверки которых невелико, использует представления. Это позволяет уменьшить время выполнения фазы за счёт отсутствия излишних
пересылок данных [3].
В докладе будет рассмотрен опыт работы по очистке данных, используемых для создания склада данных.
Список литературы
1. Спирли Э. Корпоративные хранилища данных. Планирование, разработка, реализация. Том. 1: Пер. с англ. - М.: "Вильямс", 2001.
2. Ralph Kimball, The Data Warehouse Toolkit: Practical Techniques for Building Dimensional Data Warehouses. John Willey & Sons, New York, 1996.
3. White C. Data Integration: Using ETL, EAI, and EII Tools to Create an Integrated Enterprise // DMReview. 2005. №11. P. 25-53
ISBN 978-5-7262-0883-1. НАУЧНАЯ СЕССИЯ МИФИ-2008. Том 11
50
Скачать