Трансформация данных Каждая выборка исходных данных, загpужаемая в аналитическое приложение, характеризуется набором свойств, которые могут повлиять на эффективность работы модели и снизить достоверность результатов анализа. Даже если данные очищены от таких факторов, ухудшающих их качество, как дубликаты, противоречия, шумы, аномальные значения, про пуски и др., они все еще могут не соответствовать методике и целям анализа. Данные могут быть разобщены, не упорядочены, представлены в форматах, с которыми не работает тот или иной алгоритм. Трансформация данных, то есть их преобразование к определенному представлению, формату или виду, оптимальному с точки зрения решаемой задачи, и призвана решить эту проблему. Трансформация данных - комплекс методов и алгоритмов, направленных на оптимизацию представления и форматов данных с точки зрения решаемых задач и целей анализа. Трансформация данных не ставит целью изменить информационное содержание данных. Ее задача - представить эту информацию в таком виде, чтобы она могла быть использована наиболее эффективно. Трансформация данных на разных этапах аналитического процесса OLТР системы ЕТL процесс Аналитическое приложение Обеспечение Обеспечение Непосредственная поддержки поддержки подготовка данных к корректности форматов корректности форматов анализу, и типов данных. и типов данных. объединение и Оптимизация процессов Преобразование выделение наиболее доступа и выгрузки данных с целью ценной информации, данных. приведения в обеспечение соответствие с моделью корректной работы данных, которая аналитических используется в алгоритмов, методов хранилище. и моделей Обеспечение процесса консолидации данных и их загpузки в хранилище Необходимость использования методов трансформации данных в аналитическом приложении обусловлена еще и их доступностью аналитику. Действительно, в процессе подготовки данных пользователь аналитического приложения имеет возможность по своему усмотрению применять те или иные методы трансформации данных, настраивать их параметры, проводить эксперименты, позволяющие определить влияние трансформации на результаты анализа. Основные методы трансформации данных Преобразование упорядоченных данных. Позволяет оптимизировать представление таких данных с целью обеспечения дальнейшего анализа, например решения задачи прогнозирования временного ряда или группировки по временному периоду. Квантование (дискретизация). Позволяет разбить диапазон возможных значений числового признака на заданное количество интервалов и присвоить номера интервалов или иные метки попавшим в них значениям. Пример: атрибут «возраст» (количество лет) заменяется на интервалы «возрастные группы». В бизнес-аналитике квантование способствует достижению следующих целей: Изменяется вид данных: из непрерывных они могут быть преобразованы в дискретные. Квантование может использоваться для сокращения размерности данных, а именно для уменьшения числа разнообразных значений признака. В некоторых случаях представляет интерес использование в качестве результатов квантования не самих номеров интервалов, а дрyгих значений, связанных с ними: Нижняя граница интервала Верхняя граница интервала Середина интервала Различают два основных метода квантования: равномерное (однородное) квантование: неравномерное (неоднородное) квантование. Сортировка. Позволяет изменить порядок следования записей исходной выборки данных в соответствии с алгоритмом, определенным пользователем. В некоторых случаях сортировка дает возможность упростить визуальный анализ выборки, оперативно определить наибольшие и наименьшие значения признаков и т. д. Слияние. Позволяет объединить две таблицы по одноименным полям или дoполнить одну таблицу записями из другой, которые отсутствуют в дополняемой. Слияние применяется в тех случаях, когда информацию в анализируемой выборке данных необходимо дополнить информацией из другой выборки. При объединении к записям исходной выборки добавляются все записи другой. В случае дополнения к исходной выборке добавляются только те данные, которые отсутствовали в исходной. Операция слияния является одним из способов обогащения данных: если выборка содержит недостаточно данных для анализа, то ее можно дополнить недостающей информацией из другой выборки. Группировка и разгpуппировка. Очень часто информация, интересующая aнaлитика, в таблице оказывается «разбавлена» посторонними данными, разобщена, разбросана по отдельным полям и записям. Используя группировку, можно обобщить нужную информацию, объединить ее в минимально необходимое количество полей и значений. Обычно предусматривают возможность выполнения и обратной операции разгруппировки. Настройка набора данных. Позволяет изменять имена, типы, метки и назначения полей исходной выборки данных. Например, если поле, содержащее числовую информацию, в источнике данных по какой-либо причине имеет строковый тип, значения этого поля не могут обрабатываться как числа. Чтобы работа с числовыми данными этого поля стала возможной, их следует преобразовать к числовому типу. Табличная подстановка значений. Позволяет производить замену значений в исходной выборке данных на основе так называемой таблицы подстановки. Таблица подстановки содержит пары «исходное значение новое значение». Каждое значение выборки данных проверяется на соответствие исходному значению таблицы подстановки, и если такое соответствие найдено, то значение выборки изменяется на соответствующее новое значение из таблицы подстановки. Это очень удобный способ для автоматической корректировки значений. Вычисляемые значения. Иногда для анализа требуется информация, которая отсутствует в явном виде в исходных данных, но может быть получена на основе вычислений над имеющимися значениями. Например, если известны цена и количество товара, то сумма может быть рассчитана как их про изведение. Для этих целей в аналитическое приложение включается cвoeгo рода калькулятор, который позволяет выполнять над данными исходной выборки различные вычисления. Поскольку анализируемые данные могyт быть различных типов (строковый, числовой, дата/время, логический), то механизм расчетов должен поддерживать работу не только с числовыми данными, но и с данными других типов, например выделять подстроку, выполнять логические операции и т. д. Нормализация. Нормализация позволяет преобразовать диапазон изменения значений числового признака в другой диапазон, более удобный для применения к данным тех или иных аналитических алгоритмов, а также согласовать диапазоны изменений различных признаков. Часто используется приведение к единице, когда весь имеющийся диапазон данных «сжимается» в интервал [0; 1] или [1; 1]. Особенно важно произвести правильную нормализацию данных в алгоритмах Data Mining, которые основаны на измерении расстояния между векторами объектов в многомерном пространстве признаков (например, в кластеризации). Основные методы нормализации Десятичное масштабирование. Производится путем перемещения десятичной точки на количество цифр в числе, которое определяется исходя из максимальнoгo значения признака. При этом преобразование каждого исходного значения признака V(i) в норма-лизованное значение V' (i) производится с помощью выpaжения: Минимаксная нормализация. Предположим, что значения нeкoтopoгo признака V лежат в диапазоне от 150 до 250. Предыдущий метод даст все значения нормализованного признака в интервале от 0,15 до 0,25, что не вполне удачно, поскольку они оказываются сконцентрированными в очень небольшом диапазоне. Чтобы получить лучшее распределение значений в пределах интервала [0; 1], можно воспользоваться так называемой минимаксной формулой: Нормализация с помощью стандартного отклонения. Минимаксная нopмaлизация оптимальна, когда значения признака V плотно заполняют определенный интервал. Но подобный подход применим не всегда. Так, если в данных имеются относительно редкие выбросы, нaмнoгo превышающие типичный разброс, именно они определят согласно предыдущей формуле масштаб нормализации. Это приведет к тому, что основная масса значений нормированной переменной V' (i) сосредоточится вблизи нуля: I V'(i) |« 1. В этом случае гораздо надежнее ориентироваться не на экстремальные значения, а на типичные и использовать для нормализации статистические характеристики данных: среднее и дисперсию. Например, на всем множестве х для нeкoтopoгo признака V вычисляются среднее значение и стандартное отклонение, затем для каждого значения признака v' (i) рассчитывается преобразование: Нормализация с помощью поэлементных преобразований. Еще одним способом нормализации является поэлементное преобразование членов ряда с помощью различных нелинейных функций, которые способны отображать исходный диапазон значений в диапазон, соответствующий параметрам функции преобразования. Исходный диапазон [vI; v2] преобразуется к более узкому [v1’; v2’]. Набор применяемых для этих целей преобразований весьма широк: экспоненциальное преобразование v' = exp(v); логарифмическое и обратное логарифмическое преобразование v' = log(v) и v' = 1/log(v); степенное и обратное степенное преобразование.