МИНИСТЕРСТВО ПРОСВЕЩЕНИЯ РФ ФГБОУ ВО БАШКИРСКИЙ ГОСУДАРСТВЕННЫЙ ПЕДАГОГИЧЕСКИЙ УНИВЕРСИТЕТ ИМ.М.АКМУЛЛЫ Кафедра Информационных технологий Отчет по лабораторной работе № 1 На тему «ОБРАБОТКА ДАННЫХ. ОСНОВНЫЕ АЛГОРИТМЫ ПО ОЧИСТКЕ И ТРАНСФОРМАЦИИ ДАННЫХ В DEDUCTOR» По дисциплине «Big-data, анализ данных и прогнозирование» Выполнил: Студент группы ИСИТ-31-21 Булыгина У.А. Проверил: преподаватель каф.ИТ Маликов Р.Ф. Уфа 2024 Ход работы Цель работы: ознакомиться и приобрести умения и навыки трансформации данных при подготовке их к анализу, приобретение практических навыков по использованию инструментария Deductor. Импорт Credit.txt для исходных данных Назначение используемым “Дата кредитования” и тип данных строка для “Год+Неделя” Выбор “Куб” в качестве визуализатора Назначение столбца "Дата кредитования_YWStr (Год + Неделя)" и столбца "Цель кредитования" как “Измерение”, а столбца “Сумма кредита” как “Факт”. “Неиспользуемое” для других столбцов Перенос одного измерения из области "доступных" в область" Измерения в строках", а другого – в область "Измерения в столбцах". Выводится кросс-диаграмма с суммами взятых кредитов по неделям (за первые две недели года) в разрезе целей кредитования. Выбираем назначение поля "Возраст" используемым, укажем способ разбиения "По интервалам", зададим количество интервалов равное 5, в качестве значения выберем "Метка интервала". Определим сами метки соответственно возраста кредиторов Выбор “Куб” в качестве визуализатора В Мастере укажем "Сумма кредита" в качестве факта, "Возраст" и поле "Дата кредитования (Год +Неделя)" в качестве измерения, остальные поля укажем неиспользуемыми. Далее перенесем "Возраст" из доступных измерений в "Измерения в строках", a "Дата кредитования (Год + Неделя)" в "Измерения в столбцах". На кросс-диаграмме будет видна информация о том, какие суммы кредитов берут кредиторы определенных возрастных групп по неделям. Настройка набора данных. Изменяем метку столбца на более информативную Установка вида данных “Дискретный” для столбца “Срок кредита” Настройка измерений Отчет в виде кросс-таблицы Фильтрация данных по имени поля “Сумма кредита”, условию “<”, значению “10000” Результат фильтрации в таблице Проверка правильности выполненной операции, выбрав в качестве визуализации данных статистику и просмотрев значения минимального и максимального значения поля "Сумма кредита". Замена данных. Добавление списка значений для пола:муж и жен. Замена этих значений на полные слова. Выбор визуализации “Куб” Укажем в качестве измерений поля "Пол" и "Цель кредитования", а в качестве факта "Сумма кредита". Остальные поля отметим как "неиспользуемый". Получаем отчет в виде кросс-таблицы Импорт Banks.txt Настройка столбцов После обработки получим суммарные данные по прибыли всех банков по каждому городу. Импорт Trade.txt Указывание точки в качестве разделителя дробной и целой части Теперь в качестве входных факторов можно использовать "Количество - 12", "Количество - 11" - данные по количеству 12 и 11 месяцев назад Выбор узла связи и типа слияния данных Установка связи между наборами данных Укажем необходимые взаимосвязи между столбцами двух узлов сценария Полученные результаты будут представлены в виде диаграммы Вывод: В результате проделанной лабораторной работы мы ознакомились и приобрели умения и навыки трансформации данных при подготовке их к анализу, приобрели практические навыки по использованию инструментария Deductor.