Программа курса «Основы работы с ПО IBM SPSS Modeler» 1. Введение Курс имеет целью дать слушателям основные знания и навыки в области Data Mining и использования IBM SPSS Modeler. Структура курса охватывает все стадии типичного проекта в области Data Mining, начиная от загрузки данных, их анализа, трансформации, моделирования и эффективного представления результатов. Реализация каждой стадии наглядно показана в курсе на примере использования ПО IBM SPSS Modeler. Курс предназначен для всех, кто хочет научиться работать с IBM SPSS Modeler и ознакомится с основами Data Mining. Предшествующий опыт работы с аналогичным ПО для слушателей не обязателен. Не требуются (но будут желательными) базовые знания в области анализа данных и статистики. По окончанию курса слушатели смогут: Использовать IBM SPSS Modeler для построения прогностических моделей Кроме того: Понять основные принципы Data Mining При помощи IBM SPSS Modeler: осуществлять загрузку данных проводить их анализ и аудит выполнять поиск аномальных данных проводить трансформацию данных применять различные техники моделирования проводить сравнение и оценку получившихся моделей проводить развертывание моделей. Теоретические знания и практические навыки и умения по курсу проверяются путем выполнения итогового теста. Программу разработал бизнес-аналитик IBA Северинец Дмитрий. 2. Содержание программы 1. Введение в Data Mining (1 час) 1.1. Введение в Data Mining 1.2. Ключевые вопросы для проектов Data Mining 1.3. CRISP-DM: методология ведения проектов Data Mining 1.4. Необходимы навыки для работы в области Data Mining 2. Основы использования IBM SPSS Modeler (1 час) 2.1. Начало работы с IBM SPSS Modeler 2.2. Построение потоков данных 2.3. Настройка интерфейса 3. Загрузка файлов с данными (2 часа) 3.1. Загрузка данных в IBM SPSS Modeler 3.2. Загрузка данных из разделенного текстового файла 3.3. Загрузка файлов IBM SPSS Statistics 3.4. Загрузка данных из Excel 3.5. Загрузка SAS-файлов 3.6. Определение типов полей 3.7. Роли полей 3.8. Сохранение потока данных в IBM SPSS Modeler 3.9. Демо 1: Чтение данных из разделенного текстового файла 3.10. Демо 2: Обработка полей с датами 3.11. Упражнения по теме 4. Понимание данных (2 часа) 4.1. Работа с отсутствующими данными в IBM SPSS Modeler 4.2. Оценка отсутствующих данных 4.3. Использования Data Audit Node для отсутствующих данных 4.4. Автопроверка данных на отсутствие и выбросы (outliers) 4.5. Распределение полей и сводная статистика 4.6. Основные советы при обработке отсутствующих данных 4.7. Упражнения по теме 5. Выбросы (outliers) и аномальные данные (2 часа) 5.1. Что такое аномальные данные? 5.2. Выбросы в категорийных полях (categorical fields) 5.3. Выбросы в числовых полях 5.4. Выбросы в двух полях (категорийных и числовых) 5.5. Выбросы в двух числовых полях 5.6. Использование Anomaly Node 5.7. Упражнения по теме 6. Преобразование данных (2 часа) 6.1. Краткое введение в язык преобразования данных (CLEM) 6.2. Операции над полями (столбцами) таблиц: Filter Node 6.3. Установка очередности полей в таблице 6.4. Использование Derive Node 6.5. Использование Reclassify Node 6.6. Одновременное выполнение операций над полями 6.7. Автоматическая генерация узлов преобразований над полями 6.8. Упражнения по теме 7. Поиск взаимосвязей в данных (2 часа) 7.1. Изучение взаимосвязей между категорийными полями 7.2. Matrix Node: взаимосвязь между двумя категорийными полями 7.3. Использование Web Node 7.4. Корреляции между числовыми полями 7.5. Means Node: анализ взаимосвязей между числовыми и категорийными полями 7.6. Использование Graphboard Node для изучения взаимосвязей 7.7. Упражнения по теме 8. Объединение файлов с данными (1 час) 8.1. Использование Append Node для объединения файлов 8.2. Использование Merge Node для объединения файлов 8.3. Использование и редактирование SuperNode 8.4. Сохранение и вставка SuperNode 8.5. Упражнения по теме 9. Агрегирование данных (1 час) 9.1. Сводные данные при помощи Aggregate Node 9.2. Преобразование данных при помощи SetToFlag Node 9.3. Объединение потока данных после использование Aggregation и SetToFlag Node 9.4. Преобразование данных при помощи Restructure Node 9.5. Упражнения по теме 10. Отбор, выборка и разделение данных (2 часа) 10.1. Использование Distinct Node для удаления дубликатов 10.2. Сортировка строк 10.3. Выборка строк 10.4. Автоматическая генерация Select Node 10.5. Использование Sample Node для выборки строк 10.6. Соблюдение баланса в данных при помощи Balance Node 10.7. Разделение данных при помощи Partition Node 10.8. Кэширование данных 10.9. Упражнения по теме 11. Техники моделирования в IBM SPSS Modeler (2 часа) 11.1. Нейронные сети 11.2. Линейная регрессия 11.3. Логистическая регрессия 11.4. Кластеризация 11.5. Ассоциативные правила 11.6. Какую технику применять и когда? 12. Деревья решений (2 часа) 12.1. Пример использования алгоритма C5.0 12.2. Просмотр модели 12.3. Генерация и просмотр набора правил (rule set) 12.4. Определение точности модели 12.5. Упражнения по теме 13. Автоматическое моделирование для категорийных полей (2 часа) 13.1. Создание бинарного поля 13.2. Использование узла Auto Classifier 13.3. Упражнения по теме 14. Автоматическое моделирование для числовых полей (2 часа) 14.1. Использование узла Auto Numeric 14.2. Упражнения по теме 15. Понимание моделей (2 часа) 15.1. Анализ точности при помощи Analysis Node 15.2. Зависимые переменные для категорийных полей 15.3. Зависимые переменные для числовых полей 15.4. Упражнения по теме 16. Использование построенных моделей (2 час) 17.1. Развертывание модели 17.2. Экспорт результатов моделирования 17.3. Оценка работы модели 17.4. Жизненный цикл модели 17.5. Обновление модели 17.6. Упражнения по теме 17. Итоговый тест (2 часа) 18. Список рекомендуемой литературы IBM SPSS Modeler ftp://ftp.software.ibm.com/software/analytics/spss/documentation/modeler/14.2/en/ http://www-01.ibm.com/software/analytics/spss/products/modeler/library.html Data Mining Книги: Data Mining – Concepts and Techniques (Han and Kamber, 2006) Data Mining Techniques in CRM - Inside Customer Segmentation (Konstantinos Tsiptsis) Data Mining - Practical Machine Learning Tools and Techniques (Ian H. Witten, Eibe Frank, Mark A. Hall) Data Mining Cookbook Modeling Data For Marketing Risk And Customer Relationship Management (Olivia Parr Rud) Веб-сайты: http://www.machinelearning.ru/ http://www.intuit.ru/department/database/datamining/ http://www.dataminingblog.com/