Data Mining Выполнили: Федотов Андрей Аткин Артем Ответы на вопросы Ответы на вопросы Какие товары предлагать данному покупателю? Какова вероятность того, что данный сектор потенциальных клиентов отреагирует на рекламную кампанию? Можно ли выработать оптимальную стратегию игры на бирже? Можно ли выдать кредит данному клиенту банка? Какой диагноз поставить данному пациенту? Как прогнозировать пиковые нагрузки в телефонных или энергетических сетях? В чем причины брака в производственной продукции? Какие товары чаще всего продаются вместе? Насколько вырастут продажи при снижении цены на n процентов? Определение Data Mining Data mining - это процесс обнаружения в сырых данных ранее неизвестных нетривиальных практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. G. Piatetsky-Shapiro, GTE Labs - один из ведущих мировых экспертов в области Data Mining Концепция шаблонов Шаблоны (patterns) отражают фрагменты многоаспектности взаимоотношений в данных Шаблоны представляют собой закономерности, свойственные подвыборкам данных, выраженные в понятной человеку форме Примеры формулировок задач при использовании методов OLAP и Data Mining Современные технологии Data Mining (discoverydriven data mining) перелопачивают информацию с целью автоматического поиска шаблонов (паттернов), характерных для каких-либо фрагментов неоднородных многомерных данных. В отличие от оперативной аналитической обработки данных (online analytical processing, OLAP) в Data Mining бремя формулировки гипотез и выявления необычных (unexpected) шаблонов переложено с человека на компьютер. Примеры формулировок задач при использовании методов OLAP и Data Mining OLAP Data Mining Каковы средние показатели травматизма для курящих и некурящих? Какие факторы лучше всего предсказывают несчастные случаи? Каковы средние размеры телефонных счетов существующих клиентов в сравнении со счетами бывших клиентов (отказавшихся от услуг телефонной компании)? Какие характеристики отличают клиентов, которые, по всей вероятности, собираются отказаться от услуг телефонной компании? Какова средняя величина ежедневных покупок по украденной и неукраденной кредитной карточке? Какие схемы покупок характерны для мошенничества с кредитными карточками? Уровни знаний, извлекаемых из данных Причины роста популярности Data Mining Огромные массивы информации объективность получаемых результатов Data Mining дешевле – выгоднее инвестировать деньги в решения data mining, чем постоянно содержать армию статистиков Области применения Data mining Database marketers Рыночная сегментация, идентификация целевых групп, построение профиля клиента Банковское дело Анализ кредитных рисков, привлечение и удержание клиентов, управление ресурсами Кредитные компании Детекция подлогов, формирование "типичного поведения" обладателя кредитки, анализ достоверности клиентских счетов ,cross-selling программы Страховые компании Привлечение и удержание клиентов, прогнозирование фингансовых показателей Розничная торговля Анализ деятельности торговых точек, построение профиля покупателя, управление ресурсами Биржевые трейдеры Выработка оптимальной торговой стратегии, контроль рисков Области применения Телекоммуникация и энергетика Привлечение клиентов, ценовая политика, анализ отказов, предсказание пиковых нагрузок, прогнозирование поступления средств Налоговые службы и аудиторы Детекция подлогов, прогнозирование поступлений в бюджет Фармацевтические компании Предсказание результатов будущего тестирования препаратов, программы испытания Медицина Диагностика, выбор лечебных воздействий, прогнозирование исхода хирургического вмешательства Управление производством Контроль качества, материально-техническое обеспечение, оптимизация технологического процесса Ученые и инженеры Построение эмпирических моделей, основанных на анализе данных, решение научно-технических задач Банковское дело Достижения технологии Data Mining используются в банковском деле для решения следующих распространенных задач: выявление мошенничества с кредитными карточками. Путем анализа прошлых транзакций, которые впоследствии оказались мошенническими, банк выявляет некоторые стереотипы такого мошенничества. сегментация клиентов. Разбивая клиентов на различные категории, банки делают свою маркетинговую политику более целенаправленной и результативной, предлагая различные виды услуг разным группам клиентов. прогнозирование изменений клиентуры. Data Mining помогает банкам строить прогнозные модели ценности своих клиентов, и соответствующим образом обслуживать каждую категорию. Специфика современных требований к переработке сырых данных Данные имеют неограниченный объём Данные являются разнородными (количественными, качественными, текстовыми) Результаты должны быть конкретны и понятны Инструменты для обработки сырых данных должны быть просты в использовании Типы закономерностей Выявляют пять типов закономерностей, позволяющих выявлять методы Dana mining: Ассоциация Последовательность Классификация Кластеризация Прогнозирование Ассоциация Ассоциация имеет место в том случае, если несколько событий связаны друг с другом Классы систем Data Mining Классы систем Data Mining Предметно-ориентированные аналитические системы $300$1000 Статистические пакеты $1000-$15000 Нейронные сети $1500-$8000 Системы рассуждений на основе аналогичных случаев Деревья решений $1000-$10000 Эволюционное программирование do $5000 Генетические алгоритмы $1000 Алгоритмы ограниченного перебора $4000 Системы для визуализации многомерных данных В области data mining вполне успешно работают несколько отечественных компаний. Индустриальные системы Data mining PolyAnalyst (Мегапьютер Интеллидженс) Intelligent Miner (IBM) Interprise Miner (SAS) Clementine (Integral Solutions) MineSet (Silicon Graphics) Knowledge Studio (Angoss Software) Предметно-ориентированные аналитические системы MetaStock (Equis International, USA) SuperCharts (Omega Research, USA) Candlestick Forecaster (IPTC, USA) Wall Street Money (Market Arts, USA) Статистические пакеты SAS (SAS Institute, USA) SPSS (SPSS, USA) Statgraphics (Statistical Graphics, USA) Нейроннoсетевые пакеты BrainMaker (CSS, USA) NeuroShell (Ward Systems Group, USA) OWL (Hyperlogic, USA) Пакеты, реализующие алгоритмы "Decision trees" C5.0 (Rule Quest, Australia) SIPINA (University of Lyon, France) IDIS (Information Discovery, USA) Алгоритмы ограниченного перебора Наиболее ярким современным представителем этого подхода является система WizWhy предприятия WizSoft. Алгоритмы ограниченного перебора Система WizWhy является на сегодняшний день одним из лидеров на рынке продуктов Data Mining. Это не лишено оснований. Система постоянно демонстрирует более высокие показатели при решении практических задач, чем все остальные алгоритмы. Стоимость системы около $ 4000, количество продаж — 30000. СУБД Microsoft SQL Server (инструментарий Analysis Services) построение и обработка моделей Data Mining; извлечение данных как из реляционных, так и из многомерных источников; два алгоритма добычи данных — Microsoft Decision Trees и Microsoft Clustering; расширения языка запросов к многомерным данным (MDX); работа с внешними приложениями через объектную модель DSO (Decision Support Objects). 2 алгоритма sql Microsoft Decision Trees метод построения деревьев решений. значение каждого из исследуемых атрибутов классифицируется на основе значений остальных атрибутов, с использованием правил вида “если -то”. Результат работы— древовидная структура, каждый узел которой представляет собой некий вопрос. Главное наглядность и простота использования. В основном задачами классификации 2. Microsoft Clustering, метод “ближайшего соседа”. исходные данные объединяются в группы (кластеры) на основе аналогичных или схожих значений атрибутов, анализируются позволяет выявить скрытые закономерности или построить вероятностный прогноз. для наборов данных со схожими атрибутами, значения которых принадлежат определенному интервалу (например, возраст, годовой доход и т. п.). Однако в случае нетипичных, выпадающих из общего ряда значений атрибутов алгоритм может давать неверную оценку. 1. Вывод 1. Рынок систем Data Mining развивается. В этом развитии принимают участие практически все крупнейшие корпорации.В частности, Microsoft непосредственно руководит большим сектором данного рынка 2. Системы Data Mining применяются по двум основным направлениям: 1) как массовый продукт для бизнесприложений; 2) как инструменты для проведения уникальных исследований (генетика, химия, медицина и пр.). В настоящее время стоимость массового продукта от $1000 до $10000. Количество инсталляций массовых продуктов, судя по имеющимся сведениям, сегодня достигает десятков тысяч. Лидеры Data Mining связывают будущее этих систем с использованием их в качестве интеллектуальных приложений, встроенных в корпоративные хранилища данных. Вывод 3. Несмотря на обилие методов Data Mining, приоритет постепенно все более смещается в сторону логических алгоритмов поиска в данных ifthen правил. С их помощью решаются задачи прогнозирования, классификации, распознавания образов, сегментации БД, извлечения из данных “скрытых” знаний, интерпретации данных, установления ассоциаций в БД и др. Результаты таких алгоритмов эффективны и легко интерпретируются. 4. Вместе с тем, главной проблемой логических методов обнаружения закономерностей является проблема перебора вариантов за приемлемое время. Известные методы либо искусственно ограничивают такой перебор (алгоритмы КОРА, WizWhy), либо строят деревья решений (алгоритмы CART, CHAID, ID3, See5, Sipina и др.), имеющих принципиальные ограничения эффективности поиска if-then правил. Другие проблемы связаны с тем, что известные методы поиска логических правил не поддерживают функцию обобщения найденных правил и функцию поиска оптимальной композиции таких правил. Удачное решение указанных проблем может составить предмет новых конкурентоспособных разработок.