Введение в машинное обучение Основные понятия • О чем нужно помнить GIGO (англ. garbage in, garbage out «мусор на входе — мусор на выходе») — принцип в информатике, означающий, что при неверных входящих данных будут получены неверные результаты, даже если сам по себе алгоритм правилен. В русскоязычной культуре аналогом принципа является выражение «что посеешь, то и пожнёшь». Давайте узнаем больше, На облаке тэгов вынесены данные, которые мы обрабатываем с помощью алгоритмов машинного обучения. Назовите их 3 Краудсорсинг Одним из способов сбора и разметки данных для обучения моделей является краудсорсинг, при этом можно выделить три типа краудсорсинга: 1) наемный труд, к котором привлекаемые люди получают оплату за свою работу; 2) игры с целью (англ. games with a purpose; GWAP), где задача представлена как игра; 3) привлечение волонтеров Одна голова хорошо, а тысяча - лучше Прежде, чем начать работу определитесь с целью Что будет уметь делать ваша модель? 1. Автоматизировать Предупреждать или подсказывать 2. 3. 4. Организовывать, представляя объекты в порядке, который может быть полезен пользователю Извлекать Рекомендовать Классифицировать Синтезировать(например, генерировать новый текст, изображение, звук или другой объект, аналогичный объектам в коллекции) Обнаруживать новизну или аномалию Аннотировать 6 Метаданные Если вы перегружены 7 Аугментация данных – один из методов, к которому прибегают аналитики Если вы перегружены 8 Какие данные можно считать хорошими? 1. содержат достаточно информации, которую можно использовать для моделирования; 2. Довольно полно покрывают намерения относительно применения модели; 3. Отражают реальные входные данные, которые модель будет видеть на этапе эксплуатации; 4. Максимально несмещенные; 5. не являются результатом самой модели; 6. Метки согласованы; 7. Данные достаточно велики для обобщаемости Если вы перегружены 9 В процессе ETL нам нужно заполнить пропуски, найти опечатки, объединить все данные в источники На следующем этапе – подготовки данных мы их ОБРАБАТЫВАЕМ, чтобы их можно было подать на вход модели машинного обучения В основном выделяют три основных аспекта подготовки данных 1. Нормирование данных 2. Категориальные данные 3. Преобразование циклических переменных