В работе с командами я часто вижу одно: данные есть, а что с ними делать — непонятно. Объект машинного обучения — это единица данных, по которой модель учится принимать решения. Разберём, как собрать его правильно и где здесь выгода для команды.
Что это такое
Объект машинного обучения — это одна запись, по которой модель учится: клиент, сделка, заявка, документ, товар. У записи есть признаки (характеристики) и часто известный исход. Модель смотрит на тысячи таких записей, находит закономерности и переносит их на новые данные. Для бизнеса важна суть: чем чище записи, тем точнее прогноз.
Возьмём отдел продаж. Каждая сделка — подобная запись: сумма, источник заявки, срок переговоров, отрасль клиента, итог (закрыли или потеряли). Модель берёт историю сделок, видит, какие сочетания признаков ведут к закрытию, и подсказывает менеджеру приоритет по новым заявкам.
В практике Зинин × Штурбин мы начинаем с вопроса «что у команды повторяется и накапливается». Эти повторяющиеся записи и становятся материалом для модели — без формул и без погружения в математику.
Из чего состоит
Чтобы запись стала пригодной для модели, мы разбираем в ней три части:
- Признаки — характеристики записи: для клиента это регион, сумма покупок, давность последнего заказа.
- Целевая величина — известный исход, по которому модель учится: вернулся клиент или ушёл, оплатил счёт или просрочил.
- Идентификатор — то, что связывает признаки с конкретной записью, чтобы данные собрались в одно целое.
Слабая запись тянет за собой слабый прогноз. Если в данных пропуски, дубли и разнобой форматов, модель учится на шуме и выдаёт ответы наугад. Чистота данных решает больше, чем выбор алгоритма.
Как собрать данные
Рабочий порядок, по которому мы готовим данные для модели в команде:
- Выбрать бизнес-вопрос: какой исход хотим прогнозировать — отток, оплату, спрос.
- Найти, где этот исход уже записан исторически, и собрать записи в одну таблицу.
- Описать признаки: что про каждую запись известно на момент решения, без подглядывания в будущее.
- Почистить: убрать дубли, заполнить пропуски, привести даты и суммы к единому виду.
Если вы покажете нам, какие данные у вашей команды уже копятся, мы за час подскажем, какой объект машинного обучения из них собирается и что он способен прогнозировать.
Примеры по отраслям
Под разные задачи бизнеса записи выглядят по-разному:
| Запись | Признаки | Что прогнозируем |
|---|---|---|
| Клиент | История покупок, давность, средний чек | Уйдёт или останется |
| Заявка | Источник, сумма, отрасль | Закроется в сделку |
| Счёт | Срок, сумма, история платежей | Оплатят вовремя |
| Товар | Сезон, остаток, спрос за период | Сколько закупить |
Роль команды
Модель работает на тех данных, что ей дали, поэтому решение об их составе остаётся за командой. Человек выбирает бизнес-вопрос, определяет, какие признаки честны на момент прогноза, и проверяет, что выводы модели сходятся со здравым смыслом. Машина считает, команда задаёт рамку и отвечает за итог.
Поэтому мы учим сотрудников думать в терминах записей и признаков: какой инструмент скрыт внутри их задачи, что в нём шум, а что сигнал. Этот навык остаётся у команды и работает на любой платформе.
Частые вопросы
Что такое объект машинного обучения простыми словами?
Это одна запись с характеристиками, по которой модель учится: клиент, сделка, заявка, документ. Модель смотрит тысячи таких записей и находит закономерности.
Какие данные подходят как объект машинного обучения для бизнеса?
Подходят повторяющиеся записи с известным исходом: история сделок, платежей, заказов, заявок. Чем больше таких записей и чем они чище, тем точнее прогноз.
Нужен ли программист, чтобы подготовить объект машинного обучения?
Для подготовки данных хватает того, кто знает бизнес-процесс и таблицы команды. Сбор и чистку записей мы разбираем с продажами, бухгалтерией, поддержкой на их языке.
С чего начать, если объект машинного обучения собирается из разных систем?
Начинаем с бизнес-вопроса и одного идентификатора, который связывает записи между системами. Дальше мы собираем данные в одну таблицу и приводим форматы к единому виду.