В работе с командами я часто вижу одно: данные есть, а что с ними делать — непонятно. Объект машинного обучения — это единица данных, по которой модель учится принимать решения. Разберём, как собрать его правильно и где здесь выгода для команды.

Что это такое

TL;DR

Объект машинного обучения — это одна запись, по которой модель учится: клиент, сделка, заявка, документ, товар. У записи есть признаки (характеристики) и часто известный исход. Модель смотрит на тысячи таких записей, находит закономерности и переносит их на новые данные. Для бизнеса важна суть: чем чище записи, тем точнее прогноз.

Возьмём отдел продаж. Каждая сделка — подобная запись: сумма, источник заявки, срок переговоров, отрасль клиента, итог (закрыли или потеряли). Модель берёт историю сделок, видит, какие сочетания признаков ведут к закрытию, и подсказывает менеджеру приоритет по новым заявкам.

В практике Зинин × Штурбин мы начинаем с вопроса «что у команды повторяется и накапливается». Эти повторяющиеся записи и становятся материалом для модели — без формул и без погружения в математику.

Из чего состоит

Чтобы запись стала пригодной для модели, мы разбираем в ней три части:

  • Признаки — характеристики записи: для клиента это регион, сумма покупок, давность последнего заказа.
  • Целевая величина — известный исход, по которому модель учится: вернулся клиент или ушёл, оплатил счёт или просрочил.
  • Идентификатор — то, что связывает признаки с конкретной записью, чтобы данные собрались в одно целое.
важное

Слабая запись тянет за собой слабый прогноз. Если в данных пропуски, дубли и разнобой форматов, модель учится на шуме и выдаёт ответы наугад. Чистота данных решает больше, чем выбор алгоритма.

Как собрать данные

Рабочий порядок, по которому мы готовим данные для модели в команде:

  1. Выбрать бизнес-вопрос: какой исход хотим прогнозировать — отток, оплату, спрос.
  2. Найти, где этот исход уже записан исторически, и собрать записи в одну таблицу.
  3. Описать признаки: что про каждую запись известно на момент решения, без подглядывания в будущее.
  4. Почистить: убрать дубли, заполнить пропуски, привести даты и суммы к единому виду.
● Discovery · 1 час · бесплатно

Если вы покажете нам, какие данные у вашей команды уже копятся, мы за час подскажем, какой объект машинного обучения из них собирается и что он способен прогнозировать.

Прийти на Discovery →

Примеры по отраслям

Под разные задачи бизнеса записи выглядят по-разному:

ЗаписьПризнакиЧто прогнозируем
КлиентИстория покупок, давность, средний чекУйдёт или останется
ЗаявкаИсточник, сумма, отрасльЗакроется в сделку
СчётСрок, сумма, история платежейОплатят вовремя
ТоварСезон, остаток, спрос за периодСколько закупить

Роль команды

Модель работает на тех данных, что ей дали, поэтому решение об их составе остаётся за командой. Человек выбирает бизнес-вопрос, определяет, какие признаки честны на момент прогноза, и проверяет, что выводы модели сходятся со здравым смыслом. Машина считает, команда задаёт рамку и отвечает за итог.

Поэтому мы учим сотрудников думать в терминах записей и признаков: какой инструмент скрыт внутри их задачи, что в нём шум, а что сигнал. Этот навык остаётся у команды и работает на любой платформе.

Частые вопросы

Что такое объект машинного обучения простыми словами?

Это одна запись с характеристиками, по которой модель учится: клиент, сделка, заявка, документ. Модель смотрит тысячи таких записей и находит закономерности.

Какие данные подходят как объект машинного обучения для бизнеса?

Подходят повторяющиеся записи с известным исходом: история сделок, платежей, заказов, заявок. Чем больше таких записей и чем они чище, тем точнее прогноз.

Нужен ли программист, чтобы подготовить объект машинного обучения?

Для подготовки данных хватает того, кто знает бизнес-процесс и таблицы команды. Сбор и чистку записей мы разбираем с продажами, бухгалтерией, поддержкой на их языке.

С чего начать, если объект машинного обучения собирается из разных систем?

Начинаем с бизнес-вопроса и одного идентификатора, который связывает записи между системами. Дальше мы собираем данные в одну таблицу и приводим форматы к единому виду.