KPI ИИ-проекта: какие метрики покажут эффект

KPI ИИ-проекта держатся на пяти метриках: время на задачу, доля автоматизированного потока, качество через оценки качества, стоимость прогона и доля эскалаций к человеку. Каждую из них вы привязываете к деньгам через освобождённые часы и стоимость ошибки, и у вас появляется что показать совету директоров вместо красивого процента из чужой презентации.

Пять метрик эффекта

TL;DR

Эффект ИИ-проекта измеряют пятью метриками: время на задачу до и после, доля потока, прошедшая через автоматизацию, качество ответов через регулярные оценки, стоимость одного прогона и доля случаев, ушедших на эскалацию к человеку. Эти пять чисел переводятся в деньги напрямую, а число лайков, сообщений и запусков остаётся витриной.

Я как C-level стратег постоянно вижу одну и ту же картину: команда запустила ИИ-проект, отчитывается количеством сгенерированных ответов и числом запусков в неделю, а совет директоров смотрит на эти цифры и спрашивает, где здесь деньги. Внятного ответа у команды нет, потому что метрики выбирали по принципу «что легко посчитать» вместо принципа «что показывает эффект». Так появляется витрина из vanity-метрик, которая растёт, пока бюджет тает.

Эффект показывают пять метрик, и каждая отвечает на свой деловой вопрос. Время на задачу отвечает, насколько быстрее команда закрывает работу. Доля автоматизированного потока отвечает, какую часть рутины связка реально сняла с людей. Качество через оценки качества отвечает, можно ли доверять ответам без ручной перепроверки каждого. Стоимость прогона отвечает, во что обходится один результат. Доля эскалаций к человеку отвечает, насколько связка справляется сама. Эти пять чисел дают картину для совета директоров и для инвестора одновременно.

// Признак vanity-метрики

Метрика бесполезна для отчёта, когда её рост оставляет деньги бизнеса прежними. Число сообщений модели, количество запусков в неделю, объём сгенерированного текста растут сами по себе и греют самолюбие команды. Деловой вопрос к каждой метрике один: если это число удвоится, прибыль изменится? Молчание в ответ означает, что перед вами витрина.

Что измеряет каждая

Время на задачу — это срок от поступления работы до готового результата, замеренный до внедрения и после. Берите медиану вместо среднего: один тяжёлый случай раздувает среднее и прячет реальную картину. Сравнение честное лишь на одинаковом типе задач, поэтому фиксируйте, какую именно работу замеряете. Сокращение времени переводится в деньги через освобождённые часы, умноженные на реальную ставку сотрудника.

Доля автоматизированного потока — это часть всех поступивших задач, которую связка закрыла сама, без участия человека. Знаменателем тут служит весь входящий поток целиком, включая случаи, где связка спасовала. Эта метрика честно показывает охват: связка, которая красиво работает на пяти задачах из ста, оставляет бизнесу мизерный эффект. Стоимость прогона — это стоимость за токен, помноженная на средний объём запроса и ответа, плюс доля затрат на поддержку, разнесённая на количество прогонов.

Качество держится на регулярных оценках: вы прогоняете связку на наборе типовых задач с заранее известными правильными ответами и считаете долю верных. Без такого набора качество остаётся ощущением, которое меняется от настроения проверяющего. Доля эскалаций к человеку — это часть случаев, которую связка передала оператору, спасовав перед задачей. Растущая эскалация при стабильном потоке означает, что связка деградирует или поток усложнился, и это сигнал к разбору.

Метрика	Что измеряет	Как привязать к деньгам
Время на задачу	Медианный срок от задачи до результата, до и после	Освобождённые часы × реальная ставка
Доля автоматизированного	Часть всего потока, закрытая связкой без человека	Снятая с людей нагрузка × ставка
Качество (оценки)	Доля верных ответов на наборе типовых задач	Сэкономленная ручная перепроверка, цена ошибки
Стоимость прогона	Расход модели и поддержки на один результат	Прямой счёт поставщика на единицу
Доля эскалаций	Часть случаев, ушедшая оператору	Остаточная нагрузка на человека × ставка

Перевод метрик в деньги

TL;DR

Каждая метрика становится деловой, когда вы переводите её в рубли через освобождённые часы и стоимость ошибки. Время и доля автоматизации дают экономию на людях, качество и эскалации защищают от стоимости брака, стоимость прогона держит знаменатель окупаемости честным.

Метрика живёт ради денег, поэтому каждую из пяти вы привязываете к рублю. Время на задачу и доля автоматизированного потока дают экономию на людях: вы считаете, сколько часов рутины связка сняла с команды за период, и умножаете эти часы на реальную ставку с учётом налогов и накладных расходов. Здесь прячется честность: освобождённые часы дают выгоду лишь когда перетекают в работу, которая приносит деньги. Сотрудник, который освободился и стал меньше работать, оставляет бизнес при прежних расходах.

Качество через оценки и доля эскалаций защищают вас со стороны риска. Падение качества означает, что часть ответов уходит к клиенту с ошибкой, и стоимость такой ошибки иногда перекрывает всю экономию на часах. Поэтому качество держат выше порога, ниже которого связку отключают от прямого контакта с клиентом и возвращают человека в контур. Стоимость прогона держит знаменатель окупаемости честным: связка, которая красиво экономит часы, но прогорает на дорогих вызовах модели, выходит в плюс лишь на бумаге.

Зафиксируйте время на типовую задачу до внедрения и после, по медиане на одинаковом типе работы.
Посчитайте долю входящего потока, которую связка закрыла сама, взяв знаменателем весь поток.
Соберите набор типовых задач с известными правильными ответами и регулярно прогоняйте на нём оценки качества.
Сведите стоимость прогона из расхода модели и разнесённой поддержки на количество результатов.
Отслеживайте долю эскалаций к человеку как ранний сигнал деградации связки.
Переведите время и долю автоматизации в освобождённые часы, умножьте на реальную ставку — это экономия за период.

Связка из этих пяти метрик даёт совету директоров то, чего просит любой инвестор: число с показанным источником. Вы кладёте на стол экономию в рублях, защищённую качеством, и стоимость прогона, которая держит расчёт окупаемости честным. Дальше разговор идёт о масштабировании эффекта на соседние процессы, а об оправдании потраченного бюджета.

Метрики на старте

Метрики фиксируют до запуска — точку отсчёта выставляют ещё на пилоте, задолго до первого прогона. Самая частая ошибка проекта — собрать связку, запустить её в работу, а через квартал спохватиться, что замеров «до» нет и сравнивать новые цифры просто нечем. Поэтому первым делом, ещё на пилоте, вы фиксируете базовую линию: сколько времени уходит на задачу руками, какая доля потока проходит через узкое место, сколько стоит один результат в текущем виде. Эта базовая линия — точка отсчёта, без которой любой будущий процент висит в воздухе.

// Минимальный набор на пилоте

На пилоте хватает трёх метрик из пяти: время на задачу, доля автоматизированного потока и стоимость прогона. Качество через оценки и доля эскалаций подключаются, когда связка выходит на реальный поток с клиентами. Перегруженный дашборд из двадцати чисел на старте мешает увидеть, работает ли связка вообще.

Оценки качества требуют отдельной подготовки, поэтому набор типовых задач с правильными ответами собирают заранее, пока связка ещё проектируется. Без такого набора качество измеряют на глаз, и оно колеблется вместе с настроением проверяющего. Доля эскалаций требует, чтобы человек в контуре занял своё место в процессе с самого начала: оператор подхватывает случаи, с которыми связка справилась, и каждая такая передача попадает в счётчик.

Отдельно следите за задержкой p95 там, где связка отвечает клиенту в реальном времени. Средняя скорость ответа выглядит бодро, пока пять процентов клиентов ждут ответа втрое дольше остальных и уходят, так и дождавшись. Задержка p95 показывает, как чувствует себя хвост распределения, и для клиентского сценария она важнее средней цифры в отчёте.

● Discovery · 1 час · бесплатно

Если вы запускаете ИИ-проект и хотите развернуть метрики правильно с первого дня, приходите на discovery-созвон: мы разберём ваш процесс, зафиксируем базовую линию и подберём те пять чисел, которые покажут эффект совету директоров.

Прийти на Discovery →

Метрики в управлении

В работе с руководителями я часто вижу, как метрики живут отдельно от решений: дашборд крутится сам по себе, отчёты уходят в архив, а проект движется по интуиции. Метрика обретает смысл, когда к каждому числу привязано действие. Падает качество ниже порога — связку возвращают человеку на проверку. Растёт доля эскалаций — команда разбирает, что усложнилось в потоке. Стоимость прогона ползёт вверх — инженер ищет, какой шаг тратит лишние токены.

Качество упало ниже порога — связку отключают от прямого контакта с клиентом, человек возвращается в контур.
Доля эскалаций растёт при стабильном потоке — команда разбирает причину деградации связки.
Стоимость прогона ползёт вверх — инженер ищет шаг, который жжёт лишние токены.
Время на задачу перестало сокращаться — проверяют, упёрлась ли связка в новое узкое место.
Доля автоматизированного потока замерла — ищут типы задач, которые связка пока обходит стороной.

Так метрики перестают быть отчётом ради отчёта и становятся пультом управления проектом. У вас на экране пять рычагов вместо пяти бесполезных чисел, и каждый рычаг включает конкретное решение. Совет директоров получает понятную картину: вот экономия, вот её источник, вот защита от риска, вот цена результата. А команда получает ясные правила, при каких числах что делать руками.

Метрика, к которой привязано действие, управляет проектом. Метрика, которая просто растёт на экране, греет самолюбие команды и сжигает бюджет под видом прогресса.

Связка языковой модели с вашими процессами доказывает эффект ровно настолько, насколько честно вы её измеряете. Пять метрик с привязкой к деньгам, базовая линия с самого старта и действие за каждым числом — этого хватает, чтобы показать совету директоров, где искусственный интеллект вернул вложенное, а где проект пока греет витрину. Глубже эту логику мы разбираем на программах обучения, где руководитель учится ставить такие метрики на свои процессы сам.

Частые вопросы

Какие KPI ставить на ИИ-проект, чтобы показать эффект?

Пять метрик: время на задачу до и после внедрения, доля потока, закрытая связкой без человека, качество ответов через регулярные оценки, стоимость одного прогона и доля случаев, ушедших на эскалацию к оператору. Каждая переводится в деньги, поэтому у вас появляется что показать совету директоров.

Чем vanity-метрики отличаются от деловых?

Vanity-метрика растёт сама по себе и оставляет деньги на прежнем уровне: число сообщений модели, количество запусков, объём сгенерированного текста. Деловая метрика отвечает на вопрос, изменится ли прибыль, если это число вырастет. Если ответа нет, перед вами витрина для красивого отчёта.

Как измерить качество ответов ИИ-проекта?

Соберите набор типовых задач с заранее известными правильными ответами и регулярно прогоняйте на нём связку, считая долю верных ответов. Это и есть оценки качества. Без такого набора качество остаётся ощущением, которое колеблется вместе с настроением проверяющего.

Как привязать метрики ИИ-проекта к деньгам?

Время на задачу и долю автоматизации переводите в освобождённые часы и умножайте на реальную ставку сотрудника с налогами и накладными расходами. Качество и долю эскалаций считайте как защиту от стоимости ошибки. Стоимость прогона держит знаменатель окупаемости честным.

Зачем мерить долю эскалаций к человеку?

Доля эскалаций показывает, насколько связка справляется сама, без передачи случая оператору. Рост этой доли при стабильном потоке — ранний сигнал, что связка деградирует или поток усложнился. Это число ловит проблему раньше, чем она дойдёт до жалоб клиентов.

Когда подключать метрики на ИИ-проекте?

Базовую линию фиксируйте до запуска, ещё на пилоте: сколько времени уходит на задачу руками, какая доля потока проходит через узкое место, сколько стоит результат сейчас. Без замеров «до» любой будущий процент висит в воздухе и сравнивать его нечем.