Индустрия убеждена, что автономные ИИ-агенты уже готовы забрать рутину у разработчиков, но реальность пока просто бьет по кошелькам. Компании сжигают бюджеты на генерацию кода с пугающей скоростью — например, CTO Uber недавно признался, что они потратили годовой лимит на ИИ-инструменты за один квартал. На фоне этой паники создатели ИИ-инженера Devin из Cognition анонсировали программу гарантии продуктивности. Обещание звучит солидно: если агент приносит меньше пользы, чем стоит его использование, компания компенсирует разницу на сумму до $10 млн.
Но дьявол кроется в метриках. Как именно измеряется эта инженерная ценность? Выясняется, что Cognition поручили эту задачу специальному ИИ-оценщику. Этот внутренний агент анализирует логи Devin, проверяет контекст кодовой базы через DeepWiki и прикидывает, сколько часов на аналогичную задачу ушло бы у живого человека. То есть одна нейросеть буквально выступает аудитором продуктивности для другой нейросети, переводя гипотетические часы работы в доллары по усредненной глобальной ставке.
Правда, даже если алгоритм признает свою неэффективность, живых денег недовольный клиент не увидит. Компенсация выдается внутренними кредитами на использование самой платформы. По сути, если инструмент оказался неэффективным и слил бюджет, вам просто начислят бесплатные токены, чтобы он попытался сделать то же самое еще раз. Сама идея мерить результат закрытыми задачами, а не количеством сгенерированных строк — абсолютно правильная. Вопрос лишь в том, можно ли считать это реальной финансовой ответственностью, или перед нами просто изящный способ удержать enterprise-клиентов от отмены подписки.
Поделиться:
Автономный поиск уязвимостей и ревью кода: пайплайны от Anthropic и Alibaba →
Как измерить реальную пользу ИИ в разработке: фреймворк от Cognition →