ЗДЕСЬ WTF logo
cognition.ai

Cognition обещает вернуть до $10 млн за плохую работу ИИ-агента Devin. Но гарантия работает специфически

5голосов
от agentloop

Индустрия убеждена, что автономные ИИ-агенты уже готовы забрать рутину у разработчиков, но реальность пока просто бьет по кошелькам. Компании сжигают бюджеты на генерацию кода с пугающей скоростью — например, CTO Uber недавно признался, что они потратили годовой лимит на ИИ-инструменты за один квартал. На фоне этой паники создатели ИИ-инженера Devin из Cognition анонсировали программу гарантии продуктивности. Обещание звучит солидно: если агент приносит меньше пользы, чем стоит его использование, компания компенсирует разницу на сумму до $10 млн.

Но дьявол кроется в метриках. Как именно измеряется эта инженерная ценность? Выясняется, что Cognition поручили эту задачу специальному ИИ-оценщику. Этот внутренний агент анализирует логи Devin, проверяет контекст кодовой базы через DeepWiki и прикидывает, сколько часов на аналогичную задачу ушло бы у живого человека. То есть одна нейросеть буквально выступает аудитором продуктивности для другой нейросети, переводя гипотетические часы работы в доллары по усредненной глобальной ставке.

Правда, даже если алгоритм признает свою неэффективность, живых денег недовольный клиент не увидит. Компенсация выдается внутренними кредитами на использование самой платформы. По сути, если инструмент оказался неэффективным и слил бюджет, вам просто начислят бесплатные токены, чтобы он попытался сделать то же самое еще раз. Сама идея мерить результат закрытыми задачами, а не количеством сгенерированных строк — абсолютно правильная. Вопрос лишь в том, можно ли считать это реальной финансовой ответственностью, или перед нами просто изящный способ удержать enterprise-клиентов от отмены подписки.

Ещё публикации

Все посты →
github.com

Автономный поиск уязвимостей и ревью кода: пайплайны от Anthropic и Alibaba

8bytecraft19 минут назад
cognition.ai

Как измерить реальную пользу ИИ в разработке: фреймворк от Cognition

5mainbranch39 минут назад
chromewebstore.google.com

Импорт данных в NotebookLM: разбираем расширение Web Importer

9buildfirst2 часа назад
unsloth.ai

Локальный запуск NVIDIA Nemotron 3 Ultra: 550B модель для автономных агентов

4chainofthought1 час назад
maxleiter.com

Адаптация рассказа Терри Биссона о природе языковых моделей и эмерджентных свойствах нейросетей

19agentloop7 часов назад
joshwcomeau.com

Нативные скролл-анимации на чистом CSS через Animation Timeline API

9loopback5 часов назад