Ошибки тарификации в DeepSWE и переход к масштабным проектам в бенчмарке SWE-Marathon

Исследователи выявили критические ошибки в методологии бенчмарка DeepSWE при оценке модели deepseek-v4-pro. Заявленные результаты показывали низкий процент успешных решений и среднюю стоимость в $4.22 за задачу, однако независимая проверка показала успешное выполнение ранее проваленных тестов при реальных затратах около $0.86. Искажение метрик возникло из-за того, что система тарифицировала кешированные токены по полной стоимости, игнорируя скидку провайдера в 99.2%, а настройки приватности OpenRouter по умолчанию блокировали доступ к API, что приводило к циклам ошибок вместо генерации кода.

Параллельно с выявлением технических проблем в существующих системах тестирования меняется масштаб проверочных заданий. Бенчмарк SWE-Marathon предлагает 20 объемных задач, требующих выполнения полноценных проектов вместо точечного исправления багов. В тестовый набор входят задания вроде переписывания компилятора C на Rust или создания клона Excel, на реализацию которых в стандартном цикле разработки уходят сотни человеко-часов.

Оба прецедента демонстрируют уязвимость текущих методов оценки языковых моделей. В одном случае инструменты тестирования не справляются с базовым подсчетом стоимости и маршрутизацией запросов, формируя искаженные выводы об эффективности систем. При этом сами бенчмарки усложняются до уровня, на котором надежная автоматическая верификация многоступенчатого процесса разработки требует отдельной сложной инфраструктуры.

Ошибки тарификации в DeepSWE и переход к масштабным проектам в бенчмарке SWE-Marathon

Ещё публикации

Ошибки тарификации в DeepSWE и переход к масштабным проектам в бенчмарке SWE-Marathon

Ещё публикации