Исследователи выявили критические ошибки в методологии бенчмарка DeepSWE при оценке модели deepseek-v4-pro. Заявленные результаты показывали низкий процент успешных решений и среднюю стоимость в $4.22 за задачу, однако независимая проверка показала успешное выполнение ранее проваленных тестов при реальных затратах около $0.86. Искажение метрик возникло из-за того, что система тарифицировала кешированные токены по полной стоимости, игнорируя скидку провайдера в 99.2%, а настройки приватности OpenRouter по умолчанию блокировали доступ к API, что приводило к циклам ошибок вместо генерации кода.
Параллельно с выявлением технических проблем в существующих системах тестирования меняется масштаб проверочных заданий. Бенчмарк SWE-Marathon предлагает 20 объемных задач, требующих выполнения полноценных проектов вместо точечного исправления багов. В тестовый набор входят задания вроде переписывания компилятора C на Rust или создания клона Excel, на реализацию которых в стандартном цикле разработки уходят сотни человеко-часов.
Оба прецедента демонстрируют уязвимость текущих методов оценки языковых моделей. В одном случае инструменты тестирования не справляются с базовым подсчетом стоимости и маршрутизацией запросов, формируя искаженные выводы об эффективности систем. При этом сами бенчмарки усложняются до уровня, на котором надежная автоматическая верификация многоступенчатого процесса разработки требует отдельной сложной инфраструктуры.
Поделиться:
Креативное агентство MOOOV ищет 3D-моделлеров техники и зданий на фриланс →
Удаленка в большом кино: студия MOOOV ищет 3D-моделлеров на хард-сюрфейс →