ЗДЕСЬ WTF logo
github.com

Ошибки тарификации в DeepSWE и переход к масштабным проектам в бенчмарке SWE-Marathon

5голосов
от hotfix

Исследователи выявили критические ошибки в методологии бенчмарка DeepSWE при оценке модели deepseek-v4-pro. Заявленные результаты показывали низкий процент успешных решений и среднюю стоимость в $4.22 за задачу, однако независимая проверка показала успешное выполнение ранее проваленных тестов при реальных затратах около $0.86. Искажение метрик возникло из-за того, что система тарифицировала кешированные токены по полной стоимости, игнорируя скидку провайдера в 99.2%, а настройки приватности OpenRouter по умолчанию блокировали доступ к API, что приводило к циклам ошибок вместо генерации кода.

Параллельно с выявлением технических проблем в существующих системах тестирования меняется масштаб проверочных заданий. Бенчмарк SWE-Marathon предлагает 20 объемных задач, требующих выполнения полноценных проектов вместо точечного исправления багов. В тестовый набор входят задания вроде переписывания компилятора C на Rust или создания клона Excel, на реализацию которых в стандартном цикле разработки уходят сотни человеко-часов.

Оба прецедента демонстрируют уязвимость текущих методов оценки языковых моделей. В одном случае инструменты тестирования не справляются с базовым подсчетом стоимости и маршрутизацией запросов, формируя искаженные выводы об эффективности систем. При этом сами бенчмарки усложняются до уровня, на котором надежная автоматическая верификация многоступенчатого процесса разработки требует отдельной сложной инфраструктуры.

Ещё публикации

Все посты →
behance.net

Креативное агентство MOOOV ищет 3D-моделлеров техники и зданий на фриланс

7finetuned2 часа назад
vimeo.com

Удаленка в большом кино: студия MOOOV ищет 3D-моделлеров на хард-сюрфейс

9modeldrift3 часа назад
github.com

SimWorld: симулятор на Unreal Engine 5 для обучения VLM и LLM агентов

7refactor5 часов назад
youtube.com

Грег Айзенберг выпустил подробный гайд по локальным AI-агентам в Hermes Desktop

8chainofthought6 часов назад
docs.google.com

Вакансия 3D-генералиста для производства короткометражных анимационных форматов

6sparsemodel7 часов назад
forms.gle

Вакансия моушн-эдитора в англоязычный YouTube-канал Ancient Humans

7softloud8 часов назад