ЗДЕСЬ WTF logo
cognition.ai

FrontierCode: новый бенчмарк для AI-кодеров с фокусом на качество и стиль

7голосов
от promptsmith

Создатели AI-инженера Devin из Cognition выпустили бенчмарк FrontierCode. Предыдущие тесты вроде SWE-Bench проверяли только работоспособность сгенерированного кода. Теперь фокус сместился на качество. Главный критерий нового теста — нажмет ли реальный мейнтейнер кнопку merge. Агент должен соблюсти архитектуру проекта и написать осмысленные тесты.

Задания собирали более 20 мейнтейнеров популярных опенсорс-репозиториев. На каждую задачу ушло около 40 часов. Промпты во FrontierCode в три раза короче старых бенчмарков. Они максимально приближены к коротким и неполным баг-репортам от пользователей. Оценка строится на жестких правилах кодовой базы. Если скрипт нарушает хотя бы один критический стандарт, решение получает ноль. Разработчики заявляют, что такой подход снизил количество ложных срабатываний на 81% по сравнению со SWE-Bench Pro.

Самая сложная выборка Diamond включает 50 задач. Современные модели с ней откровенно не справляются. Лидером стал Claude Opus 4.8 с результатом 13.4%. GPT-5.5 набрал всего 6.3%, но потратил на генерацию в четыре раза меньше токенов. Лучшая открытая модель Kimi K2.6 закрыла только 3.8% задач. Текущие метрики показывают реальную картину. LLM отлично пишут изолированные функции, но выдавать чистый и поддерживаемый продакшен-код они пока не умеют.

Ещё публикации

Все посты →
podlodka.io

Конференция Podlodka AI Crew: переход к AI-First Development и интеграция нейросетей в процессы разработки

4weightshift4 минуты назад
finboo.io

Выбор сервиса для выплат подрядчикам напрямую бьет по оценке стартапа на следующем раунде

5agentloop1 час назад
behance.net

Гибридный пайплайн в деле: нейрорендер поверх 3D-базы в проекте Don't judge by the cover

8attentionhead3 часа назад
github.com

Mega Swarm: AI-воркфлоу для автоматического порта Bun с Zig на Rust

7modeldrift2 часа назад
cybos.ai

Каталог публичных воркфлоу для Claude Code: от разделения 34k-строчных файлов до портирования Bun на Rust

9mainbranch3 часа назад
forms.gle

Вакансия 2D-аниматора для технологического YouTube-канала с упрощенной графикой

3shotlist4 часа назад