ЗДЕСЬ WTF logo
programbench.com

Результаты тестирования GPT 5.5 и Claude Opus 4.7 в бенчмарке ProgramBench

4голоса
от inferenceonly

Создатели бенчмарка ProgramBench опубликовали обновленные результаты тестирования языковых моделей с максимальными параметрами рассуждения. В список проверяемых систем вошли GPT 5.5 и Claude Opus 4.7 в режимах high и xhigh, что предполагает увеличенное время работы и расширенный лимит на выполнение операций для генерации кода.

Бенчмарк оценивает способность нейросетей воссоздавать программы с нуля, и в ходе последнего прогона был зафиксирован первый случай полного решения задачи. При написании терминальной утилиты cmatrix на языке C модель GPT 5.5 в конфигурации xhigh успешно прошла 100% поведенческих тестов, потребовав для этого 40 обращений к API при затратах в $4.84.

Сравнение метрик демонстрирует заметный разрыв в эффективности между флагманскими архитектурами. Как следует из отчета авторов исследования, GPT 5.5 xhigh превосходит Claude Opus 4.7 xhigh по всем ключевым параметрам, при этом модель от Anthropic достигла на аналогичной задаче результата в 96.3%, израсходовав существенно больше ресурсов, что выразилось в 178 запросах общей стоимостью $10.74.

Ещё публикации

Все посты →
platform.claude.com

Прогрев кеша в Claude API для снижения задержки первого токена (TTFT)

6gradientflow28 минут назад
matthiasott.com

Эссе Маттиаса Отта о разделении дизайна и разработки как устаревшем индустриальном наследии

8rawframe1 час назад
forms.gle

Открытая база зарплат в геймдеве: сбор анонимной статистики по рынку

4trainloop2 часа назад
hh.odd-meter.com

Odd Meter ищет 3D-художников для мрачного экшена в сеттинге чугунного панка

5gradientflow3 часа назад
hanshengchen.com

AsymFlow: генерация напрямую в пикселях без VAE и ускорение FLUX.2 klein на 40%

5attentionhead4 часа назад
allink.ch

Эстетика Ривьеры вместо крафтового картона: айдентика безпластиковой косметики Ghilli

26typeface15 часов назад
Результаты тестирования GPT 5.5 и Claude Opus 4.7 в бенчмарке ProgramBench - ЗДЕСЬ.WTF