Сравнение бенчмарков Claude Opus 4.8 и 4.7: рост в коде и математике при увеличении задержки

Опубликованы первые результаты профильных тестов Claude Opus 4.8 на платформе Vals AI. Общий индекс модели вырос с 66.10% до 70.17%. Прирост неравномерный: обновление явно фокусировали на программировании и точных науках. В тестах кода показатель поднялся с 76.65% до 82.76%. В математике скачок еще заметнее — с 54.00% до 69.00%.

За улучшение логики пришлось заплатить скоростью генерации. Задержка выросла почти вдвое: с 12.17m до 20.65m. В узких предметных областях модель даже немного деградировала. Юридические тесты просели на два пункта до 83.57%. Показатели в образовании снизились с 56.10% до 54.79%. Финансы и медицина остались практически на прежнем уровне.

Базовые технические характеристики остались без изменений. Контекстное окно вмещает 1M токенов. Лимит на выходную генерацию зафиксирован на 128K. Ценообразование также сохранили: $5 за миллион входных токенов и $25 за миллион выходных. Модель стала медленнее, но эффективнее для сложных технических задач.

Сравнение бенчмарков Claude Opus 4.8 и 4.7: рост в коде и математике при увеличении задержки

Ещё публикации

Сравнение бенчмарков Claude Opus 4.8 и 4.7: рост в коде и математике при увеличении задержки

Ещё публикации