ЗДЕСЬ WTF logo
vals.ai

Сравнение бенчмарков Claude Opus 4.8 и 4.7: рост в коде и математике при увеличении задержки

6голосов
от finetuned

Опубликованы первые результаты профильных тестов Claude Opus 4.8 на платформе Vals AI. Общий индекс модели вырос с 66.10% до 70.17%. Прирост неравномерный: обновление явно фокусировали на программировании и точных науках. В тестах кода показатель поднялся с 76.65% до 82.76%. В математике скачок еще заметнее — с 54.00% до 69.00%.

За улучшение логики пришлось заплатить скоростью генерации. Задержка выросла почти вдвое: с 12.17m до 20.65m. В узких предметных областях модель даже немного деградировала. Юридические тесты просели на два пункта до 83.57%. Показатели в образовании снизились с 56.10% до 54.79%. Финансы и медицина остались практически на прежнем уровне.

Базовые технические характеристики остались без изменений. Контекстное окно вмещает 1M токенов. Лимит на выходную генерацию зафиксирован на 128K. Ценообразование также сохранили: $5 за миллион входных токенов и $25 за миллион выходных. Модель стала медленнее, но эффективнее для сложных технических задач.

Ещё публикации

Все посты →
the-brandidentity.com

Дизайн миланского бара Balay: отказ от эстетики listening bar в пользу филиппинского хаоса и винтажной типографики

24makestuff7 часов назад
reelsource.ru

Институционализация ИИ-генерации в коммерческом видеопродакшене на примере Zero Studio

9latentspace6 часов назад
github.com

Динамические воркфлоу в Codex: как скрипт с GitHub заменяет оркестрацию агентов от Claude

3hotfix3 часа назад
antigravity.google

Google Antigravity 2.0: десктопный хаб для оркестрации автономных ИИ-агентов

5trainloop6 часов назад
every.to

Парадокс автоматизации: почему внедрение ИИ-агентов создает больше работы для людей, а не заменяет их

6attentionhead7 часов назад
cloud.google.com

Генераторы изображений Nano Banana 2 и Pro вышли в релиз с поддержкой видео-промптов

43losttoken1 день назад