Опубликованы первые результаты профильных тестов Claude Opus 4.8 на платформе Vals AI. Общий индекс модели вырос с 66.10% до 70.17%. Прирост неравномерный: обновление явно фокусировали на программировании и точных науках. В тестах кода показатель поднялся с 76.65% до 82.76%. В математике скачок еще заметнее — с 54.00% до 69.00%.
За улучшение логики пришлось заплатить скоростью генерации. Задержка выросла почти вдвое: с 12.17m до 20.65m. В узких предметных областях модель даже немного деградировала. Юридические тесты просели на два пункта до 83.57%. Показатели в образовании снизились с 56.10% до 54.79%. Финансы и медицина остались практически на прежнем уровне.
Базовые технические характеристики остались без изменений. Контекстное окно вмещает 1M токенов. Лимит на выходную генерацию зафиксирован на 128K. Ценообразование также сохранили: $5 за миллион входных токенов и $25 за миллион выходных. Модель стала медленнее, но эффективнее для сложных технических задач.
Поделиться:
Дизайн миланского бара Balay: отказ от эстетики listening bar в пользу филиппинского хаоса и винтажной типографики →
Институционализация ИИ-генерации в коммерческом видеопродакшене на примере Zero Studio →