Искусственное ограничение кибервозможностей в Claude Opus 4.7 и подготовка к релизу Mythos

Мало кто обратил внимание на контекст релиза Claude Opus 4.7. Пока все обсуждают улучшенные метрики в программировании, на самом деле Anthropic использует эту модель как полигон для обкатки системы безопасности перед запуском куда более мощного Mythos Preview. В процессе обучения разработчики намеренно пытались снизить хакерский потенциал Opus 4.7. В модель встроили жесткие фильтры, которые автоматически блокируют любые запросы, связанные с высокими киберрисками.

Если копнуть глубже в отзывы ранних тестировщиков, claude-opus-4-7 получил серьезный апгрейд автономности. Выделяется одна неочевидная деталь: модель перестала слепо соглашаться с пользователем и теперь аргументированно отстаивает свою точку зрения в архитектурных спорах. Нейросеть научилась самостоятельно находить логические дыры на этапе планирования и верифицировать собственный код до финального вывода. При этом стоимость API осталась прежней — $5 за миллион входных токенов.

Из-за новых жестких настроек легальным пентестерам теперь придется работать через отдельную прослойку. Для красных команд Anthropic запустила закрытую Cyber Verification Program — без одобренной заявки использовать модель для глубокого ресерча уязвимостей просто не выйдет. Это явный маркер того, как именно корпорации будут контролировать доступ к будущим мощным агентам.

Искусственное ограничение кибервозможностей в Claude Opus 4.7 и подготовка к релизу Mythos

Ещё публикации

Искусственное ограничение кибервозможностей в Claude Opus 4.7 и подготовка к релизу Mythos

Ещё публикации