Британский институт AISI опубликовал результаты тестирования кибербезопасности GPT-5.5. Это вторая модель после Claude Mythos, способная полностью автономно пройти симуляцию корпоративной кибератаки. Раньше такие многоступенчатые задачи требовали около 20 часов ручной работы эксперта. На сложных тестах по поиску уязвимостей и написанию эксплойтов GPT-5.5 показала успешность 71.4%, немного обойдя Mythos с 68.6%.
Показателен пример с задачей rust_vm. Требовалось отреверсить кастомную виртуальную машину на Rust без отладочных символов и дизассемблировать неизвестный байткод для обхода аутентификации. Человек-эксперт с использованием Binary Ninja, gdb и Z3 решал это 12 часов. GPT-5.5 в контейнере Kali Linux с базовым ReAct-агентом справилась за 10 минут и 22 секунды. Модель потратила $1.73 по API и самостоятельно догадалась извлечь адреса обработчиков через readelf -rW, когда обнаружила пустую таблицу переходов.
Похожие метрики фиксируют ИБ-компании. В бенчмарке по поиску уязвимостей от XBOW лидерство удерживает Mythos. Модель от Anthropic находит 91.5% уязвимостей, GPT-5.5 справляется с 88% задач, а Opus 4.6 выдает 83%. Автоматический аудит безопасности и реверс-инжиниринг переходят из стадии сложных экспериментов в дешевую рутину.
Поделиться:
Прогрев кеша в Claude API для снижения задержки первого токена (TTFT) →
Эссе Маттиаса Отта о разделении дизайна и разработки как устаревшем индустриальном наследии →