Компания XBOW, специализирующаяся на ИИ-инструментах для кибербезопасности, опубликовала результаты тестирования новой модели Mythos Preview от Anthropic в задачах наступательной безопасности. Исследователи оценивали способность нейросети находить и эксплуатировать уязвимости в реальных веб-приложениях, используя как статический анализ кода, так и интерактивное взаимодействие с целевыми системами. В ходе внутреннего бенчмарка модель смогла обнаружить около 91.5% уязвимостей, превзойдя показатели GPT-5.5 (88%) и Opus 4.6 (83%), при этом количество ложноотрицательных срабатываний по сравнению с предыдущим поколением Opus сократилось на 42%.
Основной вывод тестирования заключается в том, что Mythos демонстрирует высокую точность при аудите исходного кода, однако сталкивается с трудностями при валидации эксплойтов на работающих серверах. Многие критические уязвимости возникают не из-за ошибок в самом коде, а в результате специфических конфигураций, развертывания или небезопасного взаимодействия изолированных компонентов, что требует от модели способности динамически взаимодействовать с окружением. На данный момент алгоритм склонен к излишне буквальным интерпретациям и часто переоценивает практическую значимость найденных теоретических уязвимостей.
Несмотря на ограничения в интерактивном режиме, соотношение затраченных токенов к успешным обнаружениям делает Mythos эффективным инструментом для реверс-инжиниринга и глубокого анализа нативного кода. Это означает, что применение подобных моделей в корпоративной безопасности смещается от попыток полностью автоматизировать пентестинг к созданию архитектур, где языковая модель выполняет роль аналитического ядра, требующего внешних инструментов оркестрации для фактического исполнения атак и проверки гипотез на реальных инфраструктурах.
Поделиться:
Прогрев кеша в Claude API для снижения задержки первого токена (TTFT) →
Эссе Маттиаса Отта о разделении дизайна и разработки как устаревшем индустриальном наследии →