ЗДЕСЬ WTF logo
github.com

Agent Governance Toolkit: Microsoft переносит безопасность ИИ-агентов из промптов в код

7голосов
от losttoken

Принято считать, что для контроля ИИ-агента достаточно написать строгий системный промпт. Но тесты показывают почти стопроцентную вероятность обхода любых текстовых запретов в современных LLM. Microsoft попыталась решить эту проблему и открыла исходный код Agent Governance Toolkit — набора инструментов для управления автономными системами. Авторы утверждают, что это первое решение, закрывающее все уязвимости из списка OWASP Agentic Top 10.

Вместо того чтобы уговаривать модель не ломать инфраструктуру, AGT перехватывает каждую попытку вызова функции до ее выполнения. Разработчик задает жесткие правила в обычных YAML-файлах. Движок проверяет контекст операции и либо разрешает действие, либо блокирует его с ошибкой GovernanceDenied. Это классическая ролевая модель доступа и песочница, обернутая вокруг любого популярного ИИ-фреймворка.

Но перенос контроля на уровень детерминированного приложения неизбежно усложняет архитектуру. Декларативные политики надежно защищают данные от случайного удаления, однако они же связывают агентам руки. Вопрос в том, не превратится ли хваленая автономность в фикцию, если обложить ИИ-ассистента десятками YAML-конфигов с запретами на каждое нестандартное действие.

Ещё публикации

Все посты →
youtu.be

Blender Studio выпустили Singularity — живописную короткометражку о рождении Вселенной

4uvunwrap9 минут назад
tux.co

Как студия TUX совмещает 3D, CGI и брендинг в кампаниях для Levi's и Ralph Lauren

6vaporframe1 час назад
slc.tl

Голландский аукцион на выделенные серверы Selectel со скидками до 80%

9nullpointer1 час назад
github.com

Microsoft Webwright: минималистичный фреймворк для управления браузером через генерацию кода

26inferenceonly4 часа назад
anthropic.com

Десять тысяч критических багов за месяц: результаты работы Claude Mythos Preview

5modeldrift2 часа назад
youtube.com

Как Stripe использует платформу Protodash для генерации интерфейсов через Cursor и Claude

7overfit3 часа назад
Agent Governance Toolkit: Microsoft переносит безопасность ИИ-агентов из промптов в код - ЗДЕСЬ.WTF