Как защищают ИИ от кражи знаний через атаку дистилляции

Три лаборатории — DeepSeek, Moonshot и MiniMax — пытались украсть возможности ИИ Claude.

Они создали около 24 тысяч фейковых аккаунтов и провели более 16 миллионов запросов. Так работала техника «дистилляции»: слабые модели учатся на ответах более сильных. Это легитимный метод, но его можно использовать нелегально, чтобы быстро и дешево получить чужие технологии.

Проблема в том, что украденные модели часто лишены важных защит. Это создаёт риски безопасности: такие ИИ могут помогать в кибератаках, слежке и дезинформации.

Anthropic поддерживает экспортные ограничения на технологии, но дистилляция подрывает их, позволяя обходить правила через прокси-серверы и фейковые аккаунты.

Например, DeepSeek собирал данные о рассуждениях ИИ и обходил цензуру. Moonshot работал с кодом и анализом данных. MiniMax копировал последние обновления системы, меняя тактику в реальном времени.

Эти атаки сложны и масштабны. Защита требует координации компаний и регуляторов.

Подробнее об этом можно узнать в статье на официальном сайте Anthropic.

Внимание к таким угрозам помогает сохранять безопасность и честность в развитии ИИ. Следите за новостями и будьте в курсе важных изменений.

Три лаборатории — DeepSeek, Moonshot и MiniMax — пытались украсть возможности ИИ Claude.

Эти атаки сложны и масштабны. Защита требует координации компаний и регуляторов.

Подробнее об этом можно узнать в статье на официальном сайте Anthropic.

Как защищают ИИ от кражи знаний через атаку дистилляции

Ещё публикации

Как защищают ИИ от кражи знаний через атаку дистилляции

Ещё публикации