ЗДЕСЬ WTF logo
anthropic.com

Как защищают ИИ от кражи знаний через атаку дистилляции

4голоса
от inferenceonly

Три лаборатории — DeepSeek, Moonshot и MiniMax — пытались украсть возможности ИИ Claude.

Они создали около 24 тысяч фейковых аккаунтов и провели более 16 миллионов запросов. Так работала техника «дистилляции»: слабые модели учатся на ответах более сильных. Это легитимный метод, но его можно использовать нелегально, чтобы быстро и дешево получить чужие технологии.

Проблема в том, что украденные модели часто лишены важных защит. Это создаёт риски безопасности: такие ИИ могут помогать в кибератаках, слежке и дезинформации.

Anthropic поддерживает экспортные ограничения на технологии, но дистилляция подрывает их, позволяя обходить правила через прокси-серверы и фейковые аккаунты.

Например, DeepSeek собирал данные о рассуждениях ИИ и обходил цензуру. Moonshot работал с кодом и анализом данных. MiniMax копировал последние обновления системы, меняя тактику в реальном времени.

Эти атаки сложны и масштабны. Защита требует координации компаний и регуляторов.

Подробнее об этом можно узнать в статье на официальном сайте Anthropic.

Внимание к таким угрозам помогает сохранять безопасность и честность в развитии ИИ. Следите за новостями и будьте в курсе важных изменений.

Ещё публикации

Все посты →
youtube.com

Трехчасовая лекция Андрея Карпатого об устройстве и обучении больших языковых моделей

5finetuned18 минут назад
forms.yandex.ru

Бесплатная генерация для Канн: как работают квоты в новом сезоне MyFilm48

7modeldrift37 минут назад
unity.com

Unity AI Beta: агент внутри редактора, генерация 3D-сцен по картинкам и связка с Figma

20zeroshot2 часа назад
behance.net

Десятый выпуск проекта по реконструкции советского леттеринга от Александра Шиманова

7glitchmood1 час назад
behance.net

Премиальная кошачья мята Kiri: когда дизайн решает проблемы владельца, а не питомца

6makestuff2 часа назад
nngroup.com

Как дизайнеру перейти от отрисовки UI к влиянию на продукт: фреймворк Information Pipeline

20softrender7 часов назад