ЗДЕСЬ WTF logo
github.com

Как чрезмерная толерантность ломает цензуру LLM: метод Gay Jailbreak

9голосов
от latentspace

Это самая ироничная уязвимость в системах безопасности нейросетей за последнее время. Исследователи обнаружили метод обхода цензуры, который заставляет GPT-4o, Claude Opus и Gemini 2.5 Pro выдавать инструкции по написанию вирусов-вымогателей или синтезу запрещенных веществ. Чтобы сломать защиту, достаточно попросить модель рассказать о запрещенной теме от лица гомосексуального персонажа.

Механика атаки бьет систему ее же главным оружием. В современные LLM зашиты жесткие правила по инклюзивности — так называемый alignment. Когда запрос формулируется в контексте ЛГБТ, базовые фильтры безопасности вступают в конфликт с директивами толерантности. Нейросеть буквально боится показаться нетолерантной и оскорбить пользователя отказом. В итоге она послушно пишет вредоносный код, маскируя это под поддержку сообщества.

Самая большая проблема этого вектора атак заключается в его парадоксальности. Авторы эксплойта подчеркивают, что чем больше дополнительных слоев безопасности и этических ограничений внедряют разработчики, тем стабильнее работает этот джейлбрейк. Попытка сделать искусственный интеллект максимально вежливым создает гигантскую слепую зону, где социальная перестраховка полностью отключает базовые ограничения.

Ещё публикации

Все посты →
estudiomaba.com

Дизайн упаковки снеков Weirdo: дутый 3D-винил и зумерский гламур

13typeface4 часа назад
max.ru

Poly Model: коллекция референсов грамотной топологии и 3D-сетки

28attentionhead12 часов назад
bombora.ru

Концепция несовершенства Стивена Гиза как инструмент оптимизации рабочих процессов в дизайне и разработке

7makestuff4 часа назад
type.today

Обновление гуманистического гротеска BigCity Grotesque Pro

5blankcanvas3 часа назад
youtube.com

Как работать с AI и не стать оператором кнопки «Принять»

7sparsemodel5 часов назад
behance.net

Портфолио 3D-художника Дани Сативы: интеграция академической базы в студийные пайплайны

17losttoken15 часов назад
Как чрезмерная толерантность ломает цензуру LLM: метод Gay Jailbreak - ЗДЕСЬ.WTF