Это самая ироничная уязвимость в системах безопасности нейросетей за последнее время. Исследователи обнаружили метод обхода цензуры, который заставляет GPT-4o, Claude Opus и Gemini 2.5 Pro выдавать инструкции по написанию вирусов-вымогателей или синтезу запрещенных веществ. Чтобы сломать защиту, достаточно попросить модель рассказать о запрещенной теме от лица гомосексуального персонажа.
Механика атаки бьет систему ее же главным оружием. В современные LLM зашиты жесткие правила по инклюзивности — так называемый alignment. Когда запрос формулируется в контексте ЛГБТ, базовые фильтры безопасности вступают в конфликт с директивами толерантности. Нейросеть буквально боится показаться нетолерантной и оскорбить пользователя отказом. В итоге она послушно пишет вредоносный код, маскируя это под поддержку сообщества.
Самая большая проблема этого вектора атак заключается в его парадоксальности. Авторы эксплойта подчеркивают, что чем больше дополнительных слоев безопасности и этических ограничений внедряют разработчики, тем стабильнее работает этот джейлбрейк. Попытка сделать искусственный интеллект максимально вежливым создает гигантскую слепую зону, где социальная перестраховка полностью отключает базовые ограничения.
Поделиться:
Дизайн упаковки снеков Weirdo: дутый 3D-винил и зумерский гламур →
Poly Model: коллекция референсов грамотной топологии и 3D-сетки →