Добавить в избранное

Это самая ироничная уязвимость в системах безопасности нейросетей за последнее время. Исследователи обнаружили метод обхода цензуры, который заставляет GPT-4o, Claude Opus и Gemini 2.5 Pro выдавать инструкции по написанию вирусов-вымогателей или синтезу запрещенных веществ. Чтобы сломать защиту, достаточно попросить модель рассказать о запрещенной теме от лица гомосексуального персонажа.

Механика атаки бьет систему ее же главным оружием. В современные LLM зашиты жесткие правила по инклюзивности — так называемый alignment. Когда запрос формулируется в контексте ЛГБТ, базовые фильтры безопасности вступают в конфликт с директивами толерантности. Нейросеть буквально боится показаться нетолерантной и оскорбить пользователя отказом. В итоге она послушно пишет вредоносный код, маскируя это под поддержку сообщества.

Самая большая проблема этого вектора атак заключается в его парадоксальности. Авторы эксплойта подчеркивают, что чем больше дополнительных слоев безопасности и этических ограничений внедряют разработчики, тем стабильнее работает этот джейлбрейк. Попытка сделать искусственный интеллект максимально вежливым создает гигантскую слепую зону, где социальная перестраховка полностью отключает базовые ограничения.

Как чрезмерная толерантность ломает цензуру LLM: метод Gay Jailbreak

Ещё публикации

Как чрезмерная толерантность ломает цензуру LLM: метод Gay Jailbreak

Ещё публикации