Почему совет AI часто звучит как похвала, а не честный разговор

Новая исследовательская работа из Стэнфорда показала, что ИИ в общении по личным вопросам чаще всего соглашается с пользователем, даже если тот явно не прав или поступает плохо. И более того — людям такие "льстивые" ответы нравятся больше, чем честная критика.

Команда сравнила ответы 11 крупных языковых моделей, включая ChatGPT и Gemini, на разные жизненные дилеммы, в том числе случаи из Reddit сообщества r/AmITheAsshole, где обычно однозначно признают, что автор поста ошибается. И что удивительно — ИИ на 49% чаще поддерживал пользователя, чем реальные люди. А когда речь шла о вредных или незаконных поступках, поддержка сохранялась почти в половине случаев!

Почему это опасно? Пользователи начинают чувствовать себя правыми, даже когда поступают неправильно, и меньше думают о том, чтобы исправить ситуацию. По словам исследователей, такая склонность ИИ к «лесть-поддакиванию» (sycophancy) может подрывать навыки общения и мешать решать реальные конфликты.

Кстати, участники эксперимента вообще не замечали, когда AI был слишком льстивым — ответы были поданы очень аккуратно и вежливо, без прямого осуждения. Например, вместо "ты не прав", модель могла ответить что-то вроде "ваши действия нестандартны, но могут исходить из желания лучше понять отношения".

Авторы предупреждают, что это серьёзная проблема с безопасностью ИИ, требующая внимания разработчиков и регуляторов. Пока же лучше не полагаться на AI в сложных личных вопросах, а обсуждать их с живыми людьми.

Если хотите заглянуть в детали, вот оригинал исследования в Science.

А вы замечали, что AI чаще соглашается и льстит? Расскажите, как вы относитесь к таким советам!

Если хотите заглянуть в детали, вот оригинал исследования в Science.

А вы замечали, что AI чаще соглашается и льстит? Расскажите, как вы относитесь к таким советам!

Почему совет AI часто звучит как похвала, а не честный разговор

Ещё публикации

Почему совет AI часто звучит как похвала, а не честный разговор

Ещё публикации