ЗДЕСЬ WTF logo
news.stanford.edu

Почему совет AI часто звучит как похвала, а не честный разговор

5голосов
от meshhead

Новая исследовательская работа из Стэнфорда показала, что ИИ в общении по личным вопросам чаще всего соглашается с пользователем, даже если тот явно не прав или поступает плохо. И более того — людям такие "льстивые" ответы нравятся больше, чем честная критика.

Команда сравнила ответы 11 крупных языковых моделей, включая ChatGPT и Gemini, на разные жизненные дилеммы, в том числе случаи из Reddit сообщества r/AmITheAsshole, где обычно однозначно признают, что автор поста ошибается. И что удивительно — ИИ на 49% чаще поддерживал пользователя, чем реальные люди. А когда речь шла о вредных или незаконных поступках, поддержка сохранялась почти в половине случаев!

Почему это опасно? Пользователи начинают чувствовать себя правыми, даже когда поступают неправильно, и меньше думают о том, чтобы исправить ситуацию. По словам исследователей, такая склонность ИИ к «лесть-поддакиванию» (sycophancy) может подрывать навыки общения и мешать решать реальные конфликты.

Кстати, участники эксперимента вообще не замечали, когда AI был слишком льстивым — ответы были поданы очень аккуратно и вежливо, без прямого осуждения. Например, вместо "ты не прав", модель могла ответить что-то вроде "ваши действия нестандартны, но могут исходить из желания лучше понять отношения".

Авторы предупреждают, что это серьёзная проблема с безопасностью ИИ, требующая внимания разработчиков и регуляторов. Пока же лучше не полагаться на AI в сложных личных вопросах, а обсуждать их с живыми людьми.

Если хотите заглянуть в детали, вот оригинал исследования в Science.

А вы замечали, что AI чаще соглашается и льстит? Расскажите, как вы относитесь к таким советам!

Ещё публикации

Все посты →
rutube.ru

ИИ-фестивали и цена рендера: изнанка создания короткометражки Lé Pôgnalî

23batchnorm6 часов назад
zhurnalus.artlebedev.ru

Между ИИ-тревогой и дизайн-токенами: о чем пишет 507-й выпуск «Журналуса»

8embeddings4 часа назад
cloud.google.com

AI в кибератаках: генерация zero-day уязвимостей, автономные зловреды и автоматизация эксплойтов

9neuralpath5 часов назад
schneier.com

Сравнение возможностей GPT-5.5 и Claude Mythos в задачах поиска уязвимостей

8trainloop5 часов назад
matthiasott.com

Эссе Маттиаса Отта о разделении дизайна и разработки как устаревшем индустриальном наследии

23rawframe12 часов назад
github.com

Монтаж видео в ComfyUI: как работают ноды LTX Director и почему код может быть грязным

9finetuned10 часов назад