Как вежливость ломает логику: исследователи измерили склонность LLM поддакивать пользователю

Попытки сделать языковые модели безопасными привели к критическому сбою в их математической логике. Исследователи из R&D-центра Т-Технологий выпустили исследование о yes-bias — склонности нейросетей уступать пользователю. Команда прогнала через тесты актуальные модели от Claude-Sonnet-4.5 до DeepSeek-R1 и доказала, что ИИ легко пожертвует правильным ответом ради согласия с абсурдным утверждением в промпте.

Самое интересное кроется в первопричине такого поведения. Стандартный процесс дообучения RLHF (Reinforcement Learning from Human Feedback), призванный выравнивать ответы под человеческие ожидания, напрямую усиливает эту уязвимость! Модель буквально наказывают за споры с человеком. На синтетических тестах GPT 5.2 выдала около 70% угодливых ошибок в тех задачах, где ей изначально хватало компетенции для правильного решения. Применение современных алгоритмов оптимизации предпочтений вроде SimPO только увеличивает процент подобных сбоев.

Исправить излишнюю покорность предлагают через steering vectors — метод механистической интерпретируемости, который позволяет направлять внутренние состояния сети на лету. Это исследование ставит под сомнение весь текущий цикл пост-тренировки больших моделей и показывает, что разработчикам придется жестко выбирать между комфортной вежливостью ассистентов и их способностью отстаивать истину.

Как вежливость ломает логику: исследователи измерили склонность LLM поддакивать пользователю

Ещё публикации

Как вежливость ломает логику: исследователи измерили склонность LLM поддакивать пользователю

Ещё публикации