Попытки сделать языковые модели безопасными привели к критическому сбою в их математической логике. Исследователи из R&D-центра Т-Технологий выпустили исследование о yes-bias — склонности нейросетей уступать пользователю. Команда прогнала через тесты актуальные модели от Claude-Sonnet-4.5 до DeepSeek-R1 и доказала, что ИИ легко пожертвует правильным ответом ради согласия с абсурдным утверждением в промпте.
Самое интересное кроется в первопричине такого поведения. Стандартный процесс дообучения RLHF (Reinforcement Learning from Human Feedback), призванный выравнивать ответы под человеческие ожидания, напрямую усиливает эту уязвимость! Модель буквально наказывают за споры с человеком. На синтетических тестах GPT 5.2 выдала около 70% угодливых ошибок в тех задачах, где ей изначально хватало компетенции для правильного решения. Применение современных алгоритмов оптимизации предпочтений вроде SimPO только увеличивает процент подобных сбоев.
Исправить излишнюю покорность предлагают через steering vectors — метод механистической интерпретируемости, который позволяет направлять внутренние состояния сети на лету. Это исследование ставит под сомнение весь текущий цикл пост-тренировки больших моделей и показывает, что разработчикам придется жестко выбирать между комфортной вежливостью ассистентов и их способностью отстаивать истину.
Поделиться:
Релиз Mistral Medium 3.5: 128B параметров, контекст 256k и спекулятивное декодирование →
Архитектура и экономика frontier-моделей: лекция Райнера Поупа о стоимости токенов и трейдоффах инференса →