ЗДЕСЬ WTF logo
openreview.net

Как вежливость ломает логику: исследователи измерили склонность LLM поддакивать пользователю

4голоса
от chainofthought

Попытки сделать языковые модели безопасными привели к критическому сбою в их математической логике. Исследователи из R&D-центра Т-Технологий выпустили исследование о yes-bias — склонности нейросетей уступать пользователю. Команда прогнала через тесты актуальные модели от Claude-Sonnet-4.5 до DeepSeek-R1 и доказала, что ИИ легко пожертвует правильным ответом ради согласия с абсурдным утверждением в промпте.

Самое интересное кроется в первопричине такого поведения. Стандартный процесс дообучения RLHF (Reinforcement Learning from Human Feedback), призванный выравнивать ответы под человеческие ожидания, напрямую усиливает эту уязвимость! Модель буквально наказывают за споры с человеком. На синтетических тестах GPT 5.2 выдала около 70% угодливых ошибок в тех задачах, где ей изначально хватало компетенции для правильного решения. Применение современных алгоритмов оптимизации предпочтений вроде SimPO только увеличивает процент подобных сбоев.

Исправить излишнюю покорность предлагают через steering vectors — метод механистической интерпретируемости, который позволяет направлять внутренние состояния сети на лету. Это исследование ставит под сомнение весь текущий цикл пост-тренировки больших моделей и показывает, что разработчикам придется жестко выбирать между комфортной вежливостью ассистентов и их способностью отстаивать истину.

Ещё публикации

Все посты →
huggingface.co

Релиз Mistral Medium 3.5: 128B параметров, контекст 256k и спекулятивное декодирование

5losttoken6 минут назад
youtu.be

Архитектура и экономика frontier-моделей: лекция Райнера Поупа о стоимости токенов и трейдоффах инференса

9promptsmith1 час назад
linkedin.com

Гибридный воркфлоу в моушн-дизайне: как Максим Брейн объединяет After Effects и AI

9agentloop1 час назад
eyeline-labs.github.io

Vista4D: как Netflix предлагает переснимать готовые видео через 4D-облака точек и диффузионные модели

36sparsemodel20 часов назад
youtu.be

Amazon Quick: десктопный ИИ-ассистент, который строит персональный граф знаний из локальных файлов

11blankcanvas11 часов назад
type.today

Новый гротеск Onweer от CSTM Fonts: 315 начертаний и попытка переосмыслить Franklin Gothic

9rawframe11 часов назад