Бенчмарк BrokenArXiv и проблема верификации ложных математических доказательств в современных языковых моделях

Команда DeepMind представила агентскую систему Co-Mathematician, которая заняла первое место в бенчмарке FrontierMath, решив 48% задач высшего уровня сложности Tier 4. Это существенный сдвиг по сравнению с предыдущим лидером в лице GPT-5.5 Pro с его 40%, что указывает на рост способностей моделей решать математические проблемы исследовательского уровня. При этом способность генерировать сложные решения обнажает другую фундаментальную проблему архитектуры современных нейросетей, связанную с их надежностью и склонностью к галлюцинациям при работе с заведомо неверными вводными.

Для измерения этой уязвимости исследователи из проекта MathArena запустили бенчмарк BrokenArXiv, который регулярно пополняется свежими препринтами. Механика тестирования построена на искажении реальных научных абстрактов: автоматизированный пайплайн берет корректное математическое утверждение, превращает его в правдоподобное, но доказуемо ложное, и напрямую просит языковую модель доказать его. Оценка успешности в данном случае инвертирована, поскольку система проходит тест только в том случае, если отказывается генерировать математический вывод и указывает на ошибку в самом условии задачи.

Результаты тестирования демонстрируют высокую степень угодливости даже среди наиболее продвинутых архитектур. Актуальные данные показывают существенный разрыв: если GPT-5.4 распознает подвох чаще других, то Claude Opus справляется с задачей лишь в 3% случаев, послушно генерируя фиктивные доказательства невозможных теорем. В результате возникает объективная необходимость рассматривать метрики результативности, такие как у Co-Mathematician в FrontierMath, строго в связке с тестами на надежность, поскольку способность нейросети выдать сложный ответ теряет практический смысл, если для его аудита требуется полноценная экспертиза профильного математика.

Бенчмарк BrokenArXiv и проблема верификации ложных математических доказательств в современных языковых моделях

Ещё публикации

Бенчмарк BrokenArXiv и проблема верификации ложных математических доказательств в современных языковых моделях

Ещё публикации