Обновление GigaChat-3.1: борьба с цикличностью и улучшение качества больших моделей
В марте вышло обновление GigaChat-3.1, включающее версии Ultra (702 млрд параметров) и Lightning (10 млрд параметров). Обе модели демонстрируют выдающиеся результаты в математике и логическом рассуждении, превосходя многие аналогичные решения и приближаясь по уровню к GPT-4.1. Исходные коды и модели доступны под лицензией MIT на платформах HuggingFace и GitVerse.
Основное внимание в обновлении уделено переходу с Dense-моделей на MoE (Mixture of Experts), что сопровождалось решением ряда технических задач. В частности, команда выявила и исправила проблему цикличности генераций — когда модель повторяет одни и те же фразы или структуры. Для её выявления разработали новую метрику, основанную на сжатии BPE-токенов хвоста текста, которая позволяет эффективно и быстро обнаруживать повторяющиеся паттерны.
Также удалось оптимизировать этап DPO (Direct Preference Optimization) с использованием нативного формата FP8, что улучшило качество моделей при снижении потребления памяти. В ходе работы выявили баг в SGLang при распределённом параллелизме, влияющий на качество, и установили, что GPT-OSS-120b может служить эффективной альтернативой проприетарным оценщикам на тестовых аренах.
Кроме того, подробный анализ показал, что циклы вызваны не проблемами с данными или неспособностью модели предсказывать токен конца генерации (EOS), а скорее нестабильностью механизма остановки и балансировкой нагрузки между экспертами в MoE. В результате команда отказалась от дополнительных методов балансировки, поскольку они ухудшали результат, и позволила модели адаптироваться самостоятельно.
Это обновление подчёркивает важность комплексного подхода к развитию больших языковых моделей, где архитектурные инновации сочетаются с тщательной отладкой и новыми методами оценки качества. Подробнее ознакомиться с техническими деталями и экспериментами можно в полном обзоре на Habr.
Поделиться этим постом:









