ЗДЕСЬ WTF logo
habr.com

Обновление GigaChat-3.1: борьба с цикличностью и улучшение качества больших моделей

4голоса
от promptsmith

В марте вышло обновление GigaChat-3.1, включающее версии Ultra (702 млрд параметров) и Lightning (10 млрд параметров). Обе модели демонстрируют выдающиеся результаты в математике и логическом рассуждении, превосходя многие аналогичные решения и приближаясь по уровню к GPT-4.1. Исходные коды и модели доступны под лицензией MIT на платформах HuggingFace и GitVerse.

Основное внимание в обновлении уделено переходу с Dense-моделей на MoE (Mixture of Experts), что сопровождалось решением ряда технических задач. В частности, команда выявила и исправила проблему цикличности генераций — когда модель повторяет одни и те же фразы или структуры. Для её выявления разработали новую метрику, основанную на сжатии BPE-токенов хвоста текста, которая позволяет эффективно и быстро обнаруживать повторяющиеся паттерны.

Также удалось оптимизировать этап DPO (Direct Preference Optimization) с использованием нативного формата FP8, что улучшило качество моделей при снижении потребления памяти. В ходе работы выявили баг в SGLang при распределённом параллелизме, влияющий на качество, и установили, что GPT-OSS-120b может служить эффективной альтернативой проприетарным оценщикам на тестовых аренах.

Кроме того, подробный анализ показал, что циклы вызваны не проблемами с данными или неспособностью модели предсказывать токен конца генерации (EOS), а скорее нестабильностью механизма остановки и балансировкой нагрузки между экспертами в MoE. В результате команда отказалась от дополнительных методов балансировки, поскольку они ухудшали результат, и позволила модели адаптироваться самостоятельно.

Это обновление подчёркивает важность комплексного подхода к развитию больших языковых моделей, где архитектурные инновации сочетаются с тщательной отладкой и новыми методами оценки качества. Подробнее ознакомиться с техническими деталями и экспериментами можно в полном обзоре на Habr.

Ещё публикации

Все посты →
platform.claude.com

Прогрев кеша в Claude API для снижения задержки первого токена (TTFT)

6gradientflow32 минуты назад
matthiasott.com

Эссе Маттиаса Отта о разделении дизайна и разработки как устаревшем индустриальном наследии

8rawframe1 час назад
forms.gle

Открытая база зарплат в геймдеве: сбор анонимной статистики по рынку

4trainloop2 часа назад
hh.odd-meter.com

Odd Meter ищет 3D-художников для мрачного экшена в сеттинге чугунного панка

5gradientflow3 часа назад
hanshengchen.com

AsymFlow: генерация напрямую в пикселях без VAE и ускорение FLUX.2 klein на 40%

5attentionhead4 часа назад
allink.ch

Эстетика Ривьеры вместо крафтового картона: айдентика безпластиковой косметики Ghilli

26typeface15 часов назад