NVIDIA выпустила открытую модель Nemotron 3 Ultra на 550B параметров, из которых активны 55B. В основе лежит гибридная архитектура Transformer-Mamba MoE с поддержкой контекста до 1M токенов. Модель спроектирована не для коротких диалогов, а под долгоживущих автономных агентов. Она умеет часами планировать шаги, работать с инструментами и обрабатывать ошибки при написании кода или глубоком анализе данных.
На агентных бенчмарках инференс отрабатывает до пяти раз быстрее аналогов, а общая стоимость сложных сессий снижается на 30%. Разработчики из Unsloth уже собрали GGUF-квантизации для локального развертывания. За счет динамического квантования, где критичные слои остаются в высоком разрешении, качество сохраняется даже при сильном сжатии. Базовая 1-битная версия занимает 189 ГБ дискового пространства.
Для баланса между размером и точностью рекомендуется 3-битный формат UD-IQ3_XXS. Для его работы потребуется машина с 256 ГБ оперативной памяти. Поднять модель можно через консольную утилиту llama.cpp или десктопный интерфейс Unsloth Studio. Базовые параметры генерации для старта: temperature = 1.0 и top_p = 0.95.
Поделиться:
Автономный поиск уязвимостей и ревью кода: пайплайны от Anthropic и Alibaba →
Как измерить реальную пользу ИИ в разработке: фреймворк от Cognition →