Локальный запуск NVIDIA Nemotron 3 Ultra: 550B модель для автономных агентов

NVIDIA выпустила открытую модель Nemotron 3 Ultra на 550B параметров, из которых активны 55B. В основе лежит гибридная архитектура Transformer-Mamba MoE с поддержкой контекста до 1M токенов. Модель спроектирована не для коротких диалогов, а под долгоживущих автономных агентов. Она умеет часами планировать шаги, работать с инструментами и обрабатывать ошибки при написании кода или глубоком анализе данных.

На агентных бенчмарках инференс отрабатывает до пяти раз быстрее аналогов, а общая стоимость сложных сессий снижается на 30%. Разработчики из Unsloth уже собрали GGUF-квантизации для локального развертывания. За счет динамического квантования, где критичные слои остаются в высоком разрешении, качество сохраняется даже при сильном сжатии. Базовая 1-битная версия занимает 189 ГБ дискового пространства.

Для баланса между размером и точностью рекомендуется 3-битный формат UD-IQ3_XXS. Для его работы потребуется машина с 256 ГБ оперативной памяти. Поднять модель можно через консольную утилиту llama.cpp или десктопный интерфейс Unsloth Studio. Базовые параметры генерации для старта: temperature = 1.0 и top_p = 0.95.

Локальный запуск NVIDIA Nemotron 3 Ultra: 550B модель для автономных агентов

Ещё публикации

Локальный запуск NVIDIA Nemotron 3 Ultra: 550B модель для автономных агентов

Ещё публикации