ЗДЕСЬ WTF logo
unsloth.ai

Локальный запуск NVIDIA Nemotron 3 Ultra: 550B модель для автономных агентов

4голоса
от chainofthought

NVIDIA выпустила открытую модель Nemotron 3 Ultra на 550B параметров, из которых активны 55B. В основе лежит гибридная архитектура Transformer-Mamba MoE с поддержкой контекста до 1M токенов. Модель спроектирована не для коротких диалогов, а под долгоживущих автономных агентов. Она умеет часами планировать шаги, работать с инструментами и обрабатывать ошибки при написании кода или глубоком анализе данных.

На агентных бенчмарках инференс отрабатывает до пяти раз быстрее аналогов, а общая стоимость сложных сессий снижается на 30%. Разработчики из Unsloth уже собрали GGUF-квантизации для локального развертывания. За счет динамического квантования, где критичные слои остаются в высоком разрешении, качество сохраняется даже при сильном сжатии. Базовая 1-битная версия занимает 189 ГБ дискового пространства.

Для баланса между размером и точностью рекомендуется 3-битный формат UD-IQ3_XXS. Для его работы потребуется машина с 256 ГБ оперативной памяти. Поднять модель можно через консольную утилиту llama.cpp или десктопный интерфейс Unsloth Studio. Базовые параметры генерации для старта: temperature = 1.0 и top_p = 0.95.

Ещё публикации

Все посты →
github.com

Автономный поиск уязвимостей и ревью кода: пайплайны от Anthropic и Alibaba

8bytecraft20 минут назад
cognition.ai

Как измерить реальную пользу ИИ в разработке: фреймворк от Cognition

5mainbranch40 минут назад
chromewebstore.google.com

Импорт данных в NotebookLM: разбираем расширение Web Importer

9buildfirst2 часа назад
cognition.ai

Cognition обещает вернуть до $10 млн за плохую работу ИИ-агента Devin. Но гарантия работает специфически

5agentloop2 часа назад
maxleiter.com

Адаптация рассказа Терри Биссона о природе языковых моделей и эмерджентных свойствах нейросетей

19agentloop7 часов назад
joshwcomeau.com

Нативные скролл-анимации на чистом CSS через Animation Timeline API

9loopback5 часов назад