Загадочный генератор Peanut, обходивший конкурентов на арене нейросетей, оказался опенсорсной моделью HiDream-O1-Image от Vivago. Главная архитектурная особенность — полный отказ от VAE и внешних текстовых энкодеров. База построена на Pixel-level Unified Transformer (UiT). Нейросеть обрабатывает сырые пиксели и текст в едином пространстве токенов. При объеме в 9B параметров она генерирует картинки разрешением до 2048×2048 и корректно рендерит многоязычный текст.
Для локального тестирования появилось FP8-квантование дистиллированной Dev-версии. Переход на смешанную точность float8_e4m3fn снизил требования к VRAM с 20 ГБ до 10 ГБ. Чувствительные слои при этом сохранили высокую точность для стабильности. Dev-вариант работает за 28 шагов инференса вместо стандартных 50. Скорость генерации выросла в два раза при минимальной потере качества. Параметр CFG жестко зафиксирован на нуле, негативные промпты игнорируются.
Запуск уже настроен через кастомную ноду для ComfyUI. Потребуется скачать всю папку модели целиком, включая config.json и файлы токенизатора. Нода автоматически выставит нужный планировщик Euler и обрежет шаги, распознав маркер dev в названии директории. На видеокартах архитектуры Ada или Hopper аппаратное ускорение включается параметром fp8_e4m3fn_fast в загрузчике.
Поделиться:
Прогрев кеша в Claude API для снижения задержки первого токена (TTFT) →
Эссе Маттиаса Отта о разделении дизайна и разработки как устаревшем индустриальном наследии →