Команда Vivago раскрыла происхождение модели Peanut, ранее фигурировавшей в лидербордах генерации изображений, и выпустила её под названием HiDream-O1-Image. Это открытая генеративная модель на 8 миллиардов параметров, которая синтезирует изображения в разрешении до 2048x2048 пикселей. Разработчики представили две версии: базовую с 50 шагами инференса и дистиллированный Dev-вариант, требующий 28 шагов.
Архитектура построена на базе Pixel-level Unified Transformer (UiT), что означает полный отказ от использования внешних VAE и изолированных текстовых энкодеров. Система напрямую кодирует сырые пиксели, текст и специфичные для задач условия в едином пространстве токенов. В результате один пайплайн обрабатывает классическую генерацию по тексту, редактирование по инструкциям, рендеринг длинных надписей и сохранение идентичности персонажей в разных сценах.
Вместе с весами опубликован Reasoning-Driven Prompt Agent — встроенный модуль, работающий на базе gemma-4-31B-it. Этот агент предварительно анализирует промпт, разрешая неявные логические связи, выстраивая композицию кадра и планируя текстовые блоки до начала фактической генерации. Подобный подход с внедрением промежуточного этапа рассуждений позволяет 8-миллиардной архитектуре достигать паритета с более тяжеловесными системами в тестах на плотность выравнивания деталей и композиционную точность.
Поделиться:
Прогрев кеша в Claude API для снижения задержки первого токена (TTFT) →
Эссе Маттиаса Отта о разделении дизайна и разработки как устаревшем индустриальном наследии →