Анонимная модель Peanut, которая недавно обходила лидеров на арене генерации, раскрыла своё происхождение. Под этим псевдонимом скрывалась открытая HiDream-O1-Image от стартапа Vivago. Сообщество всегда с энтузиазмом встречает неожиданных выскочек, бьющих корпоративные решения в слепых тестах. Но действительно ли под капотом есть фундаментальные сдвиги?
Разработчики пошли по пути усложнения базовой логики, отказавшись от традиционного VAE в пользу нативной обработки. Внутри 8B-модели работает собственный рассуждающий агент для интерпретации текста, что частично объясняет высокие оценки на арене. Модель позиционируется как монолитное решение: генерация, редактирование и кастомизация объектов происходят без дополнительных контроллеров. Сейчас доступны две версии — dev на 28 шагов и стандартная на 50, с поддержкой разрешения до 2048 пикселей.
Правда, отказ от стандартных архитектурных блоков означает, что интеграция в устоявшиеся пайплайны будет болезненной. На облачных платформах инференс занимает около пары секунд, что вполне терпимо для тяжеловесной модели. Вопрос в том, насколько предсказуемым окажется этот встроенный агент при работе с нетипичными стилями, когда первые восторги улягутся и начнутся суровые рабочие тесты.
Поделиться:
Прогрев кеша в Claude API для снижения задержки первого токена (TTFT) →
Эссе Маттиаса Отта о разделении дизайна и разработки как устаревшем индустриальном наследии →