Baidu выкатили генератор, который наконец-то справляется со сложной типографикой и журнальной версткой. Открытая модель ERNIE-Image построена на архитектуре Diffusion Transformer и содержит скромные 8B параметров. Разработчики сделали ставку не на абстрактную красоту, а на жесткий контроль композиции. Сетка отлично рендерит плотный текст на английском и китайском языках, собирая из него осмысленные постеры с точным позиционированием заголовков.
Под капотом работает встроенный Prompt Enhancer. Эта дополнительная нейронка на лету разворачивает короткие пользовательские запросы в структурированные инструкции. Благодаря такому подходу ERNIE-Image железно держит логику кадра! Модель генерирует цельные многопанельные композиции, раскадровки для манги и последовательные сцены с сохранением персонажей и стиля.
Вместо типичного перенасыщенного глянца алгоритм умеет выдавать мягкие кинематографичные тона и пленочное зерно. Запустить всю эту систему локально можно на потребительской видеокарте с 24 ГБ памяти. Компактный размер делает базу отличным кандидатом для быстрого файн-тюнинга под специфические дизайн-задачи.
Поделиться:
ИИ-этика в Unreal Engine: как 3D-аниматоры собирают миллионные просмотры на YouTube Shorts →
Анатомия брусковой антиквы: как TT Rationalist избавился от историзма в версии 1.100 →