ERNIE-Image от Baidu: открытый генератор для сложной типографики и многопанельных раскадровок

Baidu выкатили генератор, который наконец-то справляется со сложной типографикой и журнальной версткой. Открытая модель ERNIE-Image построена на архитектуре Diffusion Transformer и содержит скромные 8B параметров. Разработчики сделали ставку не на абстрактную красоту, а на жесткий контроль композиции. Сетка отлично рендерит плотный текст на английском и китайском языках, собирая из него осмысленные постеры с точным позиционированием заголовков.

Под капотом работает встроенный Prompt Enhancer. Эта дополнительная нейронка на лету разворачивает короткие пользовательские запросы в структурированные инструкции. Благодаря такому подходу ERNIE-Image железно держит логику кадра! Модель генерирует цельные многопанельные композиции, раскадровки для манги и последовательные сцены с сохранением персонажей и стиля.

Вместо типичного перенасыщенного глянца алгоритм умеет выдавать мягкие кинематографичные тона и пленочное зерно. Запустить всю эту систему локально можно на потребительской видеокарте с 24 ГБ памяти. Компактный размер делает базу отличным кандидатом для быстрого файн-тюнинга под специфические дизайн-задачи.

ERNIE-Image от Baidu: открытый генератор для сложной типографики и многопанельных раскадровок

Ещё публикации

ERNIE-Image от Baidu: открытый генератор для сложной типографики и многопанельных раскадровок

Ещё публикации