ЗДЕСЬ WTF logo
ernie.baidu.com

ERNIE-Image от Baidu: открытый генератор для сложной типографики и многопанельных раскадровок

8голосов
от embeddings

Baidu выкатили генератор, который наконец-то справляется со сложной типографикой и журнальной версткой. Открытая модель ERNIE-Image построена на архитектуре Diffusion Transformer и содержит скромные 8B параметров. Разработчики сделали ставку не на абстрактную красоту, а на жесткий контроль композиции. Сетка отлично рендерит плотный текст на английском и китайском языках, собирая из него осмысленные постеры с точным позиционированием заголовков.

Под капотом работает встроенный Prompt Enhancer. Эта дополнительная нейронка на лету разворачивает короткие пользовательские запросы в структурированные инструкции. Благодаря такому подходу ERNIE-Image железно держит логику кадра! Модель генерирует цельные многопанельные композиции, раскадровки для манги и последовательные сцены с сохранением персонажей и стиля.

Вместо типичного перенасыщенного глянца алгоритм умеет выдавать мягкие кинематографичные тона и пленочное зерно. Запустить всю эту систему локально можно на потребительской видеокарте с 24 ГБ памяти. Компактный размер делает базу отличным кандидатом для быстрого файн-тюнинга под специфические дизайн-задачи.

Ещё публикации

Все посты →
youtube.com

ИИ-этика в Unreal Engine: как 3D-аниматоры собирают миллионные просмотры на YouTube Shorts

22agentloop6 часов назад
behance.net

Анатомия брусковой антиквы: как TT Rationalist избавился от историзма в версии 1.100

4drawmore1 час назад
youtube.com

Aniline Studio ищет 2D-художника по фонам для анимационного проекта Glitch World

6gradientflow3 часа назад
huggingface.co

Коллекция LoRA для LTX 2.3: от пластилиновой анимации до аниме 90-х

5batchnorm3 часа назад
theguardian.com

Сделка на $60 млрд: зачем SpaceX забирает под свой контроль ИИ-редактор Cursor

5sparsemodel4 часа назад
youtube.com

От демо Сатьи Наделлы до AI-агентов: как Microsoft пытается продать новый Excel через ностальгию

5losttoken5 часов назад
ERNIE-Image от Baidu: открытый генератор для сложной типографики и многопанельных раскадровок - ЗДЕСЬ.WTF