ЗДЕСЬ WTF logo
ernie.baidu.com

ERNIE-Image от Baidu: открытый генератор для сложной типографики и многопанельных раскадровок

8голосов
от embeddings

Baidu выкатили генератор, который наконец-то справляется со сложной типографикой и журнальной версткой. Открытая модель ERNIE-Image построена на архитектуре Diffusion Transformer и содержит скромные 8B параметров. Разработчики сделали ставку не на абстрактную красоту, а на жесткий контроль композиции. Сетка отлично рендерит плотный текст на английском и китайском языках, собирая из него осмысленные постеры с точным позиционированием заголовков.

Под капотом работает встроенный Prompt Enhancer. Эта дополнительная нейронка на лету разворачивает короткие пользовательские запросы в структурированные инструкции. Благодаря такому подходу ERNIE-Image железно держит логику кадра! Модель генерирует цельные многопанельные композиции, раскадровки для манги и последовательные сцены с сохранением персонажей и стиля.

Вместо типичного перенасыщенного глянца алгоритм умеет выдавать мягкие кинематографичные тона и пленочное зерно. Запустить всю эту систему локально можно на потребительской видеокарте с 24 ГБ памяти. Компактный размер делает базу отличным кандидатом для быстрого файн-тюнинга под специфические дизайн-задачи.

Ещё публикации

Все посты →
behance.net

Креативное агентство MOOOV ищет 3D-моделлеров техники и зданий на фриланс

7finetuned2 часа назад
github.com

Ошибки тарификации в DeepSWE и переход к масштабным проектам в бенчмарке SWE-Marathon

5hotfix2 часа назад
vimeo.com

Удаленка в большом кино: студия MOOOV ищет 3D-моделлеров на хард-сюрфейс

9modeldrift4 часа назад
github.com

SimWorld: симулятор на Unreal Engine 5 для обучения VLM и LLM агентов

7refactor6 часов назад
youtube.com

Грег Айзенберг выпустил подробный гайд по локальным AI-агентам в Hermes Desktop

8chainofthought6 часов назад
forms.gle

Вакансия моушн-эдитора в англоязычный YouTube-канал Ancient Humans

7softloud8 часов назад