Ideogram 4 открыл веса: 9.3B параметров, нативное 2K и генерация через структурированный JSON

На данный момент это лучшая опенсорсная модель для генерации изображений. Команда Ideogram 4 выложила веса базы на 9.3B параметров, и это обученная с нуля архитектура, а не очередной файнтюн. Из коробки генератор выдает нативное разрешение 2K, поддерживает соотношение сторон до 6:1 и отлично рендерит многоязычный текст. Но самая сильная сторона релиза — кардинально новый подход к составлению запросов.

Модель нативно натренирована на структурированный JSON, а не на сплошной текст. Вы передаете движку объект, где жестко разделены общее описание, параметры стиля и деконструкция композиции. В словаре стиля можно явно задать цветовую палитру через HEX-коды и фокусное расстояние объектива. А блок элементов позволяет расставить объекты по холсту с помощью массива координат bbox. Это дает предсказуемый контроль над пространственным расположением деталей, который раньше требовал дополнительных модулей вроде ControlNet.

Писать запросы кодом руками каждый раз не придется. Разработчики добавили модуль Magic prompt, который на лету конвертирует обычный текст в правильный JSON-формат с помощью LLM. По умолчанию расширение промптов работает бесплатно через серверный API Ideogram. При желании можно прокинуть ключ от OpenRouter и использовать Claude Opus — системные промпты для перевода текста в код полностью открыты.

Ideogram 4 открыл веса: 9.3B параметров, нативное 2K и генерация через структурированный JSON

Ещё публикации

Ideogram 4 открыл веса: 9.3B параметров, нативное 2K и генерация через структурированный JSON

Ещё публикации