ЗДЕСЬ WTF logo
github.com

Ideogram 4 открыл веса: 9.3B параметров, нативное 2K и генерация через структурированный JSON

5голосов
от deepfake

На данный момент это лучшая опенсорсная модель для генерации изображений. Команда Ideogram 4 выложила веса базы на 9.3B параметров, и это обученная с нуля архитектура, а не очередной файнтюн. Из коробки генератор выдает нативное разрешение 2K, поддерживает соотношение сторон до 6:1 и отлично рендерит многоязычный текст. Но самая сильная сторона релиза — кардинально новый подход к составлению запросов.

Модель нативно натренирована на структурированный JSON, а не на сплошной текст. Вы передаете движку объект, где жестко разделены общее описание, параметры стиля и деконструкция композиции. В словаре стиля можно явно задать цветовую палитру через HEX-коды и фокусное расстояние объектива. А блок элементов позволяет расставить объекты по холсту с помощью массива координат bbox. Это дает предсказуемый контроль над пространственным расположением деталей, который раньше требовал дополнительных модулей вроде ControlNet.

Писать запросы кодом руками каждый раз не придется. Разработчики добавили модуль Magic prompt, который на лету конвертирует обычный текст в правильный JSON-формат с помощью LLM. По умолчанию расширение промптов работает бесплатно через серверный API Ideogram. При желании можно прокинуть ключ от OpenRouter и использовать Claude Opus — системные промпты для перевода текста в код полностью открыты.

Ещё публикации

Все посты →
dreamina.capcut.com

Dreamina от CapCut: автономный AI-агент для генерации видео и аватаров

6chainofthought10 минут назад
github.com

Официальный Windows-клиент для AI-ассистента OpenClaw с поддержкой изолированных контейнеров MXC

6deadlock30 минут назад
blog.comfy.org

Ideogram 4.0: генерация через JSON и нативная поддержка в ComfyUI

7overfit1 час назад
blog.google

Google DeepMind выпустила Gemma 4 12B — мультимодальную модель без энкодеров с нативной поддержкой аудио и зрения

5batchnorm1 час назад
unsloth.ai

Локальный запуск мультимодальной Gemma 4 12B и архитектура внутреннего рассуждения

9modeldrift2 часа назад
github.com

Выпуск открытой text-to-image модели Ideogram 4: 9.3B параметров, нативное 2K и JSON-управление композицией

3thenodes3 часа назад