Kandinsky 6.0 Image Pro: архитектура MoE, интеграция Image RAG и фокус на консистентности редактирования

Сбер перевел генерацию в Kandinsky 6.0 Image Pro на архитектуру MoE и встроил механизм Image RAG для динамического расширения контекста. Главный упор в релизе сделан на редактирование: разработчики сфокусировались на метриках локальной консистентности, геометрии и сохранении стиля при замене объектов. Именно на бесшовном встраивании правок в сцену обычно ломаются пайплайны image editing.

За счет Mixture of Experts, оптимизации механизма внимания и распараллеливания инференса скорость работы выросла более чем на 40% к прошлой версии. По заявленным бенчмаркам модель сейчас работает на уровне Flux 2 Max и обходит GPT Image 1.5 в задачах стилизации, удаления надписей и работы со сложными исходниками вроде архитектурных чертежей.

Интеграция Image RAG меняет подход к обновлению датасетов. Теперь при обработке текстового промпта нейросеть ищет визуальные референсы во внешней базе знаний и добавляет их в контекст на лету. Это снимает необходимость полного переобучения весов, чтобы научить модель генерировать актуальных персонажей или специфичный локальный дизайн. В ближайших апдейтах разработчики обещают открыть доступ к точечному редактированию кистью по маске и работу сразу с тремя визуальными референсами.

Kandinsky 6.0 Image Pro: архитектура MoE, интеграция Image RAG и фокус на консистентности редактирования

Ещё публикации

Kandinsky 6.0 Image Pro: архитектура MoE, интеграция Image RAG и фокус на консистентности редактирования

Ещё публикации