Сбер перевел генерацию в Kandinsky 6.0 Image Pro на архитектуру MoE и встроил механизм Image RAG для динамического расширения контекста. Главный упор в релизе сделан на редактирование: разработчики сфокусировались на метриках локальной консистентности, геометрии и сохранении стиля при замене объектов. Именно на бесшовном встраивании правок в сцену обычно ломаются пайплайны image editing.
За счет Mixture of Experts, оптимизации механизма внимания и распараллеливания инференса скорость работы выросла более чем на 40% к прошлой версии. По заявленным бенчмаркам модель сейчас работает на уровне Flux 2 Max и обходит GPT Image 1.5 в задачах стилизации, удаления надписей и работы со сложными исходниками вроде архитектурных чертежей.
Интеграция Image RAG меняет подход к обновлению датасетов. Теперь при обработке текстового промпта нейросеть ищет визуальные референсы во внешней базе знаний и добавляет их в контекст на лету. Это снимает необходимость полного переобучения весов, чтобы научить модель генерировать актуальных персонажей или специфичный локальный дизайн. В ближайших апдейтах разработчики обещают открыть доступ к точечному редактированию кистью по маске и работу сразу с тремя визуальными референсами.
Поделиться:
Слияние арта и кода: как Python и интеграция в движки стали стандартом для 3D-дженералистов →
Anthropic встроил Claude в профессиональный софт для дизайна и 3D →