Исследователи из Runway и Тель-Авивского университета представили ShapeUP — фреймворк для изменения существующих 3D-моделей с помощью изображений-референсов. Архитектура построена на базе 3D Diffusion Transformer (DiT) и решает задачу как supervised latent-to-latent перевод внутри нативного 3D-представления. Это позволяет редактировать геометрию или текстуру исходного ассета, опираясь на визуальную подсказку, минуя медленные методы пошаговой оптимизации.
Процесс разделен на два пайплайна. Для изменения геометрии исходная форма кодируется в латентное пространство, после чего диффузионная модель, дообученная через адаптеры LoRA, трансформирует ее под 2D-условие. При редактировании текстур многоракурсные рендеры оригинала подаются через слои кросс-внимания вместе с промптом. В результате модель локализует изменения без явных масок — новые детали генерируются согласно запросу, при этом нетронутые участки сохраняют строгую структурную идентичность с изначальным объектом.
Для обучения авторы использовали триплеты из исходной формы, отредактированной картинки и финальной 3D-модели. Вместе с фреймворком опубликован датасет BenchUp для количественной оценки подобных задач по метрикам соответствия условию и сохранения скрытых областей. Код проекта пока готовится к публикации, однако сам подход демонстрирует, как прямое обучение поверх базовых 3D-моделей решает проблему визуального дрейфа, характерную для большинства методов многоракурсной 2D-проекции.
Поделиться:
Рейтинг Image-to-Video: модели Bytedance и Alibaba обошли Google и xAI →
Конвейерная 3D-анимация для YouTube Shorts: экономика и производственный пайплайн faceless-каналов →