Принято считать, что современные нейросети почти решили проблему быстрого создания 3D-ассетов из 2D-референсов. Но на практике большинство генераторов регулярно теряют детали исходника и искажают геометрию. Обычно базовая форма строится в усредненном пространстве, куда нужные признаки проецируются через механизмы внимания. Такой непрямой подход оставляет слишком много пространства для ошибок при формировании итогового меша.
Исследователи из Tencent попытались исправить этот недостаток в проекте Pixal3D, отказавшись от генерации в нейтральной позе. Вместо этого они используют алгоритм pixel back-projection, переносящий многомасштабные двумерные признаки напрямую в трехмерный объем. Модель сразу формирует геометрию, жестко выровненную по входному ракурсу, что действительно повышает точность совпадения.
Вопрос в том, насколько хорошо эта строгая привязка работает со скрытыми зонами сложного объекта. Разработчики упоминают агрегацию признаков из нескольких видов, но главной проблемой остается галлюцинирование невидимых частей. Впрочем, авторы опубликовали исходный код с весами и прямые сравнения с TRELLIS 2 и HY3D V3.1. Это дает возможность проверить качество реконструкции на практике, а не полагаться исключительно на удачные примеры из статьи.
Поделиться:
Прогрев кеша в Claude API для снижения задержки первого токена (TTFT) →
Эссе Маттиаса Отта о разделении дизайна и разработки как устаревшем индустриальном наследии →