Принято считать, что современные image-to-3D модели уже справляются со своей задачей, раз на выходе получается аккуратная сетка. На деле большинство генераторов строят форму в абстрактном каноническом пространстве, а детали из исходника подтягивают через механизм внимания. Связь между исходными пикселями и итоговым объемом остается условной, из-за чего неизбежно теряется точность.
Исследователи из Tencent выпустили Pixal3D — генератор, который пытается отказаться от этой абстракции. Вместо косвенных связей алгоритм использует pixel back-projection, напрямую проецируя многомасштабные 2D-признаки в 3D-объем. В теории это решает проблему потери деталей: видимая часть объекта жестко привязывается к пространственным координатам. Авторы заявляют, что их метод приближается по точности к классической реконструкции.
Правда, возникает закономерный вопрос: как эта жесткая привязка к ракурсу ведет себя на невидимых сторонах объекта? Алгоритму в любом случае приходится галлюцинировать скрытую геометрию, и здесь прямое проецирование может провоцировать артефакты на границах видимости. На странице проекта представлены убедительные интерактивные сравнения с TRELLIS 2 и HY3D V3.1, но насколько заявленная пиксельная точность масштабируется за пределы выверенных бенчмарков — покажет только тестирование открытых весов в рабочих пайплайнах.
Поделиться:
Прогрев кеша в Claude API для снижения задержки первого токена (TTFT) →
Эссе Маттиаса Отта о разделении дизайна и разработки как устаревшем индустриальном наследии →