Это самое точное преобразование плоского референса в 3D-объект, которое сейчас можно найти в открытом доступе. Разработчики из Tencent выкатили Pixal3D — генератор, который бьет точно в главную архитектурную боль текущих нейросетей. Обычно модели создают геометрию в абстрактном пространстве, пытаясь натянуть признаки из исходного ракурса через механизмы внимания, из-за чего теряется структура и размываются текстуры.
Здесь подход работает иначе и опирается на методы классической 3D-реконструкции. Авторы используют схему pixel back-projection — они напрямую проецируют многомасштабные 2D-фичи в трехмерный объем признаков. Модель генерирует сетку не в канонической позе, а с жесткой привязкой к пикселям исходного вида. Это дает поразительную точность совпадения: объемная модель буквально вырастает из оригинального референса, сохраняя каждый изгиб без свойственных диффузии галлюцинаций!
Метод оказался универсальным — он легко масштабируется на генерацию из нескольких ракурсов и умеет собирать сложные сцены с жестким разделением объектов. На странице проекта лежат интерактивные ползунки для прямого сравнения с актуальными TRELLIS 2 и HY3D V3.1, где разница в детализации геометрии видна невооруженным глазом. Все исходники, веса модели и демо-стенд уже открыты для локальных тестов.
Поделиться:
Прогрев кеша в Claude API для снижения задержки первого токена (TTFT) →
Эссе Маттиаса Отта о разделении дизайна и разработки как устаревшем индустриальном наследии →