Meta выпустила обновление семейства моделей Sapiens2. Архитектура решает четыре базовые задачи машинного зрения: оценка 2D-позы, сегментация частей тела, просчет глубины и генерация карт нормалей. Для обучения датасет из миллиарда исходников отфильтровали до 300 миллионов качественных сэмплов с людьми. В выборке представлены как одиночные фигуры, так и сложные сцены с группами от четырех человек.
Энтузиасты уже перенесли модели в рабочие пайплайны. Разработчик kijai собрал кастомную ноду ComfyUI-Sapiens2. Она позволяет использовать веса локально. Инструмент работает как продвинутый препроцессор для ControlNet. Алгоритм принимает референс и выдает точные маски частей тела или скелеты для последующей генерации.
Интеграция Sapiens2 напрямую в ComfyUI убирает потребность в стороннем софте для трекинга. Модели уверенно справляются со сложными ракурсами и перекрытиями объектов. Вычислительная нагрузка зависит от размера конкретной модели. Базовые версии запускаются на стандартных видеокартах с 8-12 гигабайтами видеопамяти.
Поделиться:
Релиз Mistral Medium 3.5: 128B параметров, контекст 256k и спекулятивное декодирование →
Архитектура и экономика frontier-моделей: лекция Райнера Поупа о стоимости токенов и трейдоффах инференса →