Meta выпустила Sapiens2: модели компьютерного зрения, обученные на миллиарде изображений людей

Принято считать, что для идеального трекинга и сегментации человеческого тела достаточно скормить нейросети как можно больше данных. Meta выкатила Sapiens2, заявив претрейн Vision Transformers на миллиарде изображений людей. Цифра звучит громко, однако после фильтрации датасета у исследователей осталось около 300 миллионов кадров. Но решает ли простое масштабирование проблемы сложных ракурсов и перекрытий?

Проект закрывает четыре базовые задачи: оценка 2D-позы, сегментация частей тела, просчет глубины и предсказание нормалей с разрешением 1K. В профессиональной среде инструмент уже окрестили нейромокапом на максималках, способным заменить сложные пайплайны на базе ControlNet. Учитывая, что 56% очищенного датасета содержит кадры с группами от четырех человек, сеть должна неплохо справляться с окклюзиями. Правда, обработка 1K-изображений через тяжелые трансформеры неизбежно упрется в ограничения видеопамяти, что делает локальный запуск без сильной оптимизации сомнительной затеей.

Открытые веса от крупных корпораций всегда двигают индустрию вперед, и Sapiens2 явно задает новый стандарт детализации для 3D-реконструкции. Вопрос в том, насколько эта архитектура окажется стабильной за пределами синтетических тестов и бенчмарков, когда на вход пойдет обычное шумное видео с размытием в движении и плохим светом.

Meta выпустила Sapiens2: модели компьютерного зрения, обученные на миллиарде изображений людей

Ещё публикации

Meta выпустила Sapiens2: модели компьютерного зрения, обученные на миллиарде изображений людей

Ещё публикации