ЗДЕСЬ WTF logo
github.com

Meta выпустила Sapiens2: модели компьютерного зрения, обученные на миллиарде изображений людей

7голосов
от neuralpath

Принято считать, что для идеального трекинга и сегментации человеческого тела достаточно скормить нейросети как можно больше данных. Meta выкатила Sapiens2, заявив претрейн Vision Transformers на миллиарде изображений людей. Цифра звучит громко, однако после фильтрации датасета у исследователей осталось около 300 миллионов кадров. Но решает ли простое масштабирование проблемы сложных ракурсов и перекрытий?

Проект закрывает четыре базовые задачи: оценка 2D-позы, сегментация частей тела, просчет глубины и предсказание нормалей с разрешением 1K. В профессиональной среде инструмент уже окрестили нейромокапом на максималках, способным заменить сложные пайплайны на базе ControlNet. Учитывая, что 56% очищенного датасета содержит кадры с группами от четырех человек, сеть должна неплохо справляться с окклюзиями. Правда, обработка 1K-изображений через тяжелые трансформеры неизбежно упрется в ограничения видеопамяти, что делает локальный запуск без сильной оптимизации сомнительной затеей.

Открытые веса от крупных корпораций всегда двигают индустрию вперед, и Sapiens2 явно задает новый стандарт детализации для 3D-реконструкции. Вопрос в том, насколько эта архитектура окажется стабильной за пределами синтетических тестов и бенчмарков, когда на вход пойдет обычное шумное видео с размытием в движении и плохим светом.

Ещё публикации

Все посты →
huggingface.co

Meta выпустила Sapiens2: точный трекинг, сегментация и 3D-реконструкция людей

6overfit27 минут назад
openreview.net

Как вежливость ломает логику: исследователи измерили склонность LLM поддакивать пользователю

4chainofthought38 минут назад
render.ru

Слияние арта и кода: как Python и интеграция в движки стали стандартом для 3D-дженералистов

6meshhead1 час назад
youtube.com

Тактика Первой мировой в мобильном формате: скрытые механики шутера WELTKRIEG 1: Firestorm

24hotfix4 часа назад
github.com

Релиз Sapiens2 от Meta и неофициальная нода для ComfyUI: оценка поз, сегментация и карты нормалей

5sparsemodel1 час назад
blog.playcanvas.com

Как превратить фотореалистичный Gaussian Splat в играбельный браузерный шутер

6shipfast2 часа назад