Это один из самых сильных релизов для работы с цифровыми двойниками за последнее время. Meta тихо выкатила коллекцию Sapiens2 — масштабное семейство моделей для фундаментальных задач компьютерного зрения. В основе лежит датасет из 300 миллионов отборных изображений людей, тщательно очищенных от визуального мусора.
Внутри коллекции четыре основных направления, которые выводят анализ человеческого тела на новый уровень. Модель Pose детектирует сразу 308 точек на теле человека, работая как нейромокап высокой точности! Алгоритм Seg умеет дробить силуэт на 29 независимых классов для плотной сегментации. Для интеграции с 3D-пайплайнами подготовили сетки Normal и Pointmap — они генерируют попиксельные карты нормалей и детальные облака точек всего по одному кадру.
Самое ценное в релизе — архитектурная гибкость и открытость. Разработчики выложили веса в размерах от легких версий на 0.4B до тяжеловесных моделей на 5B параметров. Вы можете запустить готовые чекпоинты для конкретной задачи или взять базовый энкодер sapiens2-pretrain для тонкой настройки под собственные пайплайны.
Поделиться:
Релиз Mistral Medium 3.5: 128B параметров, контекст 256k и спекулятивное декодирование →
Архитектура и экономика frontier-моделей: лекция Райнера Поупа о стоимости токенов и трейдоффах инференса →