SAM 3D Body: новая нейросетевая модель преобразования людей с фото в 3D


Вместе с Objects новое семейство нейросетевых моделей SAM 3D получило ответвление Body для создания трёхмерных моделей человеческий тел. Модель точно оценивает позу и формы человека по одному изображению — по заверению разработчиков, даже в сложных ситуациях, связанных с нестандартными позами, заблокированными участками изображения и несколькими людьми. 

SAM 3D Body использует новый формат 3D-сетки с открытым исходным кодом Momentum Human Rig (MHR) от Meta*, который улучшает интерпретируемость за счёт разделения структуры скелета и формы мягких тканей. Разработчики использовали архитектуру трансформера (кодирование-декодирование) для прогнозирования параметров сетки MHR: кодировщик изображений использует многовходовую конструкцию для захвата деталей частей тела с высоким разрешением, а декодировщик сетки расширен для поддержки прогнозирования на основе подсказок.

Meta утверждает, что новинка точно и надёжно распознаёт человека в 3D, используя «большие объёмы высококачественных данных и продуманную стратегию обучения». Обучение включало «миллиарды» изображений: из разных фотоколлекций, из видео с многокамерных систем и синтетику. Масштабируемый автоматизированный механизм обработки данных искал ценные изображения, выбирая данные с необычными позами и редкими условиями съёмки. Примерно восемь миллионов изображений пошло на обучение устойчивости к окклюзии, редким позам и разнообразной одежде. Подготовка модели идёт с использованием подсказок и многоэтапного уточнения.

Команда разработчиков характеризует SAM 3D Body кардинальным повышением точности и надёжности по сравнению с конкурентами по нескольким 3D-тестам, а также подчёркивает появление параметрической модели человека MHR, на которой работают такие технологии Meta, как Codec Avatars. Она доступна для коммерческого использования с минимальными ограничениями. 

Тем не менее, есть несколько областей, в которых компания признаёт необходимость доработок. SAM 3D Body обрабатывает каждого человека отдельно, не учитывая взаимодействия нескольких людей и человека с объектами. Это ограничивает способность точно оценивать относительное положение и физическое взаимодействие. Следующим шагом развития должно стать включение взаимодействия между людьми, объектами и окружающей средой в процесс обучения. И ещё одним направлением является повышение эффективности оценки положения рук, которая пока не превосходит специализированные инструменты. 

Исходники Body и MHR есть на GitHub. Изучить отчёт о разработке модели можно в PDF

*В России признана экстремистской

Не пропускайте важнейшие новости о дополненной и виртуальной реальности — подписывайтесь на Голографику в Telegram, ВК и Twitter! Поддержите проект на Boosty.

Далее: Reality Labs отчиталась о создании WorldGen, генератора трёхмерных миров по описанию