Новая нейросеть Meta* генерирует реалистичный аватар по четырём селфи


Исследователи Meta* создали «большую модель реконструкции» (large reconstruction model, LRM) — нейросеть которая может генерировать анимируемую фотореалистичную голову аватара за считанные минуты всего из четырёх селфи.

Одной из самых больших проблем для фотореалистичных аватаров является объём данных и время, необходимое для их генерации. Для системы самого высокого качества Meta требуется очень дорогая специализированная установка с более чем 100 камерами. Компания продемонстрировала исследования по созданию аватаров более низкого качества с помощью сканирования смартфона, но для этого требовалось сделать 65 выражений лица в течение более трех минут, а для обработки полученных данных на машине с четырьмя очень дорогими и производительными графическими картами потребовалось несколько часов.

В новой статье под названием Avat3r, исследователи из Meta и Мюнхенского технического университета представляют систему, которая может генерировать анимированную фотореалистичную голову аватара всего из четырёх снимков в телефона, при этом обработка занимает минуты, а не часы.

На техническом уровне Avat3r использует концепцию большой модели реконструкции с работой трансформера для визуальных 3D-задач в том же смысле, в каком большие языковые модели делают это для естественного языка. Такой подход называют визуальным трансформером. Он прогнозирует набор 3D-гауссиан, похожих на гауссово распределение, о котором вы могли слышать в контексте фотореалистичной передачи сцен реального мира в ПО вроде Varjo Teleport, Horizon Hyperscapes, Gracia или Scaniverse.

Конкретная реализация Avat3r не подразумевает управление датчиками отслеживания лица и глаз в очках, но нет причин, по которым это нельзя было бы сделать. Однако, хотя требования к данным и вычислениям для генерации удивительно низки, модель совершенно не подходит для рендеринга в реальном времени. По словам исследователей, система в эксперименте работает всего на восьми кадрах в секунду на графической карте RTX 3090. Для ввода такой генерации в строй потребуется, как минимум, следующее поколение технологии. 

*В России признана экстремистской

Не пропускайте важнейшие новости о дополненной и виртуальной реальности — подписывайтесь на Голографику в Telegram, ВК и Twitter! Поддержите проект на Boosty.

Далее: Meta*: больше всего времени пользователи Quest тратят в бесплатных приложениях