Facebook Reality Lab представила исследование, которое расширяет возможности передачи мимики от человека в очках виртуальной реальности его аватару. Целью работы, помимо возможности полноценно общаться в ВР, является создание настолько реалистичных аватаров, что они могли бы преодолеть заложенное в нашей психике отвращение к имитации человека — эффект «зловещей долины» («uncanny valley»).
Большинство аватаров, используемых сегодня в виртуальной реальности, скорее мультяшные, чем человекоподобные. Это способ избежать проблемы «зловещей долины», когда по мере усиления реалистичности аватары становятся более отталкивающими — но всё ещё недостаточно реалистичными, чтобы транслировать мимику настоящего человека за ними.
Проект «Codec Avatar» из Facebook Reality Lab, отдела исследований в области дополненной и виртуальной реальности, направлен на преодоление данной проблемы с помощью машинного обучения и компьютерного зрения. Сотрудники Facebook и их коллеги из научных учреждений демонстрируют впечатляющие результаты, обучив компьютер понимать, как выглядит лицо человека, и воссоздавать его на основе данных с обращённых к лицу камер очков.
Трудно точно воссоздать лицо в динамике. А дополнительным осложнением является регулярно возникающая в ряде «крайних» случаев неестественная передача движений, которая для зрителя погружает, казалось, удачный аватар обратно «зловещую долину». Получается настоящий фильм ужасов.
По словам исследователей Facebook, большая проблема заключается в том, что «непрактично иметь единообразную выборку всех возможных [мимических] выражений», потому что возможности человека в этом деле слишком богаты. В итоге это приведёт к пробелам в системе и путанице при её попытке отразить нечто новое.
Исследователи Ханг Чу (Hang Chu), Шугао Мало (Shugao Ma), Фернандо Де ла Торре (Fernando De la Torre), Санья Фидлер (Sanja Fidler) и Ясер Шейх (Yaser Sheikh) из Университета Торонто, Vector Institute и Facebook Reality Lab предлагают решение в свежей статье под названием «Expressive Telepresence via Modular Codec Avatars».
Исходная система Codec Avatars пытается сопоставить полное выражение лица из своего набора данных с входными данными, которые видит. Модульный аналог делит задачу на составные части, такие как каждый глаз и рот, что позволяет синтезировать наиболее точную позу через объединение лучшей группы данных для текущего состояния.
Modular Codec Avatars берёт информацию с каждой отдельной камеры, установленной на очках. Затем в работу вступает синтезатор, который оценивает полное выражение лица вместе с его коэффициентами соответствия на базе информации в той же модульной ветви. Наконец, несколько подобранных 3D-лиц смешиваются, чтобы сформировать окончательный результат.
Система может относительно точно представить пользователя без необходимости вводить дополнительные обучающие данные и находить полные соответствия.
Преимуществом этого подхода является улучшение способности системы воссоздавать новые выражения лиц, которым она не была обучена. Это полезно, когда люди намеренно строят рожи. В обычной жизни мы делаем это куда реже, чем улыбаемся или хмуримся, но это всё ещё важная часть нашего социального взаимодействия. Проще говоря, Modular Codec Avatars обеспечивает нашим аватарам недостающую выразительность, заодно устраняя недостатки распознавания позиции глаз.
Исследователи подчёркивают, что «вместо использования линейных или неглубоких элементов на 3D-сетке», как в предыдущих методах, новый метод использует модули в «скрытых местах, изученных глубокими нейронными сетями». Это позволяет распознавать «сложные нелинейные эффекты и создавать лицевую анимацию с новым уровнем реализма».
Таким образом, система ещё требует сканирования лиц, но отчасти уже полагается на нейросетевое моделирование. Это приближает момент, когда пользователи смогут вкусить преимущества Codec Avatars дома без предварительных сложных и дорогих процедур.
Не пропускайте важнейшие новости о дополненной, смешанной и виртуальной реальности — подписывайтесь на Голографику в Telegram, ВК, Twitter и Facebook!
Далее: VRChat перевёл аватары в версию 3.0