Нейромодель REFA улучшила отслеживание мимики в очках виртуальной реальности


Исследователи Reality Labs представили REFA (Real-time Egocentric Facial Animations) — систему отслеживания мимики в автономных очках виртуальной реальности в реальном времени на основе изображений с инфракрасных камер во внутренней части корпуса. Технология позволяет управлять выражением лиц аватаров без сложной предварительной калибровки и внешних камер. 

В основе решения лежат пять инфракрасных камер, интегрированных в корпус очков. Они фиксируют лицо пользователя в непосредственной близости так, чтобы отслеживать движения глаз, рта и области между бровями, несмотря на частичное перекрытие лица самим устройством. Такой захват помогает собирать последовательности изображений даже при слабом внешнем освещении. 

Чтобы обучить нейросетевую модель, авторы собрали обширный набор данных, в который вошли записи примерно 18 000 человек с разнообразными выражениями лиц. Сбор вели с помощью модифицированных очков и смартфона, который фиксировал лица без перекрытия очками для получения полных исходных данных.

Вместо ручной разметки авторы разработали конвейер на основе дифференцируемого рендеринга, который автоматически генерирует метки выражений на основе сопоставления синтезированных и реальных инфракрасных кадров. Такая автоматическая генерация «эталонных» меток позволяет обучать нейросеть без участия операторов. 

Модель инженеров Meta* обучается с использованием итеративной дистилляции, последовательного обучения на сочетании синтетических, реальных и экспертно смоделированных данных. В отчёты указано, что синтетический датасет содержит порядка 25 млн сгенерированных кадров с точными метками, что помогает улучшить работу модели на редких или сложных случаях. 

REFA предсказывает коэффициенты blendshape — типа параметров, широко используемые в анимации мимики цифровых персонажей. Модель оперирует 53 базовыми компонентами (blendshape-коэффициентами), а также векторными параметрами направления взгляда. Это обеспечивает компактное, семантически понятное представление мимики, удобное для интеграции в ВР-приложения. 

Препринт также приводит конкретные технические параметры: инфракрасные камеры работают с разрешением 400×400 пикселей и частотой 30 кадров в секунду, что даёт поток данных, пригодный для работы в реальном времени. Использование описанных методик позволяет значительно улучшить точность предсказания мимики по сравнению с более простыми аналогами, а также повысить устойчивость к шумам на входных изображениях. 

В результате авторам работы удалось сделать промышленно применимую систему отслеживания мимики, которая работает на мобильных процессорах в реальном времени, не требует внешних камер или студийного захвата, не нуждается в ручной разметке данных, масштабируемо обучается на миллионах синтетических кадров и выдаёт широко принятый иммерсивной индустрией формат данных.

*В России признана экстремистской

Не пропускайте важнейшие новости о дополненной и виртуальной реальности — подписывайтесь на Голографику в Telegram, ВК и Twitter! Поддержите проект на Boosty.

Далее: Gemini научили превращать задумки в сцены дополненной реальности