
Компания Apple и Гонконгский университет разработали новый метод рендеринга на основе гауссова распределения, который может существенно ускорить прогрузку трёхмерных сцен до высокого визуального качества. Технология в определённых задачах способна повысить графическую производительность очков виртуальной и смешанной реальности из Купертино.
Проблематика
Реконструкция сложных сцен и создание высококачественных изображений — фундаментальные задачи в компьютерном зрении и графике. Системы, решающие их, должны обладать двумя основными возможностями:
- эффективно реконструировать за один проход по нейросетевой модели для восстановления сцен в реальном времени без покадровой оптимизации;
- отрисовывать графику высокого разрешения, чтобы обеспечить визуальную точность для зрителя.
Apple подчёркивает, что эти возможности имеют решающее значение в пространственных вычислениях, которые предъявляют строгие требования к производительности в реальном времени и качеству изображения и обладают легко нарушаемым эффектом погружения.
Вместе с тем, старые методы однопроходной трёхмерной реконструкции работают только с разрешением в сотни пикселей. Количество гауссовых функций увеличивается квадратично с размером изображения; например, масштабирование от разрешения 512 пикселей по стороне до 4K требует 64-кратного увеличения количества гауссовых функций. Для высоких разрешений затраты на предсказание сети и рендеринг гауссовых функций становятся неприемлемо высокими.
Кроме того стандартная 3D-модель с гауссовым распределением связывает информацию о внешнем виде и геометрию внутри каждого примитива, что требует большого количества гауссовых функций для представления текстурированных областей, даже на поверхностях с простой геометрией. Отрасль уже предлагала методы текстурирования с использованием гауссовых функций для уменьшения количества примитивов, они по-прежнему требуют оптимизации для каждой сцены и не могут масштабироваться на разные сцены с прямым распространением.
LGTM
Для решения этих задач команда предложила нейросетевую архитектуру LGTM (Less Gaussians, Texture More — меньше гауссиан, больше текстуры). Это модель прямого распространения, которая предсказывает гауссовы текстуры для синтеза новых изображений высокого разрешения. Основная идея в разделении предсказания геометрических параметров и предсказания текстур на уровне примитивов с помощью двухсетевой архитектуры.

В такой архитектуре сеть обработки примитивов работает с входными данными низкого разрешения для предсказания компактного набора геометрических примитивов. В то же время сеть обработки текстур получает входные данные высокого разрешения для предсказания детализированной текстурной карты для каждого примитива. Она извлекает признаки посредством фрагментации изображений и проекционного отображения, а затем объединяет их с геометрическими признаками из сети обработки примитивов.
Команда применила поэтапную стратегию обучения: сначала предварительно обучила базовую нейронную сеть для создания надёжной геометрической основы, а затем доучила её совместно с текстурной сетью, чтобы обогатить графику деталями.
В результате платформа позволяет генерировать детализированные сцены в разрешении 4K без квадратичного роста вычислительных затрат.
С подробным описанием технологии можно ознакомиться в научном докладе.
Не пропускайте важнейшие новости о дополненной и виртуальной реальности — подписывайтесь на Голографику в Telegram, ВК и Twitter! Поддержите проект на Boosty.
Далее: Unigine SDK 2.21: улучшения гауссова распределения, поддержка CAVE, лётные и ремонтные ВР-шаблоны



