Нейросеть научили увеличивать разрешение виртуальной реальности в 16 раз

729

ВР-рендеринг в реальном времени представляет собой особый набор задач, главной из которых является необходимость поддержки фотореалистичных эффектов, достижения более высоких разрешений и частот обновления. Чтобы решить эту проблему, исследователи из Facebook Reality Labs разработали DeepFocus, систему рендеринга, которую представили в декабре 2018 года.

DeepFocus использует ИИ-алгоритмы для создания реалистичных изображений в варифокальных очках (очках с переменным фокусом, которых в продаже пока нет). В этом году на конференции SIGGRAPH инженеры представляем следующую главу этой работы.

В докладе для SIGGRAPH, озаглавленном «Нейронный суперсэмплинг для рендеринга в реальном времени» («Neural Supersampling for Real-time Rendering»), описан метод использования нейросетей для преобразования входных изображений с низким разрешением в выходные с высоким. Это полезно для восстановления деталей в кадрах при экономии вычислительных ресурсов.

Facebook утверждает, что перед нами первый метод суперсэмплинга, который достигает 16-кратного суперсэмплинга с высокой пространственной и временной точностью, превосходя результаты предыдущей работы с большим отрывом.

Чтобы сократить затраты на рендеринг для дисплеев с высоким разрешением, метод предполагает работу с входным изображением, которое имеет в 16 раз меньше пикселей, чем желаемый результат. Например, если разрешение целевого дисплея составляет 3840×2160, то нейросеть обрабатывает изображение от игрового движка разрешением 960×540 и увеличивает его до целевого разрешения постобработкой в реальном времени.

Несмотря на то, что проведено огромное количество исследований по изучению повышающей дискретизации для фотографических изображений, ни одно из них не говорит непосредственно об уникальных потребностях в рендеринге контента, такого как изображения, создаваемые движками видеоигр. Это связано с принципиальными различиями в формировании изображений между визуализированными и фотографическими изображениями. При рендеринге в реальном времени каждая выборка является точкой как в пространстве, так и во времени. Вот почему визуализируемый контент обычно имеет большую зашумлённость, имеет неровные линии и другие артефакты сэмплинга, которые можно увидеть в примерах ввода с низким разрешением в этом посте. Это делает повышенную дискретизацию для визуализируемого контента одновременно проблемой сглаживания и интерполяции, в отличие от проблемы шумоподавления и устранения размытия пятен, которая хорошо изучена в существующих исследованиях суперразрешения сообществом компьютерного зрения. Тот факт, что входные изображения имеют большую зашумлённость, и что информация в пикселях, которые должны быть интерполированы, полностью отсутствует, создаёт значительные проблемы для высокоточного и когерентно-временного восстановления визуализированного контента.

Другой стороной вопроса является то, что при рендеринге в реальном времени можно получить больше, чем цветные изображения, создаваемые камерой. Как показывает исследование DeepFocus, современные движки предоставляют вспомогательную информацию, вроде значения удалённости или глубины.

Для нейросетевого суперсэмплинга вспомогательная информация о векторах движения оказалась особенно полезной. Векторы определяют геометрические соответствия между пикселями в последовательных кадрах. Другими словами, каждый вектор движения указывает на субпиксельное местоположение, где точка поверхности, видимая в одном кадре, могла появиться в предыдущем.

Эти значения обычно оцениваются методами компьютерного зрения для фотографических изображений, но такие алгоритмы оценки подвержены ошибкам. В отличие от них, механизм рендеринга может непосредственно генерировать плотные векторы движения, тем самым обеспечивая надёжные, богатые на информацию вводные для нейросуперсэмплинга.

Инженерам Facebook удалось объединить вспомогательную информацию с новым пространственно-временным дизайном нейронной сети, который нацелен на максимальное качество изображений и видео в реальном времени.

Нейронная сеть с контролируемым обучением принимает в качестве входных данных атрибуты рендеринга (цвет, карту глубины и плотные векторы движения на кадр) текущего и нескольких предыдущих кадров с низким разрешением. Выходной сигнал сети представляет собой цветное изображение высокого разрешения, соответствующее текущему кадру. Во время обучения в качестве целевого изображения для оптимизации обучения предоставляется эталонное изображение, которое визуализируется с высоким разрешением методами сглаживания в паре с каждым входным кадром низкого разрешения.

Ниже расположены примеры результатов. Сверху вниз показаны отображаемые входные данные с низким разрешением, 16-кратный результат суперсэмплинга с помощью представленного метода и автономное целевое изображение высокого разрешения.

С подробностями работы вы можете ознакомиться в оригинальной статье в PDF.

Не пропускайте важнейшие новости о дополненной, смешанной и виртуальной реальности — подписывайтесь на Голографику в TelegramВКTwitter и Facebook!    

Далее: Facebook решила проблему безумных глаз у суперреалистичных аватаров