Исследователи Meta* показали, как комплексы генеративных нейросетей модели могут создавать трёхмерные сцены из одного изображения. В перспективе это может ускорить прототипирование трёхмерных пространств или их создание в развлекательных целях по одной фотографии, рисунку или кадру, сгенерированному нейросетью по текстовому описанию.
Группа исследователей из офиса Reality Labs в Цюрихе представила свой подход к реализации этой задумки. Существующие генеративные модели могут создавать видео из одного изображения, но им трудно делать так полностью трёхмерные сцены. Новый конвейер, судя по результатам его тестирования, превосходит методы синтеза видео по нескольким показателям качества изображения, требуя минимальных усилий на обучение и работая на уже доступных моделях.
Авторы описывают идею как раскладывание сложной и неоднородной задачи создания 3D-среды из одного изображения на ряд более управляемых подзадач, каждую из которых можно решать с помощью существующих методов.
Процесс включает два этапа: создание согласованных панорам с использованием предварительно обученной диффузионной модели и перевод их в 3D с помощью метрической оценки глубины. Затем идёт заполнение ненаблюдаемых областей закрашиванием облаков точек, что якобы требует минимальной настройки.
Выходным продуктом такого конвейера является 3D-среда, визуализированная с помощью гауссового распределения, которую можно просматривать с перемещением в пределах куба со стороной два метра в очках виртуальной реальности. Метод работает как с синтетическими изображениями, так и с фотографиями. Входными данными могут быть даже текстовые описания.
В исследовательской работе упоминаются некоторые ограничения и проблемы. Например, трудно расширить область навигации за пределы двух метров, так как это значительно увеличивает сложность задачи. Кроме этого конвейер пока не поддерживает синтез сцены в реальном времени.
*В России признана экстремистской
Не пропускайте важнейшие новости о дополненной и виртуальной реальности — подписывайтесь на Голографику в Telegram, ВК и Twitter! Поддержите проект на Boosty.
Далее: ByteDance представила перспективный метод нейросетевого трекинга всего тела в очках Pico