Открытая нейросетевая модель Apple может мгновенно сгенерировать объёмную сцену по одной фотографии


Группа исследователей под патронажем Apple представила модель SHARP для превращения обычных фотографий в объёмные монокулярные сцены с помощью технологии гауссова распределения. Она выполняет задачу со скоростью 100 кадров в секунду за один проход на стандартном графическом процессоре Nvidia A100, а на выходе получается изображение высокого качества.

Авторы работы добились своих результатов в два этапа обучения. На первом обучили модель за 100 000 шагов на 128 ускорителях A100, используя только синтетические данные. Затем провели дополнительное самообучение за 60 000 шагов на 32 графических процессорах.

Представление является метрическим, с абсолютным масштабом, то есть поддерживает метрические движения камеры. По сравнению с лучшей предыдущей моделью новинка сокращает время синтеза на два-три порядка и выдаёт файл с 1,2 млн гауссиан вне зависимости от разрешения исходника, а пустые места оставляет пустыми, не заполняя галлюцинациями. Объём появляется за счёт близлежащих планов.

Среди основных достижений в работе команда назвала следующие:

  • Сквозная архитектура сети. Она может обучаться сквозным методом для прогнозирования трёхмерных изображений на базе гауссова распределения
  • Надёжная и эффективная конфигурация функции потерь, которая обеспечивает приоритет качества синтеза, сохраняя стабильность обучения и подавляя распространённые визуальные артефакты
  • Модуль выравнивания по глубине, который может разрешать неоднозначности глубины во время обучения, что является фундаментальной проблемой для методов синтеза изображений на основе регрессии

В качестве очевидных сценариев развития технологии авторы называют расширение методологии для поддержки фотореалистичного синтеза удалённых объектов без ущерба для главных.

Получившиеся материалы можно смотреть в доступных любому потребителю программах воспроизведения сцен на основе гауссова распределения. Модель распространяется свободно, скачать её можно на GitHub. Эксперименты энтузиастов подтверждают слова Apple о качестве и скорости модели.

Не пропускайте важнейшие новости о дополненной и виртуальной реальности — подписывайтесь на Голографику в Telegram, ВК и Twitter! Поддержите проект на Boosty.

Далее: Reality Labs отчиталась о создании WorldGen, генератора трёхмерных миров по описанию