Инженеры Intel Labs создали ИИ-модель для генерации панорамных изображений с картами глубины

236

Intel Labs, исследовательское подразделение Intel, в сотрудничестве с Blockade Labs представило Latent Diffusion Model for 3D (LDM3D), диффузионную нейросетевую модель для создания 3D-контента. Авторы утверждают, что это первая подобная модель, объединяющая RGB-изображение с картой глубины для создания трёхмерных изображений с 360-градусным обзором.

Генерация сферических изображений с картой глубины открывает новые сценарии применения искусственного интеллекта. Это не только более реалистичные сцены с полным погружением, но и готовые площадки для наложения другой графики с перемещением зрителя внутри. Сегодня трудно представить, где такой продукт проявит себя лучше всего, но воображение рисует эксперименты, как минимум, в дизайне интерьеров, развлечениях и игровой индустрии.

Большинство сегодняшних генеративных моделей ИИ, — отмечает Васудев Лал, научный сотрудник Intel Labs, — ограничены созданием 2D-изображений, и лишь очень немногие могут генерировать 3D-изображения из текстовых подсказок. В отличие от существующих моделей скрытой стабильной диффузии, LDM3D позволяет пользователям генерировать изображение и карту глубины из заданной текстовой подсказки, используя почти такое же количество параметров. Она обеспечивает более точную относительную глубину для каждого пикселя изображения по сравнению со стандартными методами постобработки для оценки глубины и экономит разработчикам значительное время при создании сцен.

LDM3D обучили на образцах из исследовательской базы данных LAION-400M, которая содержит более 400 миллионов пар изображений и подписей. Для определения относительной глубины каждого пикселя команда использовала модель Dense Prediction Transformer (DPT), разработанную в Intel Labs ранее. Обучение прошло на суперкомпьютере Intel AI на процессорах Xeon и нейроускорителях Habana Gaudi.

Для демонстрации LDM3D исследователи Intel и Blockade разработали приложение DepthFusion. Анализируя текстовые задания, оно генерирует обычные 2D-фотографии и карты глубины, превращая их в контент со сферическим обзором.

Дополнительную техническую информацию о проекте вы сможете найти на HuggingFace. А в видео можно ознакомиться с образцами сгенерированных панорам.

Не пропускайте важнейшие новости о дополненной и виртуальной реальности — подписывайтесь на Голографику в Telegram, ВК и Twitter! Поддержите проект на Boosty.

Далее: Угловое разрешение: почему для очков оно важнее, чем пиксели на дисплее