
Meta* представила WorldGen, нейросетевую систему автоматического создания интерактивных трёхмерных миров по текстовым запросам. Технология сочетает процедурный анализ, диффузионную 3D-генерацию и объектно-ориентированную декомпозицию сцен. В результате получаются геометрически согласованные, визуально насыщенные и эффективные с точки зрения рендеринга трёхмерные миры для игр, симуляций и общения.
WorldGen, по словам представителей Reality Labs, объединяет и совершенствует ряд существующих технологий генерации 2D и 3D: сначала она создаёт двухмерное изображение трёхмерной сцены, а затем преобразует его в трёхмерный комплекс.
Этапы работы WorldGen:
- Планирование:
- Процедурное генерирование черновика
- Извлечение навигационной сетки
- Создание референтного изображения
- Реконструкция
- Базовая модель изображения в 3D
- Генерация сцены на основе навигационной сетки
- Генерация исходной текстуры сцены
- Декомпозиция
- Извлечение деталей с помощью ускоренного AutoPartGen для сцен
- Отбор данных для декомпозиции сцены
- Уточнение
- Улучшение изображения
- Модель уточнения сетки
- Модель текстурирования

Meta отмечает, что другие методы генерируют интерактивные 3D-миры из изображения или текстовой подсказки на основе одной заданной точки обзора и строят их на ней, а не на основе глобального референтного изображения или полного макета. Хотя геометрия и текстуры вблизи центральной точки обзора имеют высокое качество, они быстро начинают ухудшаться при удалении всего на 3–5 метров.
Для сравнения, WorldGen может генерировать единой областью полностью текстурированные сцены размером 50×50 метров, сохраняя стилистическую и геометрическую целостность на протяжении всего процесса. Планируется расширение эффективного масштаба.
Работа находится на стадии исследований и недоступна разработчикам, но генерируемый контент, по заявлению компании, совместим со стандартными игровыми движками, включая Unity и Unreal Engine, без дополнительных преобразований или конвейеров рендеринга. Однако в WorldGen есть ограничения: например, масштабы и время генерации.
Большие открытые миры, охватывающие километры, изначально не поддерживаются и потребуют генерации и сшивания нескольких локальных областей, что может привести к неплавным переходам или визуальным артефактам на границах областей. Единый вид также ограничивает возможность моделирования многослойных сред, таких как многоэтажные подземелья или бесшовные переходы между интерьерами и экстерьерами. Наконец, поскольку каждый объект представлен независимо, без повторного использования геометрии или текстур, в больших насыщенных сценах станет проблемой эффективность рендеринга.
В будущих исследованиях авторы текущей работы намерены изучить такие стратегии, как наложение текстур, повторное использование и общие материалы для улучшения масштабируемости и производительности.
*В России признана экстремистской
Не пропускайте важнейшие новости о дополненной и виртуальной реальности — подписывайтесь на Голографику в Telegram, ВК и Twitter! Поддержите проект на Boosty.
Далее: Microsoft выяснила, как стиль аватаров влияет на общение в иммерсивных встречах



