SceneScript: новый метод реконструирования трёхмерного пространства с помощью машинного зрения

207

Meta* представила SceneScript, новый метод трёхмерной реконструкции физического пространства с помощью компьютерного зрения от исследователей из отдела Reality Labs. SceneScript способен строить геометрическую модель окружения с помощью сквозного машинного обучения и определять типы объектов, называя их обычным человеческим языком. В Meta прямо говорят, что проект может стать частью будущих очков дополненной реальности, которые смогут искать объекты и направлять человека графикой или речью.

Новый подход

Чтобы очки дополненной реальности могли активно помогать человеку в течение дня, они должны понимать трёхмерную структуру физической среды. Это понимание позволит адаптировать контент к индивидуальному контексту, плавно сочетая с ним цифровые объекты или давая пошаговые инструкции для ориентирования.

Создание таких 3D-карт в реальном времени — сложная задача, пишет Meta. По её словам, современные очки смешанной реальности, вроде Quest 3, делают это на основе необработанных визуальных данных с камер и лидаров. Данные преобразуются в серию геометрических моделей, которая описывает пространство базовыми элементами, вроде стен, потолка и пола. Обычно эти системы полагаются на заранее заданные правила преобразования. Однако этот эвристический подход приводит к ошибкам, особенно в пространствах со сложной геометрией.

Вместо жёстко запрограммированных правил SceneScript обучен на лету определять геометрию комнаты с помощью сквозного машинного обучения. Это даёт итоговым сценам компактность, сокращая требования к памяти «до нескольких байтов». Кроме того, как уверяют инженеры компании, на выходе получается чёткая геометрия, аналогичная масштабируемой векторной графике и, что немаловажно, интерпретируемая, то есть выходные данные легко читать и редактировать.

Обучение

Большие языковые модели, такие как Llama, работают с использованием метода предсказания следующего токена, при котором модель предсказывает следующее слово в предложении на основе слов, которые были перед ним. Например, если вы ввели слова «Кот сидел на…», модель предскажет, что следующим словом, скорее всего, будет «коврике» или «полу».

SceneScript использует ту же концепцию. Однако вместо прогнозирования языкового токена модель прогнозирует следующий архитектурный токен, например «стену» или «дверь».

Получая большой объем обучающих данных, SceneScript учится кодировать визуальную информацию в фундаментальное представление сцены, которое затем можно декодировать в язык, описание планировки комнаты. Это позволяет интерпретировать и реконструировать сложные среды на основе визуальных данных и создавать их структурные текстовые описания.

Исследовательской группе потребовался такой объёмный архив обучающих данных, который не удалось собрать по общедоступным источникам с учётом конфиденциальности инфомации. Компания утверждает, что это была уникальная задача — такого архива просто не существует. Поэтому авторы проекта создали синтетический набор данных Aria Synthetic Environments. Он включает 100 000 уникальных сред, каждая из которых описана с использованием языка SceneScript и сопровождается смоделированным видео прохождения сквозь сцену.

Для реальных очков

Моделирование видео настроили под максимальное совпадение с возможностями  Project Aria, прототипа очков Reality Labs для ускорения исследований в области искусственного интеллекта и машинного обучения. Так модель можно проверять на готовом устройстве и в реальных условиях.

Сильной стороной авторы SceneScript называют масштабируемость. Добавлением нескольких дополнительных параметров в описание, к примеру, дверей сеть можно обучить точно понимать степень открытия или закрытия дверей в физической среде. А новые функции в архитектурном описании позволят предсказывать расположение объектов и раскладывать их на составные части.

Детализация составных объектов в итоге может пригодиться дизайнером игровых уровней в создании адаптивного контента дополненной реальности. В Meta уверены, что SceneScript способен сдвинуть вперёд разные технологические области, такие как помощь людям с нарушениями зрения и разработка нового поколения цифровых помощников.

*В России признана экстремистской организацией

Не пропускайте важнейшие новости о дополненной и виртуальной реальности — подписывайтесь на Голографику в Telegram, ВК и Twitter! Поддержите проект на Boosty.

Далее: Reality Labs представила свежие и подробные результаты работы над ЭМГ-браслетом