TensorFlow 3D: библиотека глубокого обучения для трёхмерных данных от Google

369

С появлением LiDAR в iPhone 12 Pro индустрия переживает перерождение Google Project Tango и точных трёхмерных сканеров в популярных мобильных устройствах. Настала пора использовать данные от этих датчиков по полной программе.

Исследовательская группа Google по искусственному интеллекту предоставила TensorFlow 3D (TF 3D), библиотеку глубокого обучения для трёхмерных данных,  которая включает трёхмерную семантическую сегментацию, обнаружение трёхмерных объектов и сегментацию 3D-экземпляров.

  • Модель семантической сегментации позволяет приложениям различать объект или объекты переднего плана и фон сцены, как в случае с виртуальным фоном в Zoom. Google реализовала аналогичную технологию с виртуальным видеофоном для YouTube.
  • Напротив, модель сегментации 3D-экземпляров идентифицирует группу объектов как отдельные объекты, как в случае с линзами Snapchat, которые могут накладывать виртуальные маски на более чем одного человека в поле зрения камеры.
  • Наконец, модель обнаружения трёхмерных объектов продвигает вперёд сегментацию экземпляров, классифицируя их.

TF 3D также предполагает другие потенциальные применения, такие как прогнозирование формы трёхмерных объектов, регистрация облака точек и уплотнение облака точек. Кроме того, инструментарий способен на унифицированную спецификацию и конфигурацию набора данных для обучения и оценки стандартных наборов данных для понимания трёхмерной сцены. В настоящее время он поддерживает наборы данных Waymo Open, ScanNet и Rio. Однако пользователи могут свободно конвертировать другие популярные наборы данных, такие как NuScenes и Kitti, в аналогичный формат и использовать их в уже существующих или созданных пользователем конвейерах, а также могут использовать TF 3D для широкого спектра исследований и приложений глубокого обучения.

Отраслями применения TF 3D в Google называют автономные автомобили и роботы, а также мобильную дополненную реальность для устройств с соответствующими возможностями.

В области компьютерного зрения недавно начался хороший прогресс в понимании трёхмерных сцен, включая модели для мобильного обнаружения трёхмерных объектов, обнаружения прозрачных объектов и так далее. Но вхождение в эту область может быть затруднено из-за ограниченной доступности инструментов и ресурсов, которые могут могут применяться к 3D-данным, — отмечают исследователь Алиреза Фатхи (Alireza Fathi)и Руи Хуанг (Rui Huang), резидент Google Research по искусственному интеллекту. — TF 3D предоставляет набор популярных операций, функций потерь, инструментов обработки данных, моделей и показателей, которые позволяют более широкому исследовательскому сообществу разрабатывать, обучать и развёртывать современные модели понимания трёхмерной сцены.

Библиотека TF 3D доступна на GitHub.

Не пропускайте важнейшие новости о дополненной и виртуальной реальности — подписывайтесь на Голографику в Telegram, ВК, Twitter и Facebook!

Далее: Digital Avatars: быстрая синхронизация губ аватара с речью от Сбера