Kandinsky 3D — новая нейросетевая модель для создания 3D-моделей от SberDevices

319

SberDevices выпустила Kandinsky 3D, комплексную нейросетевую модель для генерирования трёхмерных изображений по текстовому описанию. Результаты можно забирать в пяти форматах: OBJ, STL, FBX, GLB, USDZ. Последний формат описания объектов и сцен специально разработан для использования в приложениях пространственных вычислений. 

Разработчики технологии говорят, что основными сценариями её применения является прототипирование моделей для доработки под САПР, создание концептов для печати, интерактивных объектов для мобильных приложений и виртуальных встреч, предметов, персонажей и окружения для игр, аватаров, аксессуаров и NFT для социальных платформ и 3D-миров.

Архитектура Kandinsky 3D состоит из нескольких моделей: 

  • Диффузионная 2D-модель, дообученная на генерацию консистентных разноракурсных изображений объекта
  • Трансформерная реконструирующая модель на миллиарде параметров для генерации меша и текстур
  • Модель для оценки и ранжирования качества финальных 3D-объектов

Рабочий процесс делит генерацию 3D-ассета на два последовательных этапа: геометрический и текстурный. Геометрический генератор создает объёмную форму объекта, а текстурная модель накладывает фотореалистичные PBR-текстуры на готовую геометрию. Оба этапа построены на основе диффузионных трансформеров. 

В ближайших обновлениях SberDevices планирует улучшить качество геометрии и текстур, проработать интеграцию с САПР, расширить поддержку русского культурного кода, реализовать расширенную поддержку необходимых сценариев, включая генерацию по multi-view и мультимодальным данным, ввести новые функции просмотра, конфигурируемый API, редактор для улучшения сгенерированных объектов без экспорта в сторонние инструменты, перегенерацию модели (например, замену конкретного элемента), разработать разные варианты ретопологии (упрощения и оптимизации модели), расширить настройки генерации и так далее. 

Протестировать модель можно двумя способами: через обычный текстовый промт на портале developers.sber.ru и через GigaChat API, получив токен доступа. 

Не пропускайте важнейшие новости о дополненной и виртуальной реальности — подписывайтесь на Голографику в Telegram, ВК и Twitter! Поддержите проект на Boosty.

Далее: Нейросетевая модель Matrix3D, упрощающая фотограмметрию, открыта для экспериментов