SberDevices выпустила Kandinsky 3D, комплексную нейросетевую модель для генерирования трёхмерных изображений по текстовому описанию. Результаты можно забирать в пяти форматах: OBJ, STL, FBX, GLB, USDZ. Последний формат описания объектов и сцен специально разработан для использования в приложениях пространственных вычислений.
Разработчики технологии говорят, что основными сценариями её применения является прототипирование моделей для доработки под САПР, создание концептов для печати, интерактивных объектов для мобильных приложений и виртуальных встреч, предметов, персонажей и окружения для игр, аватаров, аксессуаров и NFT для социальных платформ и 3D-миров.
Архитектура Kandinsky 3D состоит из нескольких моделей:
- Диффузионная 2D-модель, дообученная на генерацию консистентных разноракурсных изображений объекта
- Трансформерная реконструирующая модель на миллиарде параметров для генерации меша и текстур
- Модель для оценки и ранжирования качества финальных 3D-объектов
Рабочий процесс делит генерацию 3D-ассета на два последовательных этапа: геометрический и текстурный. Геометрический генератор создает объёмную форму объекта, а текстурная модель накладывает фотореалистичные PBR-текстуры на готовую геометрию. Оба этапа построены на основе диффузионных трансформеров.
В ближайших обновлениях SberDevices планирует улучшить качество геометрии и текстур, проработать интеграцию с САПР, расширить поддержку русского культурного кода, реализовать расширенную поддержку необходимых сценариев, включая генерацию по multi-view и мультимодальным данным, ввести новые функции просмотра, конфигурируемый API, редактор для улучшения сгенерированных объектов без экспорта в сторонние инструменты, перегенерацию модели (например, замену конкретного элемента), разработать разные варианты ретопологии (упрощения и оптимизации модели), расширить настройки генерации и так далее.
Протестировать модель можно двумя способами: через обычный текстовый промт на портале developers.sber.ru и через GigaChat API, получив токен доступа.
Не пропускайте важнейшие новости о дополненной и виртуальной реальности — подписывайтесь на Голографику в Telegram, ВК и Twitter! Поддержите проект на Boosty.
Далее: Нейросетевая модель Matrix3D, упрощающая фотограмметрию, открыта для экспериментов