Инструмент AI визуализирует 2D-фотографии в виде объемных 3D-сцен за считанные секунды

На конференции разработчиков GTC на прошлой неделе Nvidia представила отличный инструмент искусственного интеллекта, который делает множество 2D-фотографий одной и той же сцены с разных ракурсов и почти мгновенно преобразует их в трехмерный цифровой рендеринг.

Прогресс основан на исследованиях Калифорнийского университета в Беркли, Google и Калифорнийского университета в Сан-Диего, которые используют нейронные сети для визуализации фотореалистичных 3D-изображений сцен, используя в качестве источника небольшой набор 2D-кадров под разными углами обзора. Инструмент полей нейронного излучения — или NeRF — по существу оценивает любую информацию о цвете/освещении сцены, отсутствующую во входных данных, и заполняет пробелы.

Хотя ранние модели NeRF могли создавать визуализированные сцены за считанные минуты, обучение нейронных сетей занимало значительно больше времени. Разработка Instant NeRF от Nvidia существенно сокращает время как обучения, так и рендеринга «на несколько порядков» и может обучать модель на нескольких десятках неподвижных изображений (вместе с данными ракурса камеры) всего за несколько секунд, а затем визуализировать 3D-сцену с разрешением 1920°. x 1080 пикселей через несколько десятков миллисекунд.

Это стало возможным благодаря разработке нового метода кодирования входных данных, называемого кодированием хэш-сетки с несколькими разрешениями, который был оптимизирован для графических процессоров Nvidia и позволяет получать «высококачественные результаты с использованием крошечной нейронной сети, которая работает быстро».

«Если традиционные 3D-представления, такие как полигональные сетки, похожи на векторные изображения, то NeRF подобны растровым изображениям: они плотно фиксируют то, как свет исходит от объекта или внутри сцены», — сказал вице-президент Nvidia по графическим исследованиям Дэвид Любке. «В этом смысле Instant NeRF может быть так же важен для 3D, как цифровые камеры и сжатие JPEG были важны для 2D-фотографии, значительно увеличивая скорость, простоту и доступность 3D-съемки и обмена».

Компания предполагает, что технология может найти применение в обучении роботов и беспилотных автомобилей, чтобы лучше понимать объекты в реальном мире, а также для создания контента виртуальной реальности, видеоконференций, цифрового картографирования, архитектуры и развлечений.