据外媒报道,英伟达(Nvidia)AI研究人员开发了一种方法,通过使用超快速神经网络训练和快速渲染,可将数十张2D图像快速转换为3D场景。这一过程称作逆渲染,利用AI模仿真实世界中光线的行为,将从不同角度拍摄的2D图像转换成3D场景。
(图片来源:英伟达)
英伟达研究人员将该新方法应用于名为神经辐射场(NeRF)技术,从而开发出新的Instant NeRF(即时NeRF)技术,这是迄今为止最快的NeRF技术,在某些情况下,相比其他技术,其速度要快1000多倍。尽管Instant NeRF也需要拍摄照片的摄像头角度数据,但其所使用的神经模型只需几秒钟就可以训练几十张静态照片。
英伟达图形研究副总裁在博客中进一步阐述了NeRF和Instant NeRF之间的区别。David Luebke表示,“如果多边形网格这类传统3D表示方式类似于矢量图像,那么NeRF就像位图图像,密集地捕捉光线从物体或场景中辐射的方式。从这个意义而言,Instant NeRF对于3D的重要性可能不亚于数码摄像头和JPEG压缩对于2D摄影的重要性,极大地提高了3D捕捉和共享的速度、易用性和可实现性。”
通过使用神经网络,NeRF能够基于2D图像的输入集合呈现逼真的3D场景。然而,最有趣的部分是用于创建这些图像的神经网络如何能够填补2D图像之间的空白,即使图像中的物体或人被障碍物阻挡。
通常情况下,由于可视化的复杂性和分辨率不同,使用传统方法创建3D场景可能需要数小时甚至更长时间。而引入AI,即使是早期的NeRF模型也能够在经过几个小时的训练后,在几分钟内呈现出没有伪影的清晰场景。英伟达的Instant NeRF采用该公司开发的多分辨率哈希网格编码技术,能够将所需渲染时间缩短几个数量级。这一技术经过优化,可在英伟达GPU上高效运行。
未来,Instant NeRF技术可用于快速创建虚拟世界的场景,以3D方式捕捉视频会议参与者及其所处环境,或为3D数字地图重建场景,或用于训练机器人和自动驾驶汽车,以使其根据所捕获的现实世界物体的2D图像或视频片段,更好地理解物体的大小和形状。此外,建筑和娱乐行业可以使用 Instant NeRF快速生成真实环境的数字呈现,创作者可在此基础上进行修改和构建。英伟达的研究人员还在探索如何利用新的输入编码技术加速解决各种AI挑战,如强化学习、语言翻译和通用深度学习算法。