英伟达馋哭建模师!投喂随意视频,直出 3D 模型

Wallstreetcn
2023.06.02 13:22
portai
I'm PortAI, I can summarize articles.

一个名叫 Neuralangelo 新 AI 横空出世,无需深度数据,两步直出 3D 结构,先基于神经渲染重建方法,计算出视频中 3D 结构的 “粗糙表面”。随后,逐渐减小数值梯度的步长、采用分辨率更高的哈希表,一步一步提升模型的精细度,还原建筑的细节。

英伟达一出手,3D 建模师都馋哭了。

现在,制作一个纹理超细致的大卫 3D 模型,需要几步?

刚刚靠着 AI,市值一度飚破万亿美元的英伟达给出最新答案:

给 AI 投喂一段普通视频,它就能自动搞定。

不仅雕塑的每一个褶皱都能拿捏住,更为复杂的建筑场景 3D 重建,同样靠一个视频就能解决:

连深度都能直接估算出来。

这个新 AI 名叫Neuralangelo,来自英伟达研究院和约翰霍普金斯大学。

论文刚一发表就吸引了全场网友的目光,让人直呼:这是直接创造新世界的节奏。

甚至再一次拉动了显卡销量【狗头】:

目前,相关论文已经入选CVPR 2023。更多技术细节,我们一起接着往下看~

无需深度数据,直出 3D 结构

这篇论文采用的架构名叫 Neuralangelo,一个听起来有点像著名雕塑家米开朗基罗(Michelangelo)的名字。

具体来说,Neuralangelo 核心采用了两个技术。

一个是基于SDF的神经渲染重建。

其中,SDF 即符号距离函数(Signed Distance Function),它的本质就是将 3D 模型划出一个表面,然后用数值表示每个点距离模型的实际距离,负数指点在表面内侧,正数指点在表面外侧:

图源chriscummingshrg

基于 SDF 的神经渲染技术,则是采用神经网络(如 MLP)对 SDF 进行编码,来对物体表面进行一个近似还原。

另一个则是多分辨率哈希编码,用于降低计算量。

多分辨率哈希编码是一种特殊的编码方式,能用很小的网络降低计算量,同时确保生成的质量不降低。

其中,多分辨率哈希表的 value,对应由随机梯度下降优化得到特征向量。

操作流程上,则分为两步。

首先,基于神经渲染重建方法,计算出视频中 3D 结构的 “粗糙表面”。

值得注意的是,这里采用了数值梯度而不是解析梯度,这样基于 SDF 生成算法做出来的 3D 模型表面更加平滑,不会出现凹凸不平的状态:

论文还额外对比了一下解析梯度和数值梯度的状态,从图中来看,数值梯度整体上能取得更平滑的建筑效果:

随后,就是逐渐减小数值梯度的步长(step size)、采用分辨率更高的哈希表,一步一步提升模型的精细度,还原建筑的细节:

最后再对生成的效果进行优化,就得到了还原出来的图像。

包含 MLP 和哈希编码在内,整个网络采用端到端的方式进行训练。

测试效果如何?

研究人员采用了 DTU 和 Tanks and Temples 两个数据集对 Neuralangelo 进行测试。

DTU 数据集包含 128 个场景,这篇论文具体采用了其中的 15 个场景,每个场景包含 49~64 张由机器人拍摄的 RGB 图像。

随后,还采用了 Tanks and Temples 中 6 个场景的 263~1107 张 RGB 相机拍摄图像,真实数据则由 LiDAR 传感器获得。

Tanks and Temples 包含中级和高级两类数据集。

其中,中级数据集包含雕塑、大型车辆和住宅规模的建筑;高级数据集则包含从内部成像的大型室内场景、以及具有复杂几何布局和相机轨迹的大型室外场景:

具体到生成细节上,Neuralangelo 相比 NeuS 和 NeuralWarp 等 “前 SOTA” 模型,在 DTU 数据集上展现出了非常准确的 3D 细节生成:

而在 Tanks and Temples 数据集上,Neuralangelo 也同样展现出了不错的还原效果:

在 F1-Score 评估和图像质量 PSNR 评估中,Neuralangelo 基本上全部取得了最好的效果:

华人一作

这篇研究的作者来自英伟达和约翰霍普金斯大学(Johns Hopkins University)。

论文一作李赵硕(Zhaoshuo Li),本科毕业于不列颠哥伦比亚大学,目前是约翰霍普金斯大学的博士生,师从 Mathias Unberath 和 Russell Taylor。

Russell Taylor 是医疗机器人领域泰斗,曾主持研发全球首台骨科手术机器人 ROBDOC。

而李赵硕本人,本科专业也是机器人工程,如今算是小小跨界,研究重点在图像重建 3D 结构上。

Neuralangelo 是李赵硕在英伟达实习期间的工作。此前,他还曾在 Meta 的 Reality Labs 实习(就是小扎 All in 元宇宙的核心部门)。

本文作者:鱼羊 萧箫 发自 凹非寺,来源:量子位,原文标题:《英伟达馋哭建模师!投喂随意视频,直出 3D 模型,华人一作登 CVPR 2023》

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。