
英偉達饞哭建模師!投餵隨意視頻,直出 3D 模型

一個名叫 Neuralangelo 新 AI 橫空出世,無需深度數據,兩步直出 3D 結構,先基於神經渲染重建方法,計算出視頻中 3D 結構的 “粗糙表面”。隨後,逐漸減小數值梯度的步長、採用分辨率更高的哈希表,一步一步提升模型的精細度,還原建築的細節。
英偉達一出手,3D 建模師都饞哭了。
現在,製作一個紋理超細緻的大衞 3D 模型,需要幾步?

剛剛靠着 AI,市值一度飈破萬億美元的英偉達給出最新答案:
給 AI 投餵一段普通視頻,它就能自動搞定。

不僅雕塑的每一個褶皺都能拿捏住,更為複雜的建築場景 3D 重建,同樣靠一個視頻就能解決:

連深度都能直接估算出來。
這個新 AI 名叫Neuralangelo,來自英偉達研究院和約翰霍普金斯大學。
論文剛一發表就吸引了全場網友的目光,讓人直呼:這是直接創造新世界的節奏。


甚至再一次拉動了顯卡銷量【狗頭】:

目前,相關論文已經入選CVPR 2023。更多技術細節,我們一起接着往下看~
無需深度數據,直出 3D 結構
這篇論文采用的架構名叫 Neuralangelo,一個聽起來有點像著名雕塑家米開朗基羅(Michelangelo)的名字。
具體來説,Neuralangelo 核心採用了兩個技術。
一個是基於SDF的神經渲染重建。
其中,SDF 即符號距離函數(Signed Distance Function),它的本質就是將 3D 模型劃出一個表面,然後用數值表示每個點距離模型的實際距離,負數指點在表面內側,正數指點在表面外側:
基於 SDF 的神經渲染技術,則是採用神經網絡(如 MLP)對 SDF 進行編碼,來對物體表面進行一個近似還原。
另一個則是多分辨率哈希編碼,用於降低計算量。
多分辨率哈希編碼是一種特殊的編碼方式,能用很小的網絡降低計算量,同時確保生成的質量不降低。
其中,多分辨率哈希表的 value,對應由隨機梯度下降優化得到特徵向量。
操作流程上,則分為兩步。
首先,基於神經渲染重建方法,計算出視頻中 3D 結構的 “粗糙表面”。
值得注意的是,這裏採用了數值梯度而不是解析梯度,這樣基於 SDF 生成算法做出來的 3D 模型表面更加平滑,不會出現凹凸不平的狀態:
論文還額外對比了一下解析梯度和數值梯度的狀態,從圖中來看,數值梯度整體上能取得更平滑的建築效果:

隨後,就是逐漸減小數值梯度的步長(step size)、採用分辨率更高的哈希表,一步一步提升模型的精細度,還原建築的細節:

最後再對生成的效果進行優化,就得到了還原出來的圖像。
包含 MLP 和哈希編碼在內,整個網絡採用端到端的方式進行訓練。
測試效果如何?
研究人員採用了 DTU 和 Tanks and Temples 兩個數據集對 Neuralangelo 進行測試。
DTU 數據集包含 128 個場景,這篇論文具體採用了其中的 15 個場景,每個場景包含 49~64 張由機器人拍攝的 RGB 圖像。

隨後,還採用了 Tanks and Temples 中 6 個場景的 263~1107 張 RGB 相機拍攝圖像,真實數據則由 LiDAR 傳感器獲得。
Tanks and Temples 包含中級和高級兩類數據集。
其中,中級數據集包含雕塑、大型車輛和住宅規模的建築;高級數據集則包含從內部成像的大型室內場景、以及具有複雜幾何佈局和相機軌跡的大型室外場景:

具體到生成細節上,Neuralangelo 相比 NeuS 和 NeuralWarp 等 “前 SOTA” 模型,在 DTU 數據集上展現出了非常準確的 3D 細節生成:

而在 Tanks and Temples 數據集上,Neuralangelo 也同樣展現出了不錯的還原效果:

在 F1-Score 評估和圖像質量 PSNR 評估中,Neuralangelo 基本上全部取得了最好的效果:

華人一作
這篇研究的作者來自英偉達和約翰霍普金斯大學(Johns Hopkins University)。

論文一作李趙碩(Zhaoshuo Li),本科畢業於不列顛哥倫比亞大學,目前是約翰霍普金斯大學的博士生,師從 Mathias Unberath 和 Russell Taylor。
Russell Taylor 是醫療機器人領域泰斗,曾主持研發全球首台骨科手術機器人 ROBDOC。
而李趙碩本人,本科專業也是機器人工程,如今算是小小跨界,研究重點在圖像重建 3D 結構上。
Neuralangelo 是李趙碩在英偉達實習期間的工作。此前,他還曾在 Meta 的 Reality Labs 實習(就是小扎 All in 元宇宙的核心部門)。
本文作者:魚羊 蕭簫 發自 凹非寺,來源:量子位,原文標題:《英偉達饞哭建模師!投餵隨意視頻,直出 3D 模型,華人一作登 CVPR 2023》
