英偉達 “網紅研究員”：2024 最大亮點是機器人，“具身智能” 還有三年

“以機械臂作為物理輸入/輸出設備的多模態 LLM、彌合 System 1 和 System 2 差距的算法…..”，2024 年機器人技術將進一步迅猛發展。

2024，除了大模型繼續狂飆外，機器人發展也將迎來高潮。

去年年底，英偉達 “網紅研究員”、OpenAI 第一個實習生 Jim Fan 發推文稱，除了大模型，2024 年最重要的就是機器人，我們距離 “具身智能” 的 ChatGPT 時刻大約還有三年時間。

Jim 指出，長期以來，人們深受 “莫拉維克悖論”（Moravec's paradox）的困擾，這是一種和人們直覺相悖的現象，即 “人類覺得容易的任務對人工智能來説卻極其困難，反之亦然”。

但是 Jim 樂觀地預測，2024 年將成為人工智能界全面崛起反擊這一悖論的元年，Jim 表示 “我們不會立即獲勝，但我們將走上獲勝之路”。

同時，Jim 列舉了 2023 年關於未來機器人的基礎模型和平台的發展：

1、以機械臂作為物理輸入/輸出設備的多模態 LLM：VIMA、PerAct、RvT（英偉達）、RT-1、RT-2、PaLM-E（谷歌）、RoboCat（DeepMind）、Octo（伯克利、斯坦福、CMU）等。

2、彌合 System 1（負責低級控制）和 System 2（負責高級推理）之間差距的算法（使得系統能夠利用高級推理進行決策和理解，並將這些決策轉化為實際的操作和控制）：Eureka（英偉達）、Code as Policies（谷歌）等。

3、在強大硬件方面取得的驚人進展：特斯拉擎天柱、Figure、1X、Apptronik、Sanctuary、Agility+Amazon、Unitree 等。

4、數據一直是機器人技術的致命弱點，研究界正在共同策劃下一個 ImageNet（人工智能深度學習取得突破的關鍵項目），如開放 Open X-Embodiment (RT-X) 數據集。雖然數據集還不夠多樣化，但邁出了重要的一步。

5、模擬和合成數據將在解決機器人靈巧性乃至整個計算機視覺問題上發揮關鍵作用。

（1）NVIDIA Isaac 可以以比實時快 1000 倍的速度模擬現實，傳入的數據流隨着計算規模的增加而擴展；

（2）通過硬件加速的光線追蹤可以實現逼真的效果。逼真的渲染還帶有免費的地面真實註釋，如分割、深度、3D 姿勢等；

（3）模擬器甚至可以將真實世界的數據擴大，創造更大的數據集，從而大大減少昂貴的人工演示工作。MimicGen（英偉達）是一個典型的例子。