
NVIDIA opens the "Physical AI" era, directly targeting the robot "ChatGPT moment"

物理 AI 賦予機器人更強的環境感知、理解和交互能力。黃仁勳在 CES 大會上表示,物理 AI 將徹底改變價值 50 萬億美元的製造業和物流業,“機器人領域的 ‘ChatGPT 時刻’ 即將到來。”
作者:張雅琦
來源:硬 AI
機器人即將迎來 “ChatGPT 時刻”?英偉達在 CES 2025 重磅發佈 Cosmos 世界基礎模型平台,或掀起 “物理 AI” 革命。
這個平台被稱為加速 “物理 AI” 發展的關鍵一步,目標是推動自動駕駛汽車和機器人領域邁向更高水平。
物理 AI 賦予機器人更強的環境感知、理解和交互能力。物理 AI 的進步將極大地推動自動駕駛和機器人等對物理場景要求較高的產業發展。黃仁勳在 CES 大會上表示,物理 AI 將徹底改變價值 50 萬億美元的製造業和物流業,從汽車、卡車到工廠、倉庫,所有移動的事物都將實現機器人化,並由 AI 驅動。
據英偉達官網介紹,物理 AI 體系包含以 Omniverse、Cosmos、Isaac Sim 等關鍵組成部分。其中 Cosmos 平台利用了超過 2000 萬小時的視頻訓練數據,旨在 “教會 AI 理解物理世界”。
什麼是物理 AI?
物理 AI,也稱為生成式物理 AI,是一種使自主機器(如機器人、自動駕駛汽車等)能夠在真實物理世界中感知、理解和執行復雜操作的技術。
它擴展了傳統的生成式 AI,使其能夠理解 3D 世界的空間關係和物理行為。通俗地理解,就是人工智能反饋的內容要符合物理規律。
例如,文生圖或者文生視頻模型,如果不考慮物理,那生成的內容就缺乏了重力、光學等細節,在加入物理知識後,生成的內容將更加逼真。
黃仁勳早在今年早些時候就強調過,“AI 的新一波浪潮是物理 AI”。
物理 AI 將賦予機器人更強的環境感知、理解和交互能力。傳統的機器人只能按照預設程序執行任務,而搭載物理 AI 的機器人則能夠更好地理解周圍環境,並根據物理規律做出相應的反應。它們可以更好地識別物體、預測運動軌跡、並在複雜環境中進行導航和操作。
“物理 AI 將徹底改變價值 50 萬億美元的製造業和物流業,”黃仁勳在本次 CES 國際消費電子展上表示:
“從汽車、卡車到工廠、倉庫,所有移動的事物都將實現機器人化,並由 AI 驅動。英偉達的 Omniverse 數字孿生操作系統和 Cosmos 物理 AI 是推動全球實體產業數字化的基石。”
英偉達構建了一個完整的物理 AI 生態系統。據英偉達官網介紹,物理 AI 體系包含以 Omniverse、Cosmos、Isaac Sim 等關鍵組成部分。
Omniverse:加速 3D 內容創作和物理仿真
Omniverse 是一個開放平台,用於構建和連接 3D 世界。它提供了一系列工具、API 和 SDK,使開發者能夠輕鬆地創建高保真、基於物理的虛擬環境,用於訓練和測試 AI 模型。
Omniverse 的核心是通用場景描述(OpenUSD),它允許不同 3D 工具之間的數據互操作性。Omniverse 在此次發佈中也得到了進一步的擴展,例如通過 NVIDIA Edify SimReady 生成式 AI 模型,可以自動為現有 3D 資產添加物理效果或材質等屬性,大大加速了 3D 內容的創建和準備過程。
申萬宏源表示,英偉達的未來設想中,機器人技術的發展依賴於三台核心計算機。
一台用於訓練 AI,一台用於控制物理仿真環境中的測試 AI,以及一台安裝在機器人或智能汽車內部的模擬環境計算機,支持物理 AI 算法。
目前正在應用的場景之一在於仿真環境中驗證程序邏輯的可靠性;第二個就是獲取難以從真實世界獲得的數據以持續訓練 AI 模型,目前許多大廠都在採用這種方式,從軟件角度,仿真領域的優勢企業 Ansys,其仿真產品也可以通過英偉達的 Omniverse 進行訪問,憑藉 Ansys 面向攝像頭、激光雷達和雷達傳感器的物理求解器,增強 NVIDIA DRIVE 的高保真和可擴展的 3D 環境,這對於自動駕駛系統的開發至關重要。
通過這種方式,未來行駛過程中的所有數據都可以實時反饋,用於決策制定,同時生成更多類似數據以模擬更多場景,加速訓練效果的提升,突破了數據獲取的瓶頸。
申萬宏源認為,英偉達對 Omniverse 的大量投入預示着其算力未來的方向主要集中在大模型 AI 生成、機器人和智能駕駛領域。
Cosmos WFMs:讓 AI 理解物理世界的關鍵一步
物理 AI 的開發極為複雜,需要海量的真實世界數據和長時間的測試,開發成本高昂。
而英偉達的 Cosmos 平台正是為了解決這一痛點,通過其生成式世界基礎模型提供物理仿真數據生成能力。Cosmos WFMs 讓開發者能夠快速生成基於真實物理規律的高仿真數據,降低依賴昂貴現實數據的需求。
黃仁勳在主題演講中指出,Cosmos 平台利用了超過 2000 萬小時的視頻訓練數據,旨在“教會 AI 理解物理世界”。

這些模型通過將文本、圖像、視頻以及機器人傳感器數據結合,生成多樣化的物理環境場景,比如雪地駕駛、擁擠倉庫等,從而為自動駕駛和機器人開發提供關鍵支持。
Cosmos 使用了英偉達的 NeMo Curator 框架以及 CUDA 加速數據處理流水線,在 14 天內即可完成對 2000 萬小時視頻的處理工作,而這一任務在傳統 CPU 環境下需要 3.4 年。
Cosmos Tokenizer 作為一種最先進的視覺標記器,能夠將圖像和視頻轉化為高效的視覺標記,處理速度提升 12 倍,壓縮效率提升 8 倍。
黃仁勳表示:“機器人領域的 ‘ChatGPT 時刻’ 即將到來。”和大語言模型(LLMs)推動自然語言處理一樣,Cosmos WFMs 被認為是機器人和自動駕駛發展的基礎性工具:
“我們創建 Cosmos 是為了讓物理 AI 民主化,讓每個開發人員都能接觸到通用機器人技術。”

可以説,Cosmos 的發佈,補全了英偉達物理 AI 體系中 “理解世界” 的重要一環。
多家行業巨頭擁抱 Cosmos
多家領先企業已經成為 Cosmos 的首批用户,包括 1X、Agile Robots、Waabi、Uber 等。這些企業正在利用 Cosmos 平台推動機器人與自動駕駛技術的進步。

以 Uber 為例,通過整合其豐富的駕駛數據與 Cosmos 平台和 NVIDIA DGX Cloud 的功能,Uber 正與英偉達合作加速開發安全且可擴展的自動駕駛解決方案。
Uber 首席執行官 Dara Khosrowshahi 表示:
“生成式人工智能將為未來的出行提供動力,這需要豐富的數據和非常強大的計算能力。通過與英偉達合作,我們相信我們能夠幫助加速行業安全且可擴展的自動駕駛解決方案的開發。”
Agility 首席技術官 Pras Velagapudi 在一份聲明中表示:
“數據稀缺性和多變性是機器人環境中成功學習的關鍵挑戰。Cosmos 的文本、圖像和視頻到世界功能使我們能夠在各種任務中生成和增強逼真的場景,我們可以使用這些場景來訓練模型,而無需花費大量昂貴的真實世界數據捕獲。”
目前,Cosmos WFMs 已通過英偉達 NGC 和 Hugging Face 平台開放下載,開發者可使用這些模型及其微調框架。此外,Cosmos 還將通過英偉達的 DGX Cloud 實現快速部署,併為企業用户提供全面支持。
