
The ChatGPT moment of physical AI! NVIDIA's "self-driven" autonomous vehicles are coming and will hit the roads in the U.S. in the first quarter

英偉達宣佈開源其首個推理 VLA (視覺 - 語言 - 動作) 模型 Alpamayo 1。該模型旨在打造能在意外情況下” 思考” 解決方案的車輛,採用 100 億參數架構,使用視頻輸入生成軌跡和推理過程。黃仁勳稱,首款搭載英偉達技術的汽車將第一季度在美上路,第二季度在歐洲上路,下半年在亞洲上路。英偉達還發布了多個開源模型、數據和工具,如用於代理 AI 的英偉達 Nemotron 家族、用於物理 AI 的 Cosmos 平台、用於機器人的英偉達 Isaac GR00T 以及用於生物醫學的英偉達 Clara。更新中
英偉達在無人駕駛領域邁出關鍵一步,宣佈開源其首個推理 VLA (視覺 - 語言 - 動作) 模型 Alpamayo 1,這一舉措旨在加速安全的自動駕駛技術開發。該模型通過類人思維方式處理複雜駕駛場景,為解決自動駕駛長尾問題提供新路徑。
美東時間 1 月 5 日週一,英偉達 CEO 黃仁勳在拉斯維加斯舉行的 CES 展會上發佈了 Alpamayo 平台,使汽車能夠在真實世界中進行"推理"。黃仁勳表示,首款搭載英偉達技術的汽車將於第一季度在美國上路,第二季度在歐洲上路,下半年在亞洲上路。
英偉達免費開放 Alpamayo 模型,允許潛在用户自行對模型進行重新訓練。該模型旨在打造能在意外情況下"思考"解決方案的車輛,例如交通信號燈故障等場景。車載計算機將分析來自攝像頭和其他傳感器的輸入,將其分解為步驟並提出解決方案。
這一開源舉措獲得了行業廣泛支持。包括捷豹路虎(JLR)、Lucid、Uber 以及加州大學伯克利分校 DeepDrive 深度學習自動駕駛產業聯盟(BDD)在內,多家移動出行領軍企業和研究機構表示,將利用 Alpamayo 開發基於推理的自動駕駛技術棧,推動 L4 級自動駕駛部署。
此外,英偉達還推出了用於機器人的人工智能模型和其他技術。黃仁勳在活動中表示,英偉達正在與西門子合作,將人工智能應用於更多物理世界領域。
首個開源推理 VLA 模型發佈
英偉達此次發佈的 Alpamayo 家族整合了三大基礎支柱:開源模型、仿真框架和數據集,構建了一個完整的開放生態系統供任何汽車開發者或研究團隊使用。
Alpamayo 1 是業界首個為自動駕駛研究社區設計的思維鏈推理 VLA 模型,現已在 Hugging Face 平台發佈。該模型採用 100 億參數架構,使用視頻輸入生成軌跡及推理軌跡,展示每個決策背後的邏輯。開發者可以將 Alpamayo 1 改編為更小的運行時模型用於車輛開發,或將其作為自動駕駛開發工具的基礎,例如基於推理的評估器和自動標註系統。
黃仁勳表示:
“物理 AI 的 ChatGPT 時刻已到來——機器開始理解、推理並在真實世界中行動。無人出租車是首批受益者。Alpamayo 為自動駕駛汽車帶來推理能力,使其能夠思考罕見場景,在複雜環境中安全駕駛,並解釋其駕駛決策——這是安全、可擴展自動駕駛的基礎。”
英偉達強調,Alpamayo 模型並非直接在車內運行,而是作為大規模教師模型,供開發者微調並提取到其完整自動駕駛技術棧的骨幹中。未來該家族的模型將具有更大的參數規模、更詳細的推理能力、更多的輸入輸出靈活性以及商業使用選項。
推理 VLA 技術原理解析
推理 VLA 是一種統一的 AI 模型,將視覺感知、語言理解和動作生成與逐步推理集成在一起。
這類模型整合了明確的 AI 推理功能,在傳統視覺 - 語言 - 動作模型的基礎上構建。AI 推理是 AI 逐步解決複雜問題並生成類似於人類思維過程推理痕跡的能力。這些系統對一系列互聯網規模的任務進行預訓練,包括語言生成和視覺連接,以發展通用知識和感知基礎。
與將視覺輸入直接映射到動作的標準 VLA 模型不同,推理 VLA 模型將複雜的任務分解成可管理的子問題,並以可解釋的形式闡明其推理過程。這使模型能夠更準確地解決問題或執行任務,還能對模型正在進行的操作提供一定程度的反思。
構建推理 VLA 模型需要三種基本 AI 功能:視覺感知、語言理解以及動作和決策制定。視覺感知處理來自攝像頭、毫米波雷達或激光雷達等感知傳感器的實時數據;語言理解通過自然語言處理解釋命令、上下文提示和對話輸入;動作和決策制定則使用融合的感官和語言信息來計劃、選擇和安全地執行任務,同時生成可解釋的推理痕跡。
在自動駕駛場景中,推理 VLA 可以對交通狀況進行逐步推理。例如,接近一個十字路口時,系統可能會進行如此推理:"我看到一個停止標誌,左邊有車輛駛來,還有行人正在過馬路。我應該減速,完全停下來,等待行人通過人行橫道,安全時再繼續前進。"
完整開放生態系統支持開發
除 Alpamayo 1 模型外,英偉達還發布了配套的仿真工具和數據集,構建完整的開發生態系統。
AlpaSim 是一個完全開源的端到端仿真框架,用於高保真自動駕駛開發,現已在 GitHub 平台發佈。它提供真實的傳感器建模、可配置的交通動態和可擴展的閉環測試環境,實現快速驗證和策略優化。
英偉達還提供了面向自動駕駛最多樣化的大規模開放數據集,包含超過 1700 小時的駕駛數據,涵蓋最廣泛的地理位置和條件範圍,覆蓋罕見且複雜的真實世界邊緣案例,這對於推進推理架構至關重要。這些數據集可在 Hugging Face 平台獲取。
這些工具共同為基於推理的自動駕駛技術棧創建了一個自我強化的開發循環。開發者可以利用這些資源在專有車隊數據上微調模型,將其集成到基於英偉達 DRIVE AGX Thor 加速計算構建的英偉達 DRIVE Hyperion 架構中,並在商業部署前通過仿真驗證性能。
業界領軍企業表達支持
據英偉達介紹,多家移動出行領域的領軍企業對 Alpamayo 表示了濃厚興趣。
Lucid Motors 高級駕駛輔助系統和自動駕駛副總裁 Kai Stepper 表示:"向物理 AI 的轉變凸顯了 AI 系統對真實世界行為進行推理能力的日益增長的需求,而不僅僅是處理數據。先進的仿真環境、豐富的數據集和推理模型是這一演進的重要元素。"
捷豹路虎產品工程執行總監 Thomas Müller 表示:"開放、透明的 AI 開發對於負責任地推進自動移動出行至關重要。通過開源 Alpamayo 等模型,英偉達正在幫助加速整個自動駕駛生態系統的創新,為開發者和研究人員提供新工具,以安全地應對複雜的真實世界場景。"
Uber 全球自動移動出行和配送負責人 Sarfraz Maredia 表示:"處理長尾和不可預測的駕駛場景是自動駕駛的決定性挑戰之一。Alpamayo 為行業創造了令人興奮的新機遇,可以加速物理 AI、提高透明度並增加安全的 L4 級部署。"
加州大學伯克利分校 DeepDrive 聯合主任 Wei Zhan 表示:"Alpamayo 組合的推出代表着研究社區的一次重大飛躍。英偉達決定公開這一技術具有變革意義,因為其訪問權限和能力將使我們能夠以前所未有的規模進行訓練——為我們提供了將自動駕駛推向主流所需的靈活性和資源。"
跨行業 AI 模型全面開放
本週一,英偉達還發布了推動各行業 AI 發展的多個新開源模型、數據和工具。
這些模型涵蓋用於代理 AI 的英偉達 Nemotron 家族、用於物理 AI 的英偉達 Cosmos 平台、用於機器人的英偉達 Isaac GR00T 以及用於生物醫學的英偉達 Clara。英偉達還提供了開源訓練框架和全球最大的開放多模態數據集合之一,包括 10 萬億語言訓練標記、50 萬個機器人軌跡、45.5 萬個蛋白質結構和 100TB 的車輛傳感器數據。
英偉達代理式 AI 基礎模型 Nemotron 發佈了語音、多模態檢索增強生成(RAG)和安全相關的新模型。Nemotron Speech 包含業界領先的開源模型,為實時字幕和語音 AI 應用提供實時、低延遲語音識別。Nemotron RAG 包含新的嵌入和重排序視覺語言模型,提供高度準確的多語言和多模態數據洞察。
在物理 AI 和機器人領域,英偉達發佈了 Cosmos 開放世界基礎模型,為加速物理 AI 開發和驗證帶來類人推理和世界生成能力。Isaac GR00T N1.6 是一個開放推理 VLA 模型,專為人形機器人打造,實現全身控制,並使用英偉達 Cosmos Reason 實現更好的推理和上下文理解。
英偉達稱,博世(Bosch)、CodeRabbit、CrowdStrike、Cohesity、Fortinet、Franka Robotics、Humanoid、Palantir、Salesforce、ServiceNow、日立和 Uber 等科技業的領頭羊正在採用並基於英偉達的開源模型技術進行開發。
英偉達的開源模型、數據和框架現已在 GitHub 和 Hugging Face 平台發佈,並可通過一系列雲、推理和 AI 基礎設施平台以及 build.nvidia.com 獲取。這些模型中的許多還以英偉達 NIM 微服務的形式提供,可在從邊緣到雲端的任何英偉達加速基礎設施上進行安全、可擴展的部署。
