
Embracing the era of physical AI, "Hangzhou Six Little Dragons" Quantum Core Technology launches the open-source spatial understanding model SpatialLM

在美國舉行的 GTC 2025 全球人工智能盛會上,英偉達 CEO 黃仁勳介紹了物理 AI 的未來。杭州羣核科技宣佈開源其空間理解模型 SpatialLM,該模型能從視頻中提取點雲數據,生成物理正確的 3D 場景佈局,降低機器人訓練成本。SpatialLM 與 2024 年發佈的 SpatialVerse 平台協同工作,能夠將現實世界數據轉化為虛擬環境中的新場景。儘管行業內已有類似模型,SpatialLM 在空間信息認知理解方面具有優勢。
日前,英偉達主辦的 GTC 2025 全球人工智能盛會正在美國召開,物理 AI 成為關鍵詞之一。
英偉達 CEO 黃仁勳在 GTC 上介紹了 AI 研發的發展歷程,從最初的意識 AI,到現在的生成式 AI,預計即將進入代理式 AI 的時代,接下來將是物理 AI,也就是機器人的時代。
在物理 AI 時代到來之前,如何讓機器人具備真正 “看懂世界” 的核心能力,是行業的發力重點。
此次會議上上,“杭州 AI 六小龍” 羣核科技宣佈開源了自主研發的空間理解模型 SpatialLM,目前已在 HuggingFace、GitHub、魔搭社區等平台上線。
羣核科技向信風介紹,基於從視頻中提取的點雲數據,SpatialLM 模型能夠準確認知和理解其中的結構化場景信息,並基於這一視頻生成物理正確的 3D 場景佈局。
如此一來,企業可以針對特定場景對 SpatialLM 模型進行微調,降低具身智能訓練門檻。
這一模型與羣核科技 2024 年發佈的空間智能平台 SpatialVerse 具有協同作用。
SpatialLM 模型通過從視頻到結構化場景的轉化,將現實世界的數據轉化為虛擬環境中的豐富場景,基於 SpatialVerse 的合成數據引擎,一個結構化場景又可泛化生成億萬級新場景。
這意味着,一個基於真實世界的場景可以演化成無數個新場景,大大降低了機器人的訓練成本。
不過羣核科技的 SpatialLM 並非獨有,目前行業內已有公司推出類似的參數模型。
2024 年,Meta 發佈了 SceneScript 模型,能將真實世界的場景轉化為幾何表示,並進行場景拓展。
據羣核科技人士介紹,相比 SceneScript,SpatialLM 的重要優勢在於支持對物理世界中空間信息的認知理解,和結構化描述;輸入方面,SceneScript 需要依賴 Meta 定製化的眼鏡,但 SpatialLM 面向普通相機、手機的視頻作為輸入,更具通用性。
在空間和具身智能訓練上,目前羣核科技已與硅谷頭部科技企業達成合作。
資本化進程上,羣核科技已於今年 2 月向港交所遞交 IPO 申請,有望成為 “杭州六小龍” 中首家上市公司。
風險提示及免責條款
市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。
