
英伟达开启” 物理 AI“大时代,直指机器人” ChatGPT 时刻 “

物理 AI 赋予机器人更强的环境感知、理解和交互能力。黄仁勋在 CES 大会上表示,物理 AI 将彻底改变价值 50 万亿美元的制造业和物流业,“机器人领域的 ‘ChatGPT 时刻’ 即将到来。”
作者:张雅琦
来源:硬 AI
机器人即将迎来 “ChatGPT 时刻”?英伟达在 CES 2025 重磅发布 Cosmos 世界基础模型平台,或掀起 “物理 AI” 革命。
这个平台被称为加速 “物理 AI” 发展的关键一步,目标是推动自动驾驶汽车和机器人领域迈向更高水平。
物理 AI 赋予机器人更强的环境感知、理解和交互能力。物理 AI 的进步将极大地推动自动驾驶和机器人等对物理场景要求较高的产业发展。黄仁勋在 CES 大会上表示,物理 AI 将彻底改变价值 50 万亿美元的制造业和物流业,从汽车、卡车到工厂、仓库,所有移动的事物都将实现机器人化,并由 AI 驱动。
据英伟达官网介绍,物理 AI 体系包含以 Omniverse、Cosmos、Isaac Sim 等关键组成部分。其中 Cosmos 平台利用了超过 2000 万小时的视频训练数据,旨在 “教会 AI 理解物理世界”。
什么是物理 AI?
物理 AI,也称为生成式物理 AI,是一种使自主机器(如机器人、自动驾驶汽车等)能够在真实物理世界中感知、理解和执行复杂操作的技术。
它扩展了传统的生成式 AI,使其能够理解 3D 世界的空间关系和物理行为。通俗地理解,就是人工智能反馈的内容要符合物理规律。
例如,文生图或者文生视频模型,如果不考虑物理,那生成的内容就缺乏了重力、光学等细节,在加入物理知识后,生成的内容将更加逼真。
黄仁勋早在今年早些时候就强调过,“AI 的新一波浪潮是物理 AI”。
物理 AI 将赋予机器人更强的环境感知、理解和交互能力。传统的机器人只能按照预设程序执行任务,而搭载物理 AI 的机器人则能够更好地理解周围环境,并根据物理规律做出相应的反应。它们可以更好地识别物体、预测运动轨迹、并在复杂环境中进行导航和操作。
“物理 AI 将彻底改变价值 50 万亿美元的制造业和物流业,”黄仁勋在本次 CES 国际消费电子展上表示:
“从汽车、卡车到工厂、仓库,所有移动的事物都将实现机器人化,并由 AI 驱动。英伟达的 Omniverse 数字孪生操作系统和 Cosmos 物理 AI 是推动全球实体产业数字化的基石。”
英伟达构建了一个完整的物理 AI 生态系统。据英伟达官网介绍,物理 AI 体系包含以 Omniverse、Cosmos、Isaac Sim 等关键组成部分。
Omniverse:加速 3D 内容创作和物理仿真
Omniverse 是一个开放平台,用于构建和连接 3D 世界。它提供了一系列工具、API 和 SDK,使开发者能够轻松地创建高保真、基于物理的虚拟环境,用于训练和测试 AI 模型。
Omniverse 的核心是通用场景描述(OpenUSD),它允许不同 3D 工具之间的数据互操作性。Omniverse 在此次发布中也得到了进一步的扩展,例如通过 NVIDIA Edify SimReady 生成式 AI 模型,可以自动为现有 3D 资产添加物理效果或材质等属性,大大加速了 3D 内容的创建和准备过程。
申万宏源表示,英伟达的未来设想中,机器人技术的发展依赖于三台核心计算机。
一台用于训练 AI,一台用于控制物理仿真环境中的测试 AI,以及一台安装在机器人或智能汽车内部的模拟环境计算机,支持物理 AI 算法。
目前正在应用的场景之一在于仿真环境中验证程序逻辑的可靠性;第二个就是获取难以从真实世界获得的数据以持续训练 AI 模型,目前许多大厂都在采用这种方式,从软件角度,仿真领域的优势企业 Ansys,其仿真产品也可以通过英伟达的 Omniverse 进行访问,凭借 Ansys 面向摄像头、激光雷达和雷达传感器的物理求解器,增强 NVIDIA DRIVE 的高保真和可扩展的 3D 环境,这对于自动驾驶系统的开发至关重要。
通过这种方式,未来行驶过程中的所有数据都可以实时反馈,用于决策制定,同时生成更多类似数据以模拟更多场景,加速训练效果的提升,突破了数据获取的瓶颈。
申万宏源认为,英伟达对 Omniverse 的大量投入预示着其算力未来的方向主要集中在大模型 AI 生成、机器人和智能驾驶领域。
Cosmos WFMs:让 AI 理解物理世界的关键一步
物理 AI 的开发极为复杂,需要海量的真实世界数据和长时间的测试,开发成本高昂。
而英伟达的 Cosmos 平台正是为了解决这一痛点,通过其生成式世界基础模型提供物理仿真数据生成能力。Cosmos WFMs 让开发者能够快速生成基于真实物理规律的高仿真数据,降低依赖昂贵现实数据的需求。
黄仁勋在主题演讲中指出,Cosmos 平台利用了超过 2000 万小时的视频训练数据,旨在“教会 AI 理解物理世界”。

这些模型通过将文本、图像、视频以及机器人传感器数据结合,生成多样化的物理环境场景,比如雪地驾驶、拥挤仓库等,从而为自动驾驶和机器人开发提供关键支持。
Cosmos 使用了英伟达的 NeMo Curator 框架以及 CUDA 加速数据处理流水线,在 14 天内即可完成对 2000 万小时视频的处理工作,而这一任务在传统 CPU 环境下需要 3.4 年。
Cosmos Tokenizer 作为一种最先进的视觉标记器,能够将图像和视频转化为高效的视觉标记,处理速度提升 12 倍,压缩效率提升 8 倍。
黄仁勋表示:“机器人领域的 ‘ChatGPT 时刻’ 即将到来。”和大语言模型(LLMs)推动自然语言处理一样,Cosmos WFMs 被认为是机器人和自动驾驶发展的基础性工具:
“我们创建 Cosmos 是为了让物理 AI 民主化,让每个开发人员都能接触到通用机器人技术。”

可以说,Cosmos 的发布,补全了英伟达物理 AI 体系中 “理解世界” 的重要一环。
多家行业巨头拥抱 Cosmos
多家领先企业已经成为 Cosmos 的首批用户,包括 1X、Agile Robots、Waabi、Uber 等。这些企业正在利用 Cosmos 平台推动机器人与自动驾驶技术的进步。

以 Uber 为例,通过整合其丰富的驾驶数据与 Cosmos 平台和 NVIDIA DGX Cloud 的功能,Uber 正与英伟达合作加速开发安全且可扩展的自动驾驶解决方案。
Uber 首席执行官 Dara Khosrowshahi 表示:
“生成式人工智能将为未来的出行提供动力,这需要丰富的数据和非常强大的计算能力。通过与英伟达合作,我们相信我们能够帮助加速行业安全且可扩展的自动驾驶解决方案的开发。”
Agility 首席技术官 Pras Velagapudi 在一份声明中表示:
“数据稀缺性和多变性是机器人环境中成功学习的关键挑战。Cosmos 的文本、图像和视频到世界功能使我们能够在各种任务中生成和增强逼真的场景,我们可以使用这些场景来训练模型,而无需花费大量昂贵的真实世界数据捕获。”
目前,Cosmos WFMs 已通过英伟达 NGC 和 Hugging Face 平台开放下载,开发者可使用这些模型及其微调框架。此外,Cosmos 还将通过英伟达的 DGX Cloud 实现快速部署,并为企业用户提供全面支持。
