"The World Model" - The next "battleground" for AI, with NVIDIA and Google both entering the fray

“世界模型” 被业内吹捧为是 AI 领域的下一个关键突破，英伟达，谷歌以及不少初创企业都在追逐世界模型，英伟达推出 Cosmos 世界模型，谷歌旗下 DeepMind 组建世界模型研究团队，AI 教母” 李飞飞的 World Labs 筹集 2.3 亿美元构建 “大世界模型”……

来源：硬 AI

作者：赵颖

黄仁勋身着新皮衣亮相 2025 CES，除了推出炸裂的 GPU RTX 5090 之外，还宣布入局 AI 领域当下最关键的方向一 “世界模型”。

1 月 7 日，黄仁勋在 2025 年拉斯维加斯消费电子展（CES）上宣布，推出 Cosmos 世界模型（Cosmos World Foundation Models，简称 Cosmos WFMs），该模型专为理解物理世界打造，可预测和生成 “物理感知” 的视频。

具体来看，Cosmos WFMs 分为三类：

（1）Nano：适用于低延迟和实时应用；（2）Super：高性能基线模型；（3）最高质量和保真度输出。

这些模型的参数规模从 40 亿到 140 亿不等，Nano 最小，Ultra 最大。英伟达还发布了上采样模型、针对增强现实优化的视频解码器以及确保负责任使用的 guardrail 模型。

实际上，除了英伟达，谷歌以及不少初创企业也在追逐世界模型，谷歌旗下 DeepMind 组建世界模型研究团队，聘请 Sora 核心人员 Tim Brooks 掌舵。此外，“AI 教母” 李飞飞的 World Labs、初创公司 Decart、 Odyssey 也都涉足其中。

不仅引得一众科技企业逐鹿，“世界模型” 还被业内吹捧为是 AI 领域的下一个关键突破，那么 “世界模型” 到底指的是什么？它的重要之处在于哪里？

英伟达入局 “世界模型”，一众科技巨头 “逐鹿”

据英伟达介绍称，Cosmos WFMs 经过了 9000 万亿个 token 的训练，数据来自 2000 万小时的真实世界人类互动、环境、工业、机器人和驾驶数据。模型可针对特定应用进行微调，通过英伟达 API 和 NGC 目录、GitHub 和 AI 开发平台 Hugging Face 可获得。

多家企业已开始试用 Cosmos，英伟达表示，Waabi、Wayve、Fortellix 和 Uber 等多家已经承诺在各种用例中试用 CosmosWFM，从视频搜索和策划到为自动驾驶汽车构建 AI 模型。

不过，由于英伟达拒绝透露训练数据的具体来源，这引发了版权争议，分析称这正是英伟达将这些模型称为 “开放” 而不是 “开源” 的原因。

与此同时，谷歌 DeepMind 也在积极布局世界模型领域。根据 TechCrunch 报道，DeepMind 正在组建一支专门的世界模型研究团队，以扩大其在该领域的领先地位。该团队将由前 OpenAI 研究员 Tim Brooks 领导，他于去年 10 月加入 DeepMind。

DeepMind 上个月发布了 Genie，该模型可模拟虚拟世界以及逼真的动画和物理效果，并支持所有这些元素之间的交互。例如用户可以使用 Genie 创建的各种示例世界，包括航海模拟、赛博朋克西部片等，还可以使用文本、图像或两者的组合来提示 Genie。

除了英伟达、谷歌等科技巨头，还有不少耀眼的初创玩家。“AI 教母” 李飞飞的 World Labs 已筹集 2.3 亿美元用于构建 “大世界模型”，以及 Decart、 Odyssey 等公司也入局其中。此外，OpenAI 此前发布的 Sora 模型也可视为一种 “世界模型"，它能够模拟如画家在画布上留下笔触等行为，以及渲染类似 Minecraft 的 UI 和游戏世界。

AI 领域的下一个关键突破：世界模型

什么是 AI“世界模型”？为什么它们很重要？

具体来看，世界模型是指通过大量图像、音频、视频和文本数据训练，创建对世界运作方式的内部表征，并能推理行为的后果。这使它们能更好地理解和模拟现实世界的规律。

世界模型的概念源自人类大脑形成的心智模型，我们的大脑能够将感官获取的抽象信息整合成对周围世界的具体理解，从而形成"模型"，这些模型帮助我们预测和感知世界。

世界模型的特点是试图超越数据，模拟人类的潜意识推理，例如，棒球击球手能在毫秒内决定如何挥棒，是因为他们能本能地预测球的轨迹。这种潜意识推理能力被认为是实现人类级智能的先决条件之一。

“世界模型” 的意义在于可以实现复杂推理和规划，还将生成式视频技术的突破：

1. 生成式视频技术的突破：世界模型在生成式视频领域展现出巨大潜力。与传统的生成模型相比，具备基本物理规律理解的世界模型能更准确地模拟物体的运动。例如，它不仅能预测篮球会弹跳，还能理解为什么会弹跳。Snap 前 AI 负责人、Higgsfield 公司 CEO Alex Mashrabov 表示，有了强大的世界模型，创作者就不需要为每个物体定义预期的运动方式，模型本身就能理解这些。

2. 复杂预测和规划：Meta 首席 AI 科学家 Yann LeCun 认为，世界模型未来可能用于数字和物理领域的复杂预测和规划。例如，给定一个脏乱的房间（初始状态）和一个整洁的房间（目标状态），世界模型可以推理出一系列清洁行动，而不仅仅是根据观察到的模式进行操作。

拥有这些能力后，“世界模型” 可广泛赋能影视、游戏，自动驾驶以及机器人等行业。

World Labs 联合创始人 Justin Johnson 预测，未来的世界模型可能能够按需生成用于游戏、虚拟摄影等用途的 3D 世界，大大降低开发成本和时间。世界模型将不仅能获得图像或视频片段，还能得到一个完全模拟的、生动的、可交互的 3D 世界。

代表好莱坞动画师和漫画家的工会动画协会 (Animation Guild) 一项 2024 年研究估计，人工智能有可能在未来两年内颠覆美国 10 多万个电影、电视和动画工作岗位。

世界模型还有望推动机器人技术进步，通过增强机器人对周围环境和自身的感知能力，帮助它们更好地理解所处情境并推理可能的解决方案。

尽管前景诱人，世界模型的发展仍面临诸多技术挑战：

巨大的计算需求：训练和运行"世界模型"需要比当前生成模型更多的计算能力；幻觉和偏见问题：像所有 AI 模型一样，"世界模型"也会产生幻觉并内化训练数据中的偏见。

训练数据限制：缺乏足够广泛而又具体的训练数据可能会加剧上述问题。复杂行为模拟：目前的模型难以准确捕捉世界居民（如人类和动物）的行为。

过去一年 AI 技术在多元方向持续突破，世界模型被视为下一个重大突破。虽然距离成熟的 “世界模型” 还有数年时间距离，但这一技术已展现出巨大潜力。如果所有主要障碍都能克服，“世界模型” 有望在虚拟世界生成、机器人技术和 AI 决策等领域带来重大突破，为人工智能与现实世界的融合开辟新的途径。