Dojo - Musk's High-Stakes Bet on "Autonomous Driving"

华尔街见闻
2024.08.04 06:32

科技媒体 TechCrunch 报道称,Dojo 计划的核心是特斯拉的专有 D1 芯片,这意味着特斯拉将来可能不必依赖英伟达的芯片,低成本就可以获取大量算力。预计今年年底前,Dojo1 将实现与约 8000 块 H100 等效的在线训练。

本文作者:李笑寅

来源:硬 AI

Dojo 超级计算机对特斯拉的重要性正在与日俱增。

对于马斯克来说,Dojo 不仅仅是特斯拉用来在云端训练自动驾驶模型的超级计算机,实际上,它已经成为马斯克商业帝国下 AI 业务的基石。

大摩此前甚至将 Dojo 比喻为 “特斯拉的 AWS”,认为其将成为特斯拉未来最大的价值驱动因素。

在马斯克宏伟的 AI 蓝图中,Dojo 到底起到怎样的作用?当地时间周六上午,科技媒体 TechCrunch 记者 Rebecca Bellan 发布深度报道《Tesla Dojo: Elon Musk’s big plan to build an AI supercomputer, explained》,以 Dojo 为出发点,详细解释了马斯克的 AI 计划。

以下是文章亮点:

1、特斯拉的纯视觉路径(仅依靠摄像头而非传感器来捕捉数据)是其需要超级计算机的主要原因。

2、特斯拉的目标是在接下来的大约 18 个月内实现 “半特斯拉 AI 硬件,半英伟达/其他”,“其他” 可能是 AMD 芯片。

3、Dojo 计划的核心是特斯拉的专有 D1 芯片,这意味着特斯拉将来可能不必依赖英伟达的芯片,低成本就可以获取大量算力。

4、Dojo 芯片是特斯拉的保险单,可能会带来红利。

5、预计到今年 10 月,Dojo 的总算力将达到 100 exaflops,约等于 320500 块英伟达 A100 GPU 的算力水平;预计今年年底前,Dojo1 将实现与约 8000 块 H100 等效的在线训练。

文章全文如下:

多年来,埃隆·马斯克一直在谈论 Dojo——这是将成为特斯拉人工智能雄心基石的人工智能超级计算机。这个项目对马斯克来说非常重要,他最近表示,随着特斯拉准备在 10 月公布其 robotaxi,公司的人工智能团队将 “加倍发力” 推进 Dojo 项目。

但 Dojo 究竟是什么?它对特斯拉的长期战略为何如此关键?

简而言之:Dojo 是特斯拉定制构建的超级计算机,旨在训练其 “全自动驾驶” 的神经网络。提升 Dojo 与特斯拉实现全自动驾驶并将 robotaxi 推向市场的目标密切相关。FSD 目前在大约 200 万辆特斯拉汽车上,可以执行一些自动化驾驶任务,但仍然需要人类在驾驶座保持注意力。

特斯拉将原定于 8 月公布其 robotaxi 的时间推迟到了 10 月,但无论是马斯克的公开言论还是特斯拉内部的消息源都告诉我们,自动驾驶的目标并未消失。

特斯拉似乎正准备在人工智能和 Dojo 上投入巨资以实现这一壮举。

特斯拉 Dojo 背后的故事

马斯克不希望特斯拉仅仅是一家汽车制造商,或不仅仅是太阳能电池板和能源存储系统的提供商。相反,他希望特斯拉成为一家人工智能公司,一家通过模仿人类感知来破解自动驾驶汽车代码的公司。

大多数其他开发自动驾驶汽车技术的公司都依赖传感器的组合来感知世界(比如激光雷达、雷达和摄像头)以及高清晰度地图来定位车辆。特斯拉相信,它可以仅依靠摄像头来捕捉视觉数据,然后使用先进的神经网络来处理这些数据,并快速决定汽车应该如何表现。

正如特斯拉前人工智能主管 Andrej Karpathy 在 2021 年该公司的首次 AI Day 上所说,公司基本上正在尝试 “从头开始构建一个合成生物”。(马斯克自 2019 年以来一直在预告 Dojo,但特斯拉在 AI Day 正式宣布了它。)

像 Alphabet 的 Waymo 这样的公司,已经通过更传统的传感器和机器学习方法,实现了 4 级自动驾驶汽车的商业化——SAE 将其定义为在特定条件下无需人类干预即可自行驾驶的系统。而特斯拉至今还未生产出一个不需要人类参与的自动驾驶系统。

大约有 180 万人为特斯拉的 FSD 支付了高昂的订阅费,目前其价格为 8000 美元,最高时定价为 15000 美元。推销的点是,经过 Dojo 训练的人工智能软件最终将通过隔空更新推送给特斯拉客户。FSD 的规模也意味着特斯拉已经能够收集到数百万英里的视频片段,用于训练 FSD。这意味着,特斯拉能够收集的数据越多,这家汽车制造商就越接近实现真正的全自动驾驶。

然而,一些行业专家表示,简单地向模型投入更多数据并期望它变得更聪明的方法可能存在局限性。

“首先,存在经济限制,这样做很快就会变得成本过高,” 普渡大学硅谷电子与计算机工程教授 Anand Raghunathan 对 TechCrunch 表示。他进一步说,“有声音说我们实际上可能会耗尽有意义数据来训练模型。更多的数据并不一定意味着更多的信息,所以这取决于那些数据是否包含有用信息来创建一个更好的模型,以及训练过程是否能够真正将这些信息提炼成更好的模型。”

Raghunathan 说,尽管有这些疑虑,但至少在短期内,数据似乎会更多。更多的数据意味着需要更多的算力来存储和处理,以训练特斯拉的 AI 模型。这就是超级计算机 Dojo 的用武之地。

什么是超级计算机?

Dojo 是特斯拉设计的超级计算机系统,用作人工智能,特别是 FSD 的训练场。这个名字是对武术练习道场的致敬。

超级计算机由数千台称为节点的小型计算机组成。这些节点各自拥有自己的 CPU(中央处理单元)和 GPU(图形处理单元)。前者负责节点的总体管理,后者则处理复杂的事情,比如将任务分割成多个部分并同时进行处理。GPU 对机器学习操作至关重要,就像它们支持 FSD 训练模拟一样。它们还支持大型语言模型,这就是为什么生成式 AI 的崛起使得英伟达成为地球上最有价值的公司。

甚至特斯拉也购买英伟达的 GPU 来训练其人工智能(这是后话)。

为什么特斯拉需要超级计算机?

特斯拉的纯视觉路径是其需要超级计算机的主要原因。FSD 背后的神经网络是在大量驾驶数据上训练的,以识别和分类车辆周围的物体,然后做出驾驶决策。这意味着当 FSD 启动时,神经网络必须连续不断地收集和处理视觉数据,速度要与人类深度和速度识别能力相匹配。

换句话说,特斯拉想要创造一个数字版的人类视觉皮层和大脑功能。

为了达到这个目标,特斯拉需要存储和处理从世界各地的汽车收集的所有视频数据,并运行数百万次模拟来训练其模型上的数据。

特斯拉似乎依赖英伟达为其当前 Dojo 训练计算机提供动力,但它不想把所有鸡蛋放在一个篮子里——尤其是因为英伟达芯片价格昂贵。特斯拉还希望制造出更好的东西,增加带宽并减少延迟。这就是为什么这家汽车制造商的 AI 部门决定提出自己的定制硬件计划,该计划旨在比传统系统更有效地训练 AI 模型。

该计划的核心是特斯拉的专有 D1 芯片,该公司表示这些芯片已针对 AI 工作负载进行了优化。

更多关于这些芯片的信息

特斯拉与苹果持有类似的观点,即认为硬件和软件应该被设计为一起工作。这就是为什么特斯拉正在努力摆脱标准 GPU 硬件、设计自己的芯片来驱动 Dojo。

特斯拉在 2021 年的 AI Day 上展示了其 D1 芯片,这是一个手掌大小的硅方块。截至今年 5 月,D1 芯片已经投入生产。中国台湾半导体制造公司台积电正在使用 7 纳米制程工艺制造这些芯片。根据特斯拉的说法,D1 拥有 500 亿个晶体管和一个 645 平方毫米的大尺寸,这一切都在说 D1 承诺将非常强大和高效,并能够快速处理复杂任务。

“我们可以同时进行计算和数据传输,我们的定制 ISA(指令集架构)完全针对机器学习工作负载进行了优化,” 特斯拉前自动驾驶硬件高级总监甘尼什·文卡塔拉曼在 2021 年特斯拉 AI Day 上说。“这是一个纯粹的机器学习机器。”

尽管如此,D1 芯片仍然不如英伟达的 A100 芯片强大,后者也是由台积电使用 7 纳米工艺制造的。A100 拥有 540 亿个晶体管,尺寸为 826 平方毫米,所以在性能上略胜于特斯拉的 D1。

为了获得更高的带宽和计算能力,特斯拉的 AI 团队将 25 个 D1 芯片融合在一起形成一个区块,作为一个统一的计算机系统。每个区块具有 9 petaflops 的计算能力和每秒 36 TB 的带宽,并包含电源、冷却和数据传输所需的所有硬件。你可以将这个区块想象成一个由 25 台小型计算机组成的自给自足的计算机。六个这样的区块组成一个机架,两个机架组成一个机柜。十个机柜组成一个 ExaPOD。在 2022 年的 AI Day 上,特斯拉表示 Dojo 将通过部署多个 ExaPODs 来扩展。所有这些加在一起构成了超级计算机。

特斯拉还在开发下一代 D2 芯片,旨在解决信息流瓶颈问题。D2 不是连接各个芯片,而是将整个 Dojo 块放置在单个硅片上。

特斯拉尚未确认它已订购或预计收货多少 D1 芯片,也还没有提供将 Dojo 超级计算机在 D1 芯片上运行所需的时间表。

6 月在 X 上的一篇帖子称:“埃隆正在德克萨斯州建造一个巨大的 GPU 冷却器”,对此,马斯克回复说,特斯拉的目标是在接下来的大约 18 个月内实现 “半特斯拉 AI 硬件,半英伟达/其他”。根据马斯克 1 月的评论,“其他” 可能是 AMD 芯片

Dojo 对特斯拉意味着什么?

控制自己的芯片生产意味着特斯拉有一天可能能够以低成本快速为人工智能培训项目添加大量计算能力,特别是在特斯拉和台积电扩大芯片生产规模的情况下。

这也意味着特斯拉将来可能不必依赖英伟达的芯片,这些芯片的价格越来越高,也越来越难以确保。

在特斯拉第二季度财报电话会议上,马斯克表示,对英伟达硬件的需求 “如此之高,以至于通常很难获得 GPU。” 他说,他对能够稳定地在需要时获得 GPU“相当担忧”,“因此我认为这需要我们在 Dojo 上投入更多的努力,以确保我们拥有所需的培训能力。”

话虽如此,特斯拉今天仍在购买英伟达芯片来训练其 AI。6 月,马斯克在 X 上发帖说:

“在我所说的特斯拉今年将进行的大约 100 亿美元与 AI 相关的支出中,大约一半是内部的,主要是特斯拉设计的 AI 推理计算机和我们所有汽车中存在的传感器,加上 Dojo。对于构建 AI 培训超级集群,英伟达硬件大约占到成本的 2/3。我目前对特斯拉今年购买英伟达的最佳猜测是 30 亿到 40 亿美元。”

推理计算指的是特斯拉汽车实时执行的 AI 计算,与 Dojo 负责的训练计算是分开的。

Dojo 是一个冒险的赌注,马斯克通过多次表示特斯拉可能不会成功,以此来对冲这一赌注。

从长远来看,特斯拉理论上可以基于其 AI 部门创建一种新的商业模式。马斯克曾表示,Dojo 的第一个版本将专门为特斯拉计算机视觉标记和培训量身定制,这对 FSD 和培训 Optimus(特斯拉的仿人机器人)非常有利,但对其他事情没什么用处。

马斯克曾表示,Dojo 的后续版本将更倾向于通用 AI 培训。与此相关的一个潜在问题是,几乎所有现有的 AI 软件都是为 GPU 编写的。使用 Dojo 来训练通用 AI 模型将需要重写软件。

除非特斯拉出租其算力,类似于 AWS 和 Azure 出租云计算能力的方式。马斯克在第二季度收益电话会议上还指出,他看到 “通过 Dojo 与英伟达竞争的一条路”。

摩根士丹利在 2023 年 9 月的一份报告中预测,Dojo 可以通过解锁 robotaxi 和软件服务的新收入流,为特斯拉市值增加 5000 亿美元。

简而言之,Dojo 的芯片是这家汽车制造商的保险单,可能会带来红利。

Dojo 进展如何?

路透社去年报道称,特斯拉于 2023 年 7 月开始生产 Dojo,但马斯克在 2023 年 6 月的一篇文章中暗示,Dojo 已经 “在线并运行有用的任务几个月了。”

大约在同一时间,特斯拉表示,预计到 2024 年 2 月,Dojo 将成为最强大的五台超级计算机之一——这一壮举尚未公开披露,让我们怀疑它是否已经发生。

该公司还预计,到 2024 年 10 月,Dojo 的总算力将达到 100 exaflops。(1 exaflop 等于每秒 1 千万亿次计算机操作。要达到 100 exaflops,假设一块 D1 能达到 362 teraflops,特斯拉将需要超过 276,000 块 D1,或大约 320,500 块英伟达 A100 GPU。)

特斯拉还在 2024 年 1 月承诺投资 5 亿美元,在纽约州布法罗的超级工厂建造一台 Dojo 超级计算机。

2024 年 5 月,马斯克指出,特斯拉奥斯汀超级工厂的后部将保留用于 “超密集的水冷超级计算机集群”。

就在特斯拉二季度财报电话会议后,马斯克在 X 上发帖称,这家汽车制造商的 AI 团队正在使用特斯拉 HW4 AI 计算机(更名为 AI4),这是特斯拉汽车中的硬件,存在于英伟达 GPU 的训练循环中。他指出,细分大约是 90,000 个英伟达的 H100 加上 40,000 台 AI4 计算机。

他继续说:“Dojo1 将在今年年底前实现与约 8,000 块 H100 等效的在线训练。不是很多,但也不少。”