特斯拉 AI Day 全记录 + 解读：算力怪兽 DOJO，纯视觉 FSD 强在哪，还有特斯拉机器人！

本文来自：电动星球大概两个小时前，可能是特斯拉本年度最重要，也可能是汽车领域——甚至科技行业本年度非常重要的一次发布会，刚刚结束。2019 年的 Autonomous Day 上，特斯拉带来了首款车企自研的自动驾驶计算方案；2020 年的 Battery Day，马斯克又发布了号称续航提升 54% 的 4680 电池 + 一体式底盘。而今天的 AI Day，特斯拉正式兑现了马斯克承诺的「一家人工智能公司」，发布了第一款汽车企业自研的人工智能训练芯片 D1，以及目前性能最强的人工智能计算机柜 DOJO Pod——它会为特斯拉的纯视觉 FSD 深度学习服务。除此以外，特斯拉还公开了纯视觉 FSD 的工作原理、遇到的挑战，以及 Autopilot 软件团队的解决方案。最出乎意料的，是马斯克带来了 one more thing——特斯拉研发的机器人 Tesla Bot！我们用尽可能易懂的表达，尽量摘录了大部分内容，但时间关系，具体的原理今天很难展开讨论，请大家见谅。今天的文章不短，而且很多图，但我们还是强烈建议您看完全文，因为这场发布会实在太炸裂。

大概两个小时前，可能是特斯拉本年度最重要，也可能是汽车领域——甚至科技行业本年度非常重要的一次发布会，刚刚结束。

2019 年的 Autonomous Day 上，特斯拉带来了首款车企自研的自动驾驶计算方案；2020 年的 Battery Day，马斯克又发布了号称续航提升 54% 的 4680 电池 + 一体式底盘。

而今天的 AI Day，特斯拉正式兑现了马斯克承诺的「一家人工智能公司」，发布了第一款汽车企业自研的人工智能训练芯片 D1，以及目前性能最强的人工智能计算机柜 DOJO Pod——它会为特斯拉的纯视觉 FSD 深度学习服务。

除此以外，特斯拉还公开了纯视觉 FSD 的工作原理、遇到的挑战，以及 Autopilot 软件团队的解决方案。

最出乎意料的，是马斯克带来了 one more thing——特斯拉研发的机器人 Tesla Bot！

我们用尽可能易懂的表达，尽量摘录了大部分内容，但时间关系，具体的原理今天很难展开讨论，请大家见谅。

今天的文章不短，而且很多图，但我们还是强烈建议您看完全文，因为这场发布会实在太炸裂。

前言：特斯拉的 AI 原命题

如果你制定了超越一个行业的计划，要不你是个疯子，要不你就会滚起认知和实践的雪球，做到无数个「第一次」。

特斯拉就是典例。

DOJO 的诞生并不是为了称霸超算界而称霸超算界，它更像是普罗米修斯手里的火种，目的是为特斯拉，以及后面的一众车企/技术公司，照亮人工智能的前路。

所以进入正文前，请大家牢记一个问题：当前地球量产科技基础上，如何打造最极致的人工智能？

因为这是 DOJO、FSD、Tesla Bot 的灵魂，也是特斯拉本次 AI Day 的原命题。

一、「用眼睛开车」

很多朋友已经对这句话倒背如流，不过今天还是得重复一次，作为本章节的纲领——「你会开车，是因为你用眼睛看路，而不是眼睛发射激光」。

这句话将一个深刻的道理极限地浅显化，以至于引来了可能是自动驾驶领域最激烈（起码之一）的争论。

这个道理是：人类经过漫长岁月的进化，已经形成了一套从眼睛开始，以大脑为中枢，肢体为具现的「地球 OL 启动器」。

所以，特斯拉的纯视觉方法论，并不像是绕开雷达信号融合的「捷径」，反而可能是最形而上学的蜀道难——因为特斯拉希望造一个轮子上的人。

前不久的 2021 CVPR 计算机视觉会议上，特斯拉 AI 部门高级主管 Andrej Karpathy 已经分享了很多 Autopilot 软件细节，大家可以点击这里回看我们的报道，今天我们只聊特斯拉做到了什么。

想要实现 Andrej 说过的，让汽车用眼睛开车，有摄像头是不够的，关键是如何分解摄像头信号，又如何让汽车思考这些信号。

但事实上，先不说更深层次的「思考」，光是让纯视觉「认清」一样东西，就已经需要耗费大量努力。

和我们开眼看世界不太一样，摄像头看到的是像素集合，因此神经网络要做的，是分析每个像素之间的联系，并判断哪些像素集合成哪些物体。

点线面体，我们现在来到了「体」，也就是由无数同一时间发生的、存在的事物组成的真实世界。以驾驶为例子，「障碍物」、「交通灯」、「车道线」等等，都是需要神经网络认清的元素。

于是我们需要多任务深度学习，特斯拉则将自己的多任务网络称为「HydraNets」。

纯视觉 Autopilot 数据，由 8 个摄像头，每个摄像头每秒拍摄的 36 帧画面组成，所以每一帧的最终效果如下图所示——每秒一共有 36 组这样的画面。

挑战随即而至：多摄像头融合的界限很难划分、图像内的空间也并不是最终映射的实际空间（类似于畸变）。

一个明显的例子是长长的半挂，同时出现在 5 个摄像头的视野内：

除了看清物体，看路也是至关重要的一环，特别是正确识别道路的边界。在这张范例里，道路边缘的特征点被车辆阻挡，这时候就需要从画面其他部分「寻找线索」。

事实上，让车子搞清楚「需要看哪里」，同样不是容易的事情，特斯拉把算法的简单结构 po 了出来：

接下来要搞定的，是如何「看得完整」。也就是正确识别某个物体跨越多个摄像头的全部运动轨迹，比如前面有车经过：

最后是「记得你看过的东西」。

我们在开车的时候，以往的经验会告诉我们，路边停着的车队中间可能会窜出一个人、单行道上没有打双闪的车，停下来也许短时间也不会走...

以至于速度、方向、标识等等纷繁的细节，它们都组成了我们对路况即时的记忆，然后决定了我们什么时候应该做什么。

二、FSD 老司机成长记

在特斯拉的理解里，自动驾驶的目标，就是同时最大化安全 safety、舒适 comfort，以及效率 efficiency。是的，同时，缺一不可。

第一段说「看路」，本质上是自动驾驶的感知。而本段讨论的则是规划，以及控制。事实上特斯拉用了海量篇幅讨论「规划」，控制相对少很多。

我们直接看疗效：

比如上图，我们经过一个十字路口之后，前方还要左转。这时候有多种操作方式：减速提早变线、加速推迟变线，等等。但每个选择都可能有缺点，依据的路况也不一样，这就是 coarse search 粗搜索。

特斯拉表示仅仅 1.5 毫秒内，系统就可以做出 2500 个粗搜索。灵光一现也许都不太够用，这得灵光 2500 现。

即使是灵光 2500 万现，最终也得往前开。经历众多备选项之后，系统就可以做出相对合理的抉择，在兼顾舒适与安全的基础上，尽量简单地把弯给转了，这就是 smooth trajectory 平滑轨迹。

自动驾驶的科目二和科目三几乎是一起上的，而且课程极其繁重——因为路况瞬息万变。

这时候依然需要粗搜索大法，以停车场为例，在走过一个弯的路程内，Autopilot 已经进行了接近 40 万次的粗搜索：

对于特斯拉来说，规划的最终目的，就是为了 Corridor 行驶通道内的安全、顺滑和速度不断优化。

三、一切为了数据，为了数据的一切

2021 CVPR 会议上，Andrej 表示特斯拉转向纯视觉深度学习之后，已经积累了超过 60 亿个物体标签，超过 1.5PB 的数据量——那还只是 6 月底。

为了应对如此庞大的数据，特斯拉表示他们目前拥有一支 1000 人的数据标签队伍，与工程师一起工作，打造了完全定制化的数据标签&分析架构。

在传统的 2D 图像标注基础上，特斯拉现在可以实现 4D，也就是立体空间 + 时间戳的四维标注，效果如图：

另外，销量屡创新高，路上跑的车越来越多之后，特斯拉如今可以对同一条路做多次数据收集：

加上墙壁、路障，和其他所有物体，再加上周边行人、车辆的闭环整合，一辆特斯拉眼中的数据世界，是这样的：

四、Dojo，地表最强！

终于来到本次发布会的重中之重了。

目前特斯拉唯一一款自研芯片，是 FSD Chip。单芯算力 72TOPS，双芯组成的 Autopilot 硬件 3.0 算力 144TOPS。

除了装在 SEXY 家族车型上，特斯拉还在用硬件 3.0 做 AI 评估，超过 3000 块 HW3.0 主板组成的 3 个数据中心，每周可以运行 100 万次循环。

而前不久 Andrej「爆料」的，目前用于神经网络训练的超级计算机，则使用了英伟达 A100 GPU 方案，合计 5760 个 GPU 以及 12PB（1PB=1024TB）的 NVME 高速存储器。

但在 Dojo 面前，它俩都像是上一个时代的产物——或者说本来就是。

正式进入 Dojo 参数之前，我们先来强调一下：特斯拉对于 AI 训练计算机的核心诉求，并不是算力，而是带宽和延迟。

这一点，2019 年的 Pete Bannon 已经提到过：「自动驾驶运算需要极高的带宽，起码要达到 1TB 每秒，FSD 芯片（内部）可以达到 2TB 每秒」。

多芯片之间数据交换的带宽（类似于车道数）和延迟（类似于道路限速），是特斯拉在 AI 训练路上狂奔得足够久之后的深刻总结。

Dojo 的设计原命题，就是带宽和延迟，这两个要素，是决定特斯拉能否达到「最佳 AI 训练性能、更大更复杂神经网络、能耗成本优化」目标的关键。

再卖个关子，来看看英伟达的 A100 多芯片方案，多个芯片位于不同的 PCB 基板，用桥接器连接。这已经是目前最快的桥接器，速度达到了 600GB 每秒。

但对于特斯拉来说，这还远远不够。

多芯片之间最理想的数据交换方式，就是「放在一起」，也就是位于同一块基板上，左邻右里排布。

而特斯拉更进一步，不是将芯片们「放」在一起，而是「封装」在一起。

封装多个芯片有很多种方法，比如这颗英特尔处理器一样，两块芯片放在一个基板上：

而特斯拉又进了一步，使用了台积电首次量产的 InFO-SoW 扇上晶圆直出封装技术，也就是直接从晶圆上刻出一个个芯片，然后整块晶圆摁在基板上。

全部装起来之后，一个 Dojo 计算模组长这样：

如果只刻一块芯片，那它叫 D1 Chip，长这样，基于台积电 7 纳米工艺打造，核心面积 645 平方毫米，内置了 500 亿个晶体管，内部线束长度高达 11+ 英里（约 18 公里）：

内部线束如此惊人，是因为 D1 芯片内和芯片间的通信带宽简直骇人听闻。这同时得益于台积电的封装技术（芯片之间的距离极短），以及特斯拉的芯片设计。

一块 D1 芯片由 354 个训练节点组成，每个训练节点内部都起码有以下部分：

64 位 4 路集相的多线程 CPU；

1.25MB SRAM 缓存；

低延迟数据交换结构；

SIMD 单指令多数据流的浮点/整数单元

D1 训练节点的一大特点，就在于这个「低延迟数据交换结构」。

上图右上角有一个叫做「 NOC Router」的结构，这是训练节点之间交换数据的工具——特斯拉丧心病狂地给每一个小节点，都设计了上下左右各 64bit 的通道。

这是什么意思？我们还是直接看疗效：D1 的芯片内部带宽高达 10TB 每秒，芯片外带宽也高达 4TB 每秒！

算力方面，每一个训练节点都拥有 1024GFLOPS 的 BF16/CF8 精度计算能力（这两个是较新的精度标准），或者 32GFLOPS 的 FP32 精度计算能力。

354 个训练节点构成的 D1 芯片，则可以实现高达 362TFLOPS 的 BF16/CF8 精度算力（FP32 精度 22.6T）——而 25 个 D1 芯片组成的 Dojo 计算模块，则将这块人手轻松举起来的「电脑」算力，推到了惊人的：

9PFLOPS！

这是什么概念？

最终成品的单个 DOJO 计算机柜，叫做 DOJO Pod，总算力超过 1.1EFLOPS（BF16 精度），内含 3000 个 D1 芯片，也就是只需要 120 片上图这样小巧的模组——就达到了超越全球超算排行榜第 5 名的 FP32 精度算力。

而目前的第 5 名，隶属于美国国家能源研究科学计算中心（NERSC）的 Perlmutter，一共有 40 个机柜。

当然，马斯克说过的可是「1 exa flops at de facto FP32（货真价实的 1E FP32 精度算力）」。目前一个 Dojo Pod 可实现不了——但这次跳票也许真不怪马斯克，台积电目前有多紧俏，相信大家都有所耳闻。

哦对了，下一代 Dojo 和相关软件工具已经在研发了，目标又是 10 倍级别的系统级性能提升。

五、One More Thing

年满 50 岁的马斯克，终于知道人前起舞是有点幼稚的事情，于是今天他请来了一位衣着前卫的舞者，替他发泄情绪：

不好意思歪楼了，这是今天的 One More Thing，也是全场发布会最大的惊喜——特斯拉机器人 Tesla Bot。不是跳舞这位，而是它：

马斯克对 Tesla Bot 的定义是「由人类世界制造，为人类世界制造」、「友好」、「无威胁，从事重复性/无聊的工作」。

Tesla Bot 的身高是 5'8"（约一米八），体重 56.7 公斤，可以硬拉 150 磅（68 公斤），或者搬运 45 磅（20.4 公斤）的物体，伸开手的状态下可以拿 10 磅（4.5 公斤）的物体，最高时速 8 公里。

这个数据就是一个竹竿型人类的标配，但作为即将发售的机器人，这也许更应该是一串历史素材。

Tesla Bot 全身具有 40 个电动促动器，脸上是显示屏，全身由轻量化材料打造，手掌质感接近真人。

哦对了，Tesla Bot 的脚板有传感器，别乱踩人家。

至于「大脑」，Tesla Bot 将由 Autopilot 硬件驱动（什么叫垂直整合啊），「眼睛」也会是 Autopilot 摄像头，深度学习、DOJO 训练什么的一应俱全。

马斯克说明年 Tesla Bot 的原型就将公布，「大家看我们只是在造车，但其实我们也是全球最大的机器人公司——因为特斯拉的车就像是轮子上的机器人，所以我们就造了真正的机器人。」

六、软硬合一，进度 50%？

写到最后一段，我的亢奋更甚了。

前天我在文章里提了一嘴：

「软硬结合，是科技公司心目中的殿堂、王座、圣杯。但能实现这一点，而且软硬皆优的科技企业，只有苹果算一个，AI Day 之后的特斯拉算半个——FSD 全球推送之后能补上另一半。」

今天的 AI Day 实在是太过于惊艳，以至于我真的很希望写下「软硬合一」四个字，竭尽全力吹一把特斯拉。

但再想一下，我觉得现在下这个定论，似乎不太准确。

特斯拉还没有最终实现人工智能的软硬合一，无论是汽车的自动驾驶，还是机器人。FSD 还在 Beta、DOJO 也是上周才正常上机运行、Tesla Bot 更是明年才有「原型」。

但光从硬件的角度看，今天的特斯拉，将人工智能的想象力拓宽了整整一大步，或者说狠狠拉了一把进度条。

如果说前两次年度发布会，特斯拉车企的味道还很浓，那么今天的特斯拉，已经开始若有若无地，有一种游戏《赛博朋克 2077》里荒坂集团的味道了——不是说他大反派，而是类似的创造力，以及每个细分领域的统治力。

真想快进到万物 AI 的终局。

（完）