
Dojo - Musk's High-Stakes Bet on "Autonomous Driving"

科技媒體 TechCrunch 報道稱,Dojo 計劃的核心是特斯拉的專有 D1 芯片,這意味着特斯拉將來可能不必依賴英偉達的芯片,低成本就可以獲取大量算力。預計今年年底前,Dojo1 將實現與約 8000 塊 H100 等效的在線訓練。
本文作者:李笑寅
來源:硬 AI
Dojo 超級計算機對特斯拉的重要性正在與日俱增。
對於馬斯克來説,Dojo 不僅僅是特斯拉用來在雲端訓練自動駕駛模型的超級計算機,實際上,它已經成為馬斯克商業帝國下 AI 業務的基石。
大摩此前甚至將 Dojo 比喻為 “特斯拉的 AWS”,認為其將成為特斯拉未來最大的價值驅動因素。
在馬斯克宏偉的 AI 藍圖中,Dojo 到底起到怎樣的作用?當地時間週六上午,科技媒體 TechCrunch 記者 Rebecca Bellan 發佈深度報道《Tesla Dojo: Elon Musk’s big plan to build an AI supercomputer, explained》,以 Dojo 為出發點,詳細解釋了馬斯克的 AI 計劃。
以下是文章亮點:
1、特斯拉的純視覺路徑(僅依靠攝像頭而非傳感器來捕捉數據)是其需要超級計算機的主要原因。
2、特斯拉的目標是在接下來的大約 18 個月內實現 “半特斯拉 AI 硬件,半英偉達/其他”,“其他” 可能是 AMD 芯片。
3、Dojo 計劃的核心是特斯拉的專有 D1 芯片,這意味着特斯拉將來可能不必依賴英偉達的芯片,低成本就可以獲取大量算力。
4、Dojo 芯片是特斯拉的保險單,可能會帶來紅利。
5、預計到今年 10 月,Dojo 的總算力將達到 100 exaflops,約等於 320500 塊英偉達 A100 GPU 的算力水平;預計今年年底前,Dojo1 將實現與約 8000 塊 H100 等效的在線訓練。
文章全文如下:
多年來,埃隆·馬斯克一直在談論 Dojo——這是將成為特斯拉人工智能雄心基石的人工智能超級計算機。這個項目對馬斯克來説非常重要,他最近表示,隨着特斯拉準備在 10 月公佈其 robotaxi,公司的人工智能團隊將 “加倍發力” 推進 Dojo 項目。
但 Dojo 究竟是什麼?它對特斯拉的長期戰略為何如此關鍵?
簡而言之:Dojo 是特斯拉定製構建的超級計算機,旨在訓練其 “全自動駕駛” 的神經網絡。提升 Dojo 與特斯拉實現全自動駕駛並將 robotaxi 推向市場的目標密切相關。FSD 目前在大約 200 萬輛特斯拉汽車上,可以執行一些自動化駕駛任務,但仍然需要人類在駕駛座保持注意力。
特斯拉將原定於 8 月公佈其 robotaxi 的時間推遲到了 10 月,但無論是馬斯克的公開言論還是特斯拉內部的消息源都告訴我們,自動駕駛的目標並未消失。
特斯拉似乎正準備在人工智能和 Dojo 上投入巨資以實現這一壯舉。
特斯拉 Dojo 背後的故事
馬斯克不希望特斯拉僅僅是一家汽車製造商,或不僅僅是太陽能電池板和能源存儲系統的提供商。相反,他希望特斯拉成為一家人工智能公司,一家通過模仿人類感知來破解自動駕駛汽車代碼的公司。
大多數其他開發自動駕駛汽車技術的公司都依賴傳感器的組合來感知世界(比如激光雷達、雷達和攝像頭)以及高清晰度地圖來定位車輛。特斯拉相信,它可以僅依靠攝像頭來捕捉視覺數據,然後使用先進的神經網絡來處理這些數據,並快速決定汽車應該如何表現。
正如特斯拉前人工智能主管 Andrej Karpathy 在 2021 年該公司的首次 AI Day 上所説,公司基本上正在嘗試 “從頭開始構建一個合成生物”。(馬斯克自 2019 年以來一直在預告 Dojo,但特斯拉在 AI Day 正式宣佈了它。)
像 Alphabet 的 Waymo 這樣的公司,已經通過更傳統的傳感器和機器學習方法,實現了 4 級自動駕駛汽車的商業化——SAE 將其定義為在特定條件下無需人類干預即可自行駕駛的系統。而特斯拉至今還未生產出一個不需要人類參與的自動駕駛系統。
大約有 180 萬人為特斯拉的 FSD 支付了高昂的訂閲費,目前其價格為 8000 美元,最高時定價為 15000 美元。推銷的點是,經過 Dojo 訓練的人工智能軟件最終將通過隔空更新推送給特斯拉客户。FSD 的規模也意味着特斯拉已經能夠收集到數百萬英里的視頻片段,用於訓練 FSD。這意味着,特斯拉能夠收集的數據越多,這家汽車製造商就越接近實現真正的全自動駕駛。
然而,一些行業專家表示,簡單地向模型投入更多數據並期望它變得更聰明的方法可能存在侷限性。
“首先,存在經濟限制,這樣做很快就會變得成本過高,” 普渡大學硅谷電子與計算機工程教授 Anand Raghunathan 對 TechCrunch 表示。他進一步説,“有聲音説我們實際上可能會耗盡有意義數據來訓練模型。更多的數據並不一定意味着更多的信息,所以這取決於那些數據是否包含有用信息來創建一個更好的模型,以及訓練過程是否能夠真正將這些信息提煉成更好的模型。”
Raghunathan 説,儘管有這些疑慮,但至少在短期內,數據似乎會更多。更多的數據意味着需要更多的算力來存儲和處理,以訓練特斯拉的 AI 模型。這就是超級計算機 Dojo 的用武之地。
什麼是超級計算機?
Dojo 是特斯拉設計的超級計算機系統,用作人工智能,特別是 FSD 的訓練場。這個名字是對武術練習道場的致敬。
超級計算機由數千台稱為節點的小型計算機組成。這些節點各自擁有自己的 CPU(中央處理單元)和 GPU(圖形處理單元)。前者負責節點的總體管理,後者則處理複雜的事情,比如將任務分割成多個部分並同時進行處理。GPU 對機器學習操作至關重要,就像它們支持 FSD 訓練模擬一樣。它們還支持大型語言模型,這就是為什麼生成式 AI 的崛起使得英偉達成為地球上最有價值的公司。
甚至特斯拉也購買英偉達的 GPU 來訓練其人工智能(這是後話)。
為什麼特斯拉需要超級計算機?
特斯拉的純視覺路徑是其需要超級計算機的主要原因。FSD 背後的神經網絡是在大量駕駛數據上訓練的,以識別和分類車輛周圍的物體,然後做出駕駛決策。這意味着當 FSD 啓動時,神經網絡必須連續不斷地收集和處理視覺數據,速度要與人類深度和速度識別能力相匹配。
換句話説,特斯拉想要創造一個數字版的人類視覺皮層和大腦功能。
為了達到這個目標,特斯拉需要存儲和處理從世界各地的汽車收集的所有視頻數據,並運行數百萬次模擬來訓練其模型上的數據。
特斯拉似乎依賴英偉達為其當前 Dojo 訓練計算機提供動力,但它不想把所有雞蛋放在一個籃子裏——尤其是因為英偉達芯片價格昂貴。特斯拉還希望製造出更好的東西,增加帶寬並減少延遲。這就是為什麼這家汽車製造商的 AI 部門決定提出自己的定製硬件計劃,該計劃旨在比傳統系統更有效地訓練 AI 模型。
該計劃的核心是特斯拉的專有 D1 芯片,該公司表示這些芯片已針對 AI 工作負載進行了優化。
更多關於這些芯片的信息
特斯拉與蘋果持有類似的觀點,即認為硬件和軟件應該被設計為一起工作。這就是為什麼特斯拉正在努力擺脱標準 GPU 硬件、設計自己的芯片來驅動 Dojo。
特斯拉在 2021 年的 AI Day 上展示了其 D1 芯片,這是一個手掌大小的硅方塊。截至今年 5 月,D1 芯片已經投入生產。中國台灣半導體制造公司台積電正在使用 7 納米制程工藝製造這些芯片。根據特斯拉的説法,D1 擁有 500 億個晶體管和一個 645 平方毫米的大尺寸,這一切都在説 D1 承諾將非常強大和高效,並能夠快速處理複雜任務。
“我們可以同時進行計算和數據傳輸,我們的定製 ISA(指令集架構)完全針對機器學習工作負載進行了優化,” 特斯拉前自動駕駛硬件高級總監甘尼什·文卡塔拉曼在 2021 年特斯拉 AI Day 上説。“這是一個純粹的機器學習機器。”
儘管如此,D1 芯片仍然不如英偉達的 A100 芯片強大,後者也是由台積電使用 7 納米工藝製造的。A100 擁有 540 億個晶體管,尺寸為 826 平方毫米,所以在性能上略勝於特斯拉的 D1。
為了獲得更高的帶寬和計算能力,特斯拉的 AI 團隊將 25 個 D1 芯片融合在一起形成一個區塊,作為一個統一的計算機系統。每個區塊具有 9 petaflops 的計算能力和每秒 36 TB 的帶寬,幷包含電源、冷卻和數據傳輸所需的所有硬件。你可以將這個區塊想象成一個由 25 台小型計算機組成的自給自足的計算機。六個這樣的區塊組成一個機架,兩個機架組成一個機櫃。十個機櫃組成一個 ExaPOD。在 2022 年的 AI Day 上,特斯拉表示 Dojo 將通過部署多個 ExaPODs 來擴展。所有這些加在一起構成了超級計算機。
特斯拉還在開發下一代 D2 芯片,旨在解決信息流瓶頸問題。D2 不是連接各個芯片,而是將整個 Dojo 塊放置在單個硅片上。
特斯拉尚未確認它已訂購或預計收貨多少 D1 芯片,也還沒有提供將 Dojo 超級計算機在 D1 芯片上運行所需的時間表。
6 月在 X 上的一篇帖子稱:“埃隆正在德克薩斯州建造一個巨大的 GPU 冷卻器”,對此,馬斯克回覆説,特斯拉的目標是在接下來的大約 18 個月內實現 “半特斯拉 AI 硬件,半英偉達/其他”。根據馬斯克 1 月的評論,“其他” 可能是 AMD 芯片。
Dojo 對特斯拉意味着什麼?
控制自己的芯片生產意味着特斯拉有一天可能能夠以低成本快速為人工智能培訓項目添加大量計算能力,特別是在特斯拉和台積電擴大芯片生產規模的情況下。
這也意味着特斯拉將來可能不必依賴英偉達的芯片,這些芯片的價格越來越高,也越來越難以確保。
在特斯拉第二季度財報電話會議上,馬斯克表示,對英偉達硬件的需求 “如此之高,以至於通常很難獲得 GPU。” 他説,他對能夠穩定地在需要時獲得 GPU“相當擔憂”,“因此我認為這需要我們在 Dojo 上投入更多的努力,以確保我們擁有所需的培訓能力。”
話雖如此,特斯拉今天仍在購買英偉達芯片來訓練其 AI。6 月,馬斯克在 X 上發帖説:
“在我所説的特斯拉今年將進行的大約 100 億美元與 AI 相關的支出中,大約一半是內部的,主要是特斯拉設計的 AI 推理計算機和我們所有汽車中存在的傳感器,加上 Dojo。對於構建 AI 培訓超級集羣,英偉達硬件大約佔到成本的 2/3。我目前對特斯拉今年購買英偉達的最佳猜測是 30 億到 40 億美元。”
推理計算指的是特斯拉汽車實時執行的 AI 計算,與 Dojo 負責的訓練計算是分開的。
Dojo 是一個冒險的賭注,馬斯克通過多次表示特斯拉可能不會成功,以此來對沖這一賭注。
從長遠來看,特斯拉理論上可以基於其 AI 部門創建一種新的商業模式。馬斯克曾表示,Dojo 的第一個版本將專門為特斯拉計算機視覺標記和培訓量身定製,這對 FSD 和培訓 Optimus(特斯拉的仿人機器人)非常有利,但對其他事情沒什麼用處。
馬斯克曾表示,Dojo 的後續版本將更傾向於通用 AI 培訓。與此相關的一個潛在問題是,幾乎所有現有的 AI 軟件都是為 GPU 編寫的。使用 Dojo 來訓練通用 AI 模型將需要重寫軟件。
除非特斯拉出租其算力,類似於 AWS 和 Azure 出租雲計算能力的方式。馬斯克在第二季度收益電話會議上還指出,他看到 “通過 Dojo 與英偉達競爭的一條路”。
摩根士丹利在 2023 年 9 月的一份報告中預測,Dojo 可以通過解鎖 robotaxi 和軟件服務的新收入流,為特斯拉市值增加 5000 億美元。
簡而言之,Dojo 的芯片是這家汽車製造商的保險單,可能會帶來紅利。
Dojo 進展如何?
路透社去年報道稱,特斯拉於 2023 年 7 月開始生產 Dojo,但馬斯克在 2023 年 6 月的一篇文章中暗示,Dojo 已經 “在線並運行有用的任務幾個月了。”
大約在同一時間,特斯拉表示,預計到 2024 年 2 月,Dojo 將成為最強大的五台超級計算機之一——這一壯舉尚未公開披露,讓我們懷疑它是否已經發生。
該公司還預計,到 2024 年 10 月,Dojo 的總算力將達到 100 exaflops。(1 exaflop 等於每秒 1 千萬億次計算機操作。要達到 100 exaflops,假設一塊 D1 能達到 362 teraflops,特斯拉將需要超過 276,000 塊 D1,或大約 320,500 塊英偉達 A100 GPU。)
特斯拉還在 2024 年 1 月承諾投資 5 億美元,在紐約州布法羅的超級工廠建造一台 Dojo 超級計算機。
2024 年 5 月,馬斯克指出,特斯拉奧斯汀超級工廠的後部將保留用於 “超密集的水冷超級計算機集羣”。
就在特斯拉二季度財報電話會議後,馬斯克在 X 上發帖稱,這家汽車製造商的 AI 團隊正在使用特斯拉 HW4 AI 計算機(更名為 AI4),這是特斯拉汽車中的硬件,存在於英偉達 GPU 的訓練循環中。他指出,細分大約是 90,000 個英偉達的 H100 加上 40,000 台 AI4 計算機。
他繼續説:“Dojo1 將在今年年底前實現與約 8,000 塊 H100 等效的在線訓練。不是很多,但也不少。”
