Deciphering the end-to-end mystery of Tesla

特斯拉計劃在 2024 年底前投資超過 10 億美元，提升算力至 10 萬 PFLOPS，以推動端到端智駕方案的發展。這意味着端到端正在引發新一輪軍備競賽，贏家通常是在算力方面投入大力的公司。同時，其他車企如長安、吉利等也在積極籌備智算中心，以滿足智駕方案對算力資源的需求。特斯拉的端到端智駕方案具體細節目前尚不清楚，但眾多企業都在緊跟潮流，以免被淘汰。算力成為端到端的必要條件，推動了智算中心的跑馬圈地競爭。

「特斯拉端到端智駕方案到底是怎麼做的？」

在一次端到端智能體研討會上，有人向一眾端到端專家學者們拋出疑問。

現場包括趙行（清華交叉信息研究院助理教授）、許春景（華為車 BU 智駕 AI 首席科學家）、王乃巖（小米智駕傑出科學家）、賈鵬（理想算法研發副總裁）這些學界、業界人士在內，沒人能給出確切回答。

沒有人清楚，特斯拉 FSD V12 具體模型架構是怎樣的，但特斯拉就是憑一己之力，攪動了端到端的潮水。

我們試圖從馬斯克發言和特斯拉動態中拼湊出特斯拉端到端的大致體徵：從感知到決策由統一神經網絡控制，很大可能基於生成式 AI，在原有 Occupancy 模型基礎上構建世界模型。

但從中捕捉的確定性是，端到端方案對於雲端算力的需求來到一個新高潮。

正如馬斯克多次表示：「FSD V12 端到端模型迭代主要受到雲端算力資源的掣肘。」

於是，特斯拉選擇重金堆算力，計劃 2024 年底前對 DOJO 超算中心投資超 10 億美元，目標是總算力提升至 10 萬 PFLOPS。

如果説算力是端到端的必要條件，那這意味着，端到端正在掀起新一輪軍備競賽，贏家往往是大力出奇跡者。

同時，正如無人知曉特斯拉端到端具體如何實現一樣，大家只是瞄準了潮水湧動的方向，一股腦向那湧去。

於是，忽如一夜春風來，端到端方案遍地開，誰都跟緊節奏，不想因此出局。

端到端智駕，大「力」才能出奇跡

端到端智駕，基於 AI 模型化的主路徑，對其訓練算力資源的超大需求，勢必助長了算力燃燒的火焰。

智算中心進入了跑馬圈地時代，一場關乎算力的競賽就此展開。

這邊，特斯拉、長安、吉利等車企都不遺餘力地籌備智算中心，或選擇自建，或選擇與第三方合作。

特斯拉的 DOJO 智算中心，預計到 2024 年 10 月，總算力將達到 100EFLOPs（10 萬 PFLOPS），相當於約 30 萬塊英偉達 A100 的算力總和。

國內車企也在算力上奮力追趕，吉利、長安，以及新勢力「蔚小理」，都沒掉隊。

值得一提的是，蔚來與騰訊合作建立智算中心，雖然暫未公佈其超算中心的具體實力，但李斌曾用「喪心病狂」一詞來形容蔚來在算力方面的佈局，並稱在未來一兩年內都還會是全球天花板。

那邊，以華為、商湯絕影、毫末智行為代表的智駕供應商，也絲毫不佔下風。

華為車 BU 雲智算中心的乾崑 ADS 3.0，在算力方面已達到 3500PFLOPS，訓練數據量為日行 3000 萬公里，按照全球道路總長約為 6400 萬公里計算的話，2.1 天系統就能完全覆蓋。

而商湯科技在最新財報中顯示，其智算中心 GPU 數量達到 4.5 萬張，總體算力規模為 12000PFLOPS，相較於 2023 年初提高了一倍。以及毫末智行聯合火山引擎推出的智算中心「雪湖·綠洲」，算力高達 670PFLOPS。

顯然，智算中心的建設已成為端到端自動駕駛的標配，對於算力的需求正在以一種倍極速率瘋狂增長。

「沒有智算中心的端到端智駕企業是不合格的。」毫末智行一位專家直言，算力越多，對模型的迭代效率、迭代方式速度，以及各種情況的修復效率，均有大幅提升。

商湯絕影智能駕駛副總裁石建萍也表示，高算力，意味着它所容納的應用空間是廣泛的，它允許更多的嘗試、試錯發生，那麼就更有可能研發出性能更強的端到端模型。

那這是否意味着實現端到端智駕，必須大力才能出奇跡？

有意思的是，針對這個答案，行業呈現了兩種發展路徑：

一面是傾向於重投算力的「暴力計算」；
另一面是深耕算法的「工匠主義」。

誠然，行業對於智駕三要素（算法、數據、算力）的共識是三者相輔相成，任何一個出現短板，都會引發水桶效應。

但在此基礎上，三個長板，哪方面現在需要重點強化，則出現了一些分歧。

暴力計算者認為，現在各家算法其實沒有本質區別，核心點在於把數據在超算中心中如何高效訓練起來。

一位行業人士就指出，在學界已經公開了可行的端到端算法架構，甚至不斷更新前沿進展的情形下，業界完全可以參照學界的研究成果進行量產、落地實驗，那麼這就要求其現階段在算力基礎、數據規模上積攢足夠實力。

但也有另一種聲音夾雜在其中。他們認為，實現端到端智駕，深耕算法是當前更為緊迫的突破方式。

元戎啓行就對汽車之心表示，算力中心比拼只是一方面，但現階段更重要的是打造一套滿足 Scalling law 的網絡模型。

Scalling law 即規模定律，隨着模型規模的增加（包括參數數量、數據規模和計算資源），模型的性能也會相應提高。

也就是説，想要規模定律生效，需要先謀定的是模型優化問題，這才是後續大力出奇跡的發力點所在。

説到底，兩種路徑無關絕對優劣之分，畢竟各家的端到端戰略規劃、資本實力各不相同。

但從特斯拉、華為等頭部車企都重投超算中心的動作評判，算力愈高，端到端智駕效果的天花板的確會隨之抬高，也就是上限會有所提升。

那麼，超算中心到底多大的算力能夠支撐起端到端智駕？

在辰韜資本發佈的《端到端自動駕駛行業研究報告》（以下簡稱「報告」）中顯示，大部分公司表示 100 張大算力 GPU 可以支持一次端到端模型的訓練，但這大概率支撐不了方案走到量產階段。

毫末智行認為，基於算法需要不斷迭代，端到端起步需要 1000 張 GPU。

但至於上限如何衡量，卻沒有定論。

行業一致認為，量力而行。畢竟巨頭特斯拉橫亙在眾多選手面前。

據悉，特斯拉今年計劃將英偉達 GPU H100 增加至 85000 張以上，達到和谷歌、亞馬遜同一量級，這是國內企業望塵莫及的程度。

畢竟，一張 H100 目前售價在 2.5 萬-4 萬美元之間，相當於特斯拉今年至少要投超 20 億美元。

沒有雄厚家底，這不是誰都「玩」的起的。因為特斯拉的使命在於具身智能的全球化，其目標還包括 Robotaxi、智能機器人等，解決問題的難度涉及到一個新的階層。

因此，特斯拉這般大動作，是基於財力、目標、數據規模的適配，其它企業沒必要向它看齊，追求一味的超高算力。

對於國內智駕企業而言，眼下目標是解決城市 NOA 量產落地，實現高階自動駕駛。

毫末智行表示，要實現全國都能開，2000-5000 張 GPU 已經足夠。

但隨着目標的不斷進階，從 L2 到 L3、L4，甚至 L5，算力需求將會繼續水漲船高。

無論如何，端到端的浪潮，的確推動了一場新的洗牌運動，無論是數據規模、算法結構還是算力要求，都將掌握技術核心的企業洗到了最前面。

端到端迷局：誰才是真端到端？

端到端熱潮正在造就新一場網絡迷因。

誰都想搭上端到端的快車，就算技術沒跟上，宣傳高地也必須佔領。

有意思的是，在「你也是端到端，我也是端到端」的情形下，很難把真偽的泡沫戳破。

究其根本在於，端到端實現路徑尚未統一，各家都有發言權。

現在對於端到端的定義可以區分為廣義與狹義。

廣義強調端到端是信息無損傳遞，不因人為定義接口產生信息損耗，可以實現數據驅動的整體優化。

而狹義的端到端只強調從傳感器輸入到規劃、控制輸出的單一神經網絡模型。

也就是説，只要滿足廣義標準，都能稱之為端到端，因此能看到各家端到端智駕企業，從輸入到輸出的實現形式具有差異化，現在主流方案有以下三種：

一是感知認知模型化。將大模型拆分為感知與認知（預測決策規劃）兩個階段，串聯二者做訓練。以華為乾崑 ADS 3.0 為代表，其感知部分採用 GOD 大感知網絡，認知部分採用 PDP 網絡實現端到端一張網。

二是模塊化端到端。將智駕的所有模型串聯在一起，用高端的方式統一訓練。以 OpenDriveLab 的 UniAD（2023）為代表，通過跨模塊（感知預測規劃）的梯度傳導完成全局優化。

三是單一神經網絡。也就是狹義端到端概念。用一整個囊括輸入到輸出端的大模型，直接進行訓練。以 Wayve 為代表，其生成式世界模型 GAIA-1、視覺 - 語言 - 動作模型 LINGO-2 可能是未來 One Model 端到端的重要基礎。

值得一提的是，要跟緊端到端潮流的轉向，站在傳統規則算法之上的企業一時無法推翻重來，於是他們遵循了一條遞進式的技術路徑

報告中也明確標明瞭自動駕駛架構演進的四個階段：感知「端到端」、決策規劃模型化、模塊化端到端、單一模型（One Model) 端到端。

圖源：辰韜資本《端到端自動駕駛行業研究報告》

也就是説，從感知端模型上車，再進行規劃模型化，最後串聯起來做端到端訓練。這是一種相對平滑的過渡形式。

蔚來智能駕駛研發副總裁任少卿同樣認為，自動駕駛的大模型需要拆解成若干個層級，第一步是模型化，行業基本完成了感知模型化，但是規控模型化方面頭部公司也沒有完全做好，第二步是端到端，去掉不同模塊間人為定義的接口，第三步是大模型。

當然，通往端到端的路徑既可以平滑過渡，也可以推倒重來。

小鵬就在 AI DAY 上就強調自己卸下包袱，落地端到端大模型。

毫末也提到，「如果具備足夠勇氣和決心去重構一套系統，效率可能會更高一些。」

所以選擇何種路徑，何種方式，全憑自家結合實際條件考量。

但綜上來看，由於各家實現路徑、實現進度、宣傳力度均不一致，的確造就了端到端眾説紛紜的迷局。

一個尷尬點是，當嘗試從一些明顯特徵判別真偽端到端時，會發現都行不通。

比如 BEV+Transformer 架構，很多企業將其視為感知模型化的標配，但這不代表一種綁定關係。只能説，這是當下在感知模型上一種較好的實現方式。

以及特斯拉的純視覺路線，與華為的激光雷達融合路線，都可以稱為端到端，這僅是不同企業的路線選擇。

儘管有企業強調，不擺脱高精地圖，無法做端到端模型。

但更多聲音還是更傾向於二者之間沒有絕對聯繫。

石建萍強調，去高精地圖，不是端到端的一個前提條件。儘管現在商湯做到了「無圖」，但為了交互更友好，也準備把導航地圖加進去。

尤其，結合模型訓練複雜性、量產落地的安全性、端到端方案成本等多因素考量，純視覺還是激光雷達路線，都是各家企業的技術選擇。

而這些無法論證端到端的根源在於，端到端智駕強調的是結構上的梯度可傳導以及全局優化，這僅是一種訓練方式。

它會經常和另一個詞「大模型」混淆在一起。

行業人士都一致指明，這是兩個不同維度的概念，大模型關注的是模型的參數數量以及湧現能力。目前大模型為端到端實現提供瞭解決方案，但端到端並非必然基於大模型實現。

那麼，迴歸到最初的疑問，真假端到端到底怎麼看？

答案是，要麼扒代碼，要麼看體驗。

前者看它代碼到底怎麼編寫，是否完成了從輸入到輸出的信息無損傳遞。顯然，這不太現實。

後者則是到落地驗證階段，判斷其智駕水平是不是像「老司機」，能處理各種 Corner case。這是唯一可靠的辨別方式。

有行業人士表示，「端到端方案做出來後，自動駕駛水平會有明顯飛躍，如果效果差不多，那説明端到端方案是假的。」

端到端不一定是最終解，但是現今最優解

從上海人工智能實驗室發表的 UniAD 獲得 CVPR 2023 最佳論文，到特斯拉 FSD V12 的問世，再到智駕企業 Wayve 獲 10 億美元融資，在學界、業界、資本的「共謀」下，端到端智駕開啓了新一輪產業革命。

英偉達汽車事業部副總裁吳新宙認為，端到端正是智駕三部曲的最終曲。

小鵬 CEO 何小鵬也直言，端到端將對智駕帶來顛覆性變革。

不過，在端到端智能體研討會關於端到端 VS 傳統模塊化的圓桌辯論中，最後結論卻是端到端設計並未完全碾壓傳統模塊化設計，這其中依然存在關於驗證、落地、量產的冷思考。

所以只能説，端到端不一定是靠近智駕終局的最終解，但目前來看是最優解，它能夠處理傳統路徑難以解決的極端案例，並且代表了一種減少人工編碼依賴，更高效的思路。

基於這個路徑，或許能夠通往智駕的更高階段。

現在，包括學界、車企、智駕供應商在內，所有人都朝向端到端這個方向奔去。

從主體細分，三者在端到端智駕發展路徑中的側重點與分工角色還不太一樣。

學界側重算法架構和技術路徑的探索，正如上海人工智能實驗室開源的 BEVFormer 架構，是當下通用的視覺感知算法結構；以及清華 MARS Lab 最早發表了「無圖」自動駕駛方案，實現了自動駕駛地圖的記憶、更新、感知一體化。

學術思想的迸發被投射到業界，進而推動了技術的落地與發展方向。比如清華 MARS Lab 的 BEV 檢測算法、BEV 跟蹤算法等，就在理想汽車的產品中廣泛應用落地。

不過鏈接商業端的智駕供應商與車企，考慮更多的除了方案的系統性、落地可行性，更重要的，是在時間競賽中搶佔上風。

目前，諸多智駕供應商於近兩年都推出了自研的端到端量產方案。

去年 4 月，毫末智行發佈智駕生成式大模型 DriveGPT（雪湖·海若），這是實現端到端智駕的重要技術載體。

截至今年 5 月，搭載毫末 HPilot 智駕車輛超過 20 款，用户輔助駕駛行駛里程突破 1.6 億公里。

小馬智行也於去年 8 月推出端到端智駕模型，已同步搭載到 L4 級自動駕駛出租車和 L2 級輔助駕駛乘用車。

今年 4 月，元戎對外展示了即將量產的高階智駕平台 DeepRoute IO 以及基於 DeepRoute IO 的端到端解決方案。

同個時段，商湯絕影推出面向量產的 UniAD，實現去高精地圖，同時還發布了下一代智駕技術 DriveAGI，是基於多模態大模型打造的自動駕駛解決方案。

顯然，端到端量產落地，已經箭在弦上。

尤其是在特斯拉 FSD 釋放入華信號後，車企們更是坐不住了。

小鵬在 5 月份就宣佈端到端方案量產上車，蔚來、理想也於今年上半年加緊推動端到端模型上車計劃。

不過，2024 年只能勉強稱之為端到端量產落地元年，真正的大範圍上車預計在 2025 年。

商湯絕影表示，端到端更合理的落地時間在明年下半年，能夠達到一個量產導入狀態。因為端到端技術方案想要成熟上線，需要經過大量可靠性驗證。

一位端到端行業人士也指出，「端到端上車，説上肯定能上，但上完之後到底有什麼效果是另一回事，如果想要達到特斯拉這般效果，今年之內還是非常困難。」

但無論如何，端到端的確掀起了新一場檢驗智駕實力的競賽，而現在競賽來到了下半場。

學界、業界在賽跑的同時，也在相互助力，一同探索端到端的落地階段。

目前來看，探索方向呈現三大趨勢，主要對應的是端到端落地三大挑戰，即：

端到端如何控制成本？
端到端如何應對黑盒問題？
端到端落地如何進行標準化驗證？

一是端到端的優化。

端到端作為一個新技術路徑，大算力、大數據、大算法的高需求，構建了玩家的高門檻。大多數企業難以有特斯拉的決心與實力，投入十億，甚至百億美元 All in 端到端。

更何況，考慮到新事物的試錯成本，在算法架構上，需要有意斟酌，如何平衡效率與成本。

據 Momenta CEO 曹旭東介紹，Monmenta 的思路是把端到端架構分為兩條支路，即一條是端到端大模型，類比人的長期記憶；另一條支路是感知、認知階段，類比人的短期記憶。

通過短期記憶形式先驗證方法正確性與數據有效性後，再轉移至端到端大模型的支路上，保證高效訓練。相比直接應用端到端模型，這種技術方式的訓練成本能縮小 10-100 倍。

二是端到端的兜底。

端到端智駕相當於類人駕駛，但真正到了落地，還存在黑盒子的不可解釋性問題亟待解決，尤其面對國內複雜的城市路況，安全性難以得到完全保障。

比如理想推出了一套雙系統方案對端到端兜底。系統 1 採用端到端，對應正常的駕駛能力；系統 2 承載了 VLM 模型，對應泛化能力。

這相當於，系統 1 只需處理簡單的路況問題，而對於複雜的邏輯推理、未知問題，系統 2 可以解決。這套體系能夠提升大模型的空間理解能力，並規避大模型的推理速度問題。

三是端到端的驗證。

端到端方案的落地，首先要經歷成熟的驗證方式。但直接實車驗證顯然成本過於高昂，而基於數據回灌的開環測試條件（離線數據迴歸測試），與端到端智駕驗證需要的可交互性並不匹配。

因此，基於模擬器實現模型的閉環測試驗證，成為了當下驗證的可行路徑。報告指出，閉環仿真工具的研發是端到端上車的必要條件。

目前行業在積極開展閉環仿真工具的探索：

學術界普遍採用 CARLA 作為端到端開發的閉環仿真模擬器；
智駕生成式 AI 企業光輪智能結合生成式 AI，開發出針對端到端算法研發的數據與仿真全鏈路解決方案；
以及另一家同類型企業極佳科技，也打造出一套被稱為世界模型的多模態視覺生成大模型。

儘管端到端落地的「門前雪」還未掃淨，但行業對於端到端的信心已經到達一個至高點。

畢竟，端到端的出現，讓人工智能領域從由「規則驅動」為主導，跨越到以「深度學習」為引擎，這代表了一種技術鴻溝式的飛躍。

智能駕駛，毫無疑問地成為物理世界中，率先體驗並展示這一變革的重要端口。

本文作者：劉佳藝，文章來源：汽車之心，原文標題：《拆解端到端迷局：算力奇蹟、多元架構與落地挑戰》。