Track Hyper | Universal Large Model for Autonomous Driving: UniAD Technology Vision

商湯科技在其中，扮演什麼角色？

北美時間 6 月 21 日，在 CVPR（國際計算機視覺和模式識別頂級會議）上，出現該會議有史以來首篇以自動駕駛為主題的最佳論文。

這有點像 ChatGPT 應用，底層技術源頭 Transformer 模型，來自 Google 在 2017 年的神經信息處理系統大會上發表的一篇論文，在最終成了如今 AGI（通用人工智能）技術的應用突破口，在 CVPR 上獲得 “最佳” 桂冠的這篇論文，也可能會成為未來自動高階駕駛的技術應用推進器。

對高階自動駕駛技術的意義在於，首次提出了感知決策一體化的自動駕駛通用大模型——被稱為 “UniAD”——開創了以全局任務為目標的自動駕駛大模型架構先河，為自動駕駛技術與產業發展提出了全新的方向和空間。

40 年來首篇自駕主題最佳

CVPR，由 IEEE 舉辦的計算機視覺和模式識別領域的專業技術會議，英文全稱 “Conference on Computer Vision and Pattern Recognition”，是 AI 領域最有學術影響力頂級技術會議中的一個，每年舉辦一次。

在 2023 年這屆會議上，共有 9155 篇技術論文參與 “最佳” 角逐。

最終的結果，出現兩篇 “最佳論文”，另外一篇是最佳學生論文。也就是在 9155 篇論文中，總共有 3 篇獲得 “最佳” 獎（Best Paper Award）的技術論文。

其中，有 1 篇由上海 AI 實驗室、武漢大學和商湯科技三方聯合研究的主題最佳論文，即 “Planning-oriented Autonomous Driving”（以路徑規劃為導向的自動駕駛），是 CVPR 從 1983 年開始舉辦 40 年以來，第一篇以自動駕駛為主題的最佳論文；同時也是該會議最近 10 年以來，作者第一單位來自中國機構的最佳。

值得一提的是，這篇最佳論文的作者方之一，商湯科技，在本屆 CVPR 中，另有 1 篇最佳論文候選、7 篇 Highlight 論文和 54 篇被收錄論文。業內人士告訴華爾街見聞，上海 AI 實驗室參與這篇論文撰寫的核心人士，均有商湯科技從業背景。

論文提出的 “感知決策一體化的自動駕駛通用大模型”，被稱為 “UniAD”，其核心技術價值是建立了一套端到端感知決策一體框架，融合多任務聯合學習新範式，可實現更有效的信息交換、協調感知預測決策，進而能進一步提升路徑規劃能力。這也是該文獲得 Best Paper Award 稱號的理由。

相當多的自動駕駛業內人士在談及高階自動駕駛技術時，均有類似觀點，即 “高階自動駕駛在技術上並非難以逾越或不可解決，但法規難以同步”。這話除了字面意思，另外還隱含着技術涵義，也就是高階自動駕駛在行駛時，與其他車輛或行人，還難以形成高效交互。這在本質上屬於多任務應用需求範疇。

這層涵義，其隱含的意思，也就是承認高階自動駕駛的技術，仍未實現有效突破。此前，大部分技術均着眼於解決模塊化問題，比如提升雷達掃描範圍和精度、域控制器性能或自動駕駛算力芯片性能等等。這些努力都很難兼顧 “多任務” 和 “高性能” 應用需求，尤其是前者。

UniAD（自動駕駛通用算法框架：Unified Autonomous Driving）由 4 個基於 Transformer 解碼器的感知預測模塊以及 1 個規劃模塊組成，整體上是一套自動駕駛通用模型框架。

UniAD 首次將感知、預測和規劃等 3 大類主任務，以及包括目標檢測、目標跟蹤、場景建圖、軌跡預測、柵格預測和路徑規劃在內的 6 小類子任務，整合到統一的基於 Transformer 的端到端網絡框架內，成為一個全棧關鍵任務駕駛的通用模型。

在 NuScenes 真實場景數據集框架內，UniAD 所有相關任務都達到 SoTA（最佳性能：State of The Art），尤其是預測和規劃效果遠超其他模型。

簡單來説，就解決 “多任務” 問題，通過多個 Transformer 模塊，UniAD 實現了多任務層級式結合。對不同任務間的信息，也能實現全角度、多方位交互。通過多組查詢向量，UniAD 達成了物體與地圖的建模，隨之將預測結果傳遞至規劃模塊，用於規劃安全路徑。

應用這套框架的自動駕駛全棧解決方案，能提升多目標跟蹤準確率提升 20%，車道線預測準確率提升 30%，預測運動位移和規劃的誤差分別降低 38% 和 28%。

強在哪？能搞定多任務

若觀察該文的獲獎理由，不難發現，解決 “多任務” 需求，UniAD 從規劃入手，將全棧關鍵任務從端到端，融合進一個統一的框架內。

應當承認，高階自動駕駛技術應用，在此前並非全是模塊化解決方案，也有相當多的國際公司做了很多框架模式。

比如，美國 Waymo 和 Cruise 等自駕公司採用 “獨立並行模型” 架構設計，美國特斯拉和中國小鵬汽車等，提出 “多任務共享網絡” 架構模式，美國英偉達、德國馬克斯普朗克研究所（MPI）和英國 Wayve 自駕公司等，用了 “直接” 端到端方案。

UniAD 首次將全棧關鍵任務端到端地包含在一個統一的網絡架構中，提出了全新的 “全棧可控” 端到端方案，通過系統聯合調優，取得比此前所有架構都要更優的應用效果。

從技術角度看，UniAD 用了多組查詢向量（Query）串聯起多個任務，實現網絡信息傳遞，隨後將所有融合的信息傳至最終的規劃模塊。同時，每個模塊的 Transformer 架構，通過注意力機制，可有效實現對查詢向量的交互。

在實際應用層面，UniAD 能顯著節省計算資源，避免不同任務模塊的累積誤差（此前單一模塊化解決方案在多次運行後形成難以解決的冗餘誤差問題）。通過 UniAD 證明，一旦採用能兼顧 “多任務” 和 “高性能” 全棧可控端到端解決方案的框架，前序多任務能與後繼任務相互支持，最終提升了駕駛安全的體驗度。

事實上，大多數端到端自動駕駛解決方案，也都關注了感知、決策和規劃三部分。但是，推進這三部分形成的多任務在發揮實際作用時，存在較大差異，沒有誰取設計一個統一框架，將這些滿足不同應用需求的任務，融合進一個整體。

為何 UniAD 能解決多任務融合問題？

研究團隊採用了多組查詢向量的全 Transformer 模型，同時，團隊還立足於 “規劃” 目標做全棧設計。

舉個實際應用例子，在車輛于晴天直行時，UniAD 能感知左前方等待的黑色車輛，預測其未來軌跡（即將左轉駛入自車的車道），並立即減速實現避讓，待黑色駛離後再恢復正常速度直行。

若處於雨天轉彎場景，在視野干擾較大且場景複雜的十字路口，UniAD 能通過分割模塊生成十字路口的整體道路結構，做到大幅度左轉規劃。

UniAD 號稱自動駕駛通用大模型，這個應該如何理解？

這個框架奠定了多任務端到端自動駕駛大模型的基礎，具有很強的可擴展性。通過增加模型參數與擴充海量數據雙輪驅動，可進一步實現自動駕駛大模型，賦能行業應用與相關自駕產品落地。

這段話是上海人工智能（AI）實驗室李弘揚博士的解釋。

華爾街見聞注意到，UniAD 解決多任務應用需求的能力，與商湯科技在今年 3 月 14 日發佈的多模態多任務通用大模型 “書生（INTERN）2.5” 很可能有內在聯繫。

“書生（INTERN）2.5”，商湯科技稱之 “有良好的圖文跨模態開放任務處理能力，可為自動駕駛、機器人等通用場景任務提供高效精準的感知和理解能力支持”。其初代版本，由商湯科技、上海人工智能實驗室、清華大學、香港中文大學和上海交通大學，於 2021 年 11 月首次共同發佈，並持續聯合研發。

商湯科技稱，書生（INTERN）2.5 致力於多模態多任務通用模型的構建，可接收處理各種不同模態的輸入，並採用統一的模型架構和參數處理各種不同的任務。