大模型竟塞進自動駕駛,AI 會解説自己怎麼開車了!

華爾街見聞
2023.09.16 05:57
portai
I'm PortAI, I can summarize articles.

Wayve 推出的 LINGO-1,讓自動駕駛長嘴了!這車該怎麼開,它自個給自個解説,大語言模型,再也不是黑盒了。

自發明以來,自動駕駛最讓人擔心之處,莫過於人類無法知道它的腦子裏到底在想些什麼。

今天開始,它居然可以把自己的想法「講出來」了?

最近,Wayve 推出了基於視覺語言行動的大模型(VLAMs)的自動駕駛交互大模型 LINGO-1,把大語言模型和自動駕駛進行了深度融合。

具體來説,LINGO-1 訓練了一個視頻語言模型,它可以説是相當有個性——可以對眼前正在進行的場景發表評論!

-你在幹嘛? 
-我在小心翼翼地穿越車流,因為目前路面情況很複雜。 
-下一步你打算要做什麼? 
-我要準備左轉了。 
-眼前的場景中有哪些潛在風險? 
-信號燈,騎自行車的人,過馬路的行人

你對智駕系統的疑惑,它統統給你解釋清楚。

問:為什麼停下了?答:因為現在是紅燈。

在經過各種視覺和語言數據的訓練之後,LINGO-1 不僅可以執行視覺問答(VQA)任務,如感知、反事實、規劃、推理和注意力,而且還能對駕駛行為和推理進行描述。

也就是説,我們可以通過對 LINGO-1 進行提問,來了解影響駕駛決策的因素是什麼。

網友感慨道:「端到端的黑盒,就這麼被打開了,簡直是 GPT 時代的大力出奇跡。自動駕駛系統離真實的物理世界交互,又前進了一大步。」

可以想象,隨着我們突破具身人工智能的界限,視覺 - 語言 - 行動模型將產生巨大的影響,因為語言提供了一種新的模式,來增強我們解釋和訓練自動駕駛模型的方式。

自動駕駛車裏進來一個捧哏的?

LINGO-1 中的獨特之處在於引入了一個人類專家,對駕駛場景的語言評論解説數據進行訓練,讓模型把環境感知、行動決策和類人的場景解讀聯繫在一起。

這樣,它就可以通過自然語言交互,來解讀自動駕駛系統的決策和行動了。

英偉達高級 AI 科學家 Jim Fan 興奮地點評道:這是我近期讀到的自動駕駛領域最有趣的作品!

從前的自動駕駛,是「感知 -> 駕駛操作」,而以後的自動駕駛,加進了推理的這一步,是「感知->文字推理->行動」。

這個新加的顯式推理步驟,有哪些優點?Jim Fan 解釋如下——

- 可解釋性:駕駛模型不再是一個神秘的黑盒。

- 反事實情景:它能夠想象出訓練數據中沒有的場景,並推理出如何正確地進行處理。

- 長尾編程:駕駛中存在大量邊緣場景,要對所有場景進行良好的數據覆蓋是不可能的。與其收集成千上萬的示例來對一個案例進行「神經編程」,不如讓人類專家編寫提示(prompt)來解釋少量的示例,從而指導系統如何處理特定或複雜的情景。

不僅如此,LINGO-1 還和遊戲人工智能領域的一些研究密切相關,比如 MineDojo 和思想克隆,它們都是 AI 智能體。

前者可以學習一種獎勵模型,把評論文本和「我的世界」(Minecraft)遊戲視頻像素關聯起來。後者可以實現「像素->語言->行動循環」的一整套鏈路。

LINGO-1——開環駕駛解説員

自個解説自個

模型在關注什麼?在做什麼?現在,這些都不是謎了。

LINGO-1 會對你解釋清楚,它的每一步行動是在幹嘛。

比如它想超越一輛停在路邊的車輛——

LINGO-1:由於車流緩慢,我正在超車。 

LINGO-1:我正在超越一輛停在路邊的汽車。 

LINGO-1:由於前方道路暢通,我正在加速。

駛近斑馬線時——

LINGO-1:我正在保持車速;道路仍然暢通無阻。 
LINGO-1:現在正在剎車減速。 
LINGO-1:在斑馬線處停下。 
LINGO-1:我正在從停止的位置加速。
LINGO-1:我正在加速,因為道路通暢。

在十字路口左轉時——

LINGO-1:我保持不動,因為前車也停了下來。 
LINGO-1:我正在加速,因為前車已經駛離。 
LINGO-1:我正在踩剎車,準備在路口停車。 
LINGO-1:我正在前進,因為車道暢通。 
LINGO-1:完成左轉,沿着路線行駛。

視覺問答(VQA)

除了能解説自個兒,LINGO-1 還能針對你的提問進行答疑,讓我們能夠評估它的場景理解和推理能力。

比如,如果問 LINGO-1,在這個十字路口要注意什麼?

它會説:「我得注意前面的信號燈、我前面騎自行車的人和正在穿過道路的行人。」

問一下 LINGO-1,現在是什麼天氣?會對駕駛產生什麼影響?

它會説:「現在是雨天,我開車時需要極其小心,因為雨天路面濕滑,能見度降低。」

LINGO-1,你該怎樣安全地和自行車並排行駛?

它會説:「我得和騎自行車的人保持距離,必要的時候停下來,它是一個潛在危險。另外路邊停的車我也得注意。」

關鍵:駕駛解説數據集

開發 LINGO-1 的關鍵,就在於創建一個可擴展的多樣化數據集。這個數據集包含了專業駕駛員在英國各地駕駛時的解説,包括圖像、語言和行動數據。

這讓我們想起在駕校時跟教練學開車時的場景——他們會不時發表類似下面這樣的評論和解説,解釋自己在駕駛時為什麼要有這種行為,好讓學員們舉一反三。

- 前方車輛/交通信號燈有變,請減速  
- 現在該變換車道了  
- 可以加速了,注意不要超過最高限速  
- 注意!其他車輛駛入道路/停在十字路口了  
- 注意前方環島和讓路標誌 
- 前方有停放車輛/交通信號燈/學校  
- 旁邊車輛正在變道/超過停在路邊的車輛  
- 騎車的人/行人正在斑馬線上等候
當以上這些語句和感官圖像、底層駕駛動作在時間上同步時,研究者就得到了豐富的視覺 - 語言 - 行動數據集,可以用於訓練各種任務的模型。

視覺 - 語言 - 行動模型(VLAM)

LLM 崛起後,許多視覺語言模型(VLM)都將 LLM 的推理能力與圖像和視頻相結合。

而 Wayve 進一步推出了視覺 - 語言 - 行動模型(VLAM),包含三種信息——圖像、駕駛數據和語言。

以前,在機器人訓練(尤其自動駕駛領域)中,很少會用到自然語言。

如果加進了自然語言,就會讓我們更有力地解釋和訓練基礎駕駛模型,這種嶄新的模式會產生巨大的影響。

通過用語言來解釋駕駛場景中的各種因果因素,就可以加快模型的訓練速度,推廣到全新的場景中。

而且,既然可以向模型問問題,我們就能知道模型究竟理解了什麼,它的推理和決策能力有多強。

自動駕駛系統也不再是個神秘的黑盒,我們開車時可以時不時地問問它:你在想啥? 這無疑會提高大眾對自動駕駛的信任。

另外,雖然只有少量的訓練樣本,但自然語言的快速學習能力,可以讓模型迅速高效地學習新任務、適應新場景。

比如,只要我們用自然語言告訴模型「這種行為不對」,就能糾正自動駕駛系統的錯誤行為。

從此,或許只需要自然語言,就能為端到端自動駕駛建立基礎模型了!

準確率 60%

這段時間,團隊一直在對模型架構和訓練數據集進行改進。

從圖中不難看出,LINGO-1 的性能相比於最開始已經提高了一倍。

目前,LINGO-1 的準確率已經達到了人類水平的 60%。

顯然,自然語言的引入,可以在多個方面徹底改變自動駕駛技術。

提高端到端模型的可解釋性

機器學習模型缺乏可解釋性的問題,一直以來都是研究的焦點。

通過創建基於自然語言的交互界面,可以讓用户直接進行提問並讓 AI 解答,從而深入瞭解模型對場景理解以及是如何做出決策的。

這種乘客與自動駕駛汽車之間的獨特對話,可以提高透明度,讓人更容易理解和信任這些系統。

同時,自然語言還能增強模型適應人類反饋並從中學習的能力。

就像教練指導學生駕駛一樣,隨着時間的推移,糾正指令和用户反饋可以完善模型的理解和決策過程。

更好的規劃和推理,提高駕駛性能

有兩個主要的因素會影響自動駕駛性能:

  1.  語言模型準確解釋各種輸入模式場景的能力

2. 模型將中層推理轉化為有效底層規劃的熟練程度

對此,團隊正在嘗試通過 LINGO 的自然語言、推理和規劃能力,來對閉環駕駛模型進行增強。

Wayve LINGO-1 閉環自動駕駛模型

新場景或長尾場景的高效學習

平時,一張圖片勝過千言萬語。 但在訓練模型時,是一段文字勝過千幅圖片。 現在,我們不再需要成千上萬個汽車為行人減速的示例,只需要幾個示例,配上簡短的文字説明,就可以教會模型減速,讓它學會在這種情況下應該如何行動,應該考慮什麼。

要知道,在自動駕駛中,最重要的部分之一就是因果推理,它能讓系統理解場景中元素和行為之間的關係。

一個性能良好的 VLAM,可以讓系統將在斑馬線上等待的行人與「請勿穿越」的交通信號牌聯繫起來。這種數據有限的挑戰性場景中極有意義。

另外,LLM 早已從互聯網數據集中掌握了大量人類行為知識,因此能夠理解識別物體、交通法規和駕駛操作等概念,比如樹、商店、房子、追逐球的狗和停在學校門口的公交車之間的區別。

通過 VLAM 對圖形數據更廣泛的信息編碼,自動駕駛會變得更先進、更安全。

侷限性

當然,LINGO-1 也存在着一定的侷限性。

泛化

LINGO-1 是根據倫敦市中心的駕駛經驗和互聯網規模的文本進行訓練的。

雖然已經學到了全世界的駕駛文化,但目前最擅長的還是對英國的交通法規進行解讀。

它還需要學習其他國家的駕駛經驗。

幻覺

在大語言模型中,幻覺是一個眾所周知的問題,LINGO-1 也不例外。

不過比起一般 LLM,LINGO-1 有一個優勢:因為以視覺、語言和行動為基礎,它就有了更多的監督來源,從而可以更好地理解世界。

上下文

視頻深度學習之所以具有挑戰性,是因為視頻數據通常比圖像或文本數據集大幾個數量級。

基於視頻的多模態語言模型尤其需要較長的上下文長度,以便能夠嵌入許多視頻幀,來推理複雜的動態駕駛場景。

閉環推理

目前,Wayve 正在研究模型的可解釋性,但最終,他們 LLM 的推理能力能夠真正影響到人類的駕駛。

研究者正在開發一種閉環架構,未來能在自動駕駛車輛上運行 LINGO-1。

網友討論

對此,網友們也覺得很振奮人心。

「有趣的是,我認為語言模型是用文字解釋了駕駛控制模型的轉向、制動和油門預測,而不是影響駕駛本身,因為自然語言會丟失所需的精度。」

「通過這種方法,我們正在非常接近 AGI。」

「可以認為它是在世界模型中添加語言。我一直不明白為什麼以前從未嘗試過,因為訓練 Agent 進行溝通這個想法似乎大家都能想到。」

「從單純的感知行動到添加文本推理,這種轉變改變了遊戲規則!在我看來,這正是自動駕駛中缺失的部分,因為它以非技術性的方式使可解釋性成為可能。」

目前來説,機器人訓練與自然語言的整合,仍處於早期階段。

而 LINGO-1,正式在利用自然語言加強基礎駕駛模型的學習和可解釋性上,邁出的重要一步。

試想一下,以後我們只需要通過簡單的文字提示,就能讓 AI 告訴前面的路況,或者讓 AI 學習不同地區的交通法規,這個場景簡直太令人激動了!

因此,自然語言在開發更安全、更可靠的自動駕駛汽車方面,一定大有可為。

參考資料: https://wayve.ai/thinking/lingo-natural-language-autonomous-driving/?continueFlag=94beb9def3b2abc69ded207e71ffda33

本文來源:新智元 (ID:AI_era),原文標題:《大模型竟塞進自動駕駛,AI 會解説自己怎麼開車了!》

風險提示及免責條款
市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。