谷歌 AGI 機器人大招:用大模型給機器人造 “大腦”

華爾街見聞
2023.07.31 06:07
portai
I'm PortAI, I can summarize articles.

谷歌 DeepMind 的機器人研究取得了重大突破,可以讓機器人完成辨認物體、思考和推理等任務。

爆火的大模型,正在重塑谷歌 DeepMind 的機器人研究。

最新成果之一,就是他們耗時 7 個月打造的機器人項目RT-2,狠狠在網上火了一把:

效果究竟有多好?

只需用人話下達命令,面前這個小傢伙就能揮動機械臂,思考並完成 “主人的任務”。

像是給流行歌手黴黴(Taylor Swift)遞水、或是辨認明星球隊 Logo:

甚至能主動思考,讓它 “撿起已滅絕的動物”,就能從獅子、鯨魚、恐龍這三個塑料玩具中準確 pick 恐龍。

用網友的話來説,別小看這個能力,這是實現了從 “滅絕的動物” 到 “塑料恐龍” 的邏輯飛躍

更 “要命” 的是,它還能輕鬆解決 “給疲憊的人選一種飲料” 這種需要結合思想鏈的多階段推理問題——一聽到命令小手就直奔紅牛而去,簡直不要太聰明。

有網友看完感嘆:

等不及了,趕緊快進到給人類洗碗吧(手動狗頭)

據瞭解,谷歌 DeepMind 這項成果由54 位研究員合作產出,前前後後拉扯 7 個月,最終才變成我們看到的這樣 “so easy”。

《紐約時報》介紹稱,谷歌 DeepMind機器人技術主管Vincent Vanhoucke 認為,大模型徹底改變了他們部門的研究方向:

由於(大模型)這一變化,我們不得不重新考慮整個研究項目。

我們之前研究的很多東西,都已經完全失效了。

所以,RT-2 究竟能實現什麼樣的效果,這研究又具體是怎麼一回事兒?

將多模態大模型 “塞進” 機械臂

這個名叫RT-2(Robotic Transformer 2)的機器人項目,是去年年底發佈的 RT-1 的 “進化版”。

相比於其他的機器人研究,RT-2 的核心優勢在於,不僅能理解 “人話”,還能對 “人話” 進行推理,並轉變為機器人能理解的指令,從而分階段完成任務。

具體來説,它具備三大能力——符號理解(Symbol understanding)、推理(Reasoning)和人類識別(Human recognition)。

第一個能力是 “符號理解”,能將大模型預訓練的知識,直接延展到機器人此前沒見過的數據上。例如機器人數據庫中雖然沒有 “紅牛”,但它卻能從大模型的知識中理解並掌握 “紅牛” 的外貌,並拿捏物品。

第二個能力是 “推理”,這也是 RT-2 的核心優勢,要求機器人掌握數學、視覺推理和多語言理解三大技能。

技能一,包含數學邏輯推理的命令,“將香蕉放到 2+1 的總和的位置”:

技能二,視覺推理,像是 “將草莓放進正確的碗中”:

技能三,多語言理解,即使不用英語也能完成指令,例如用西班牙語命令它 “從一堆物品中挑出最與眾不同的那個”:

第三個能力是人類識別,準確識別並理解人類的行為,像開頭看到的 “將水遞給泰勒·斯威夫特” 例子就是能力展現之一。

那麼,這三個能力是怎麼實現的?

簡單來説,就是將視覺 - 文本多模態大模型(VLM)具備的 “推理”、“識別”、“數學” 等能力,和機器人的操作能力結合起來。

為了實現這一點,研究人員直接給視覺 - 文本大模型(VLM)增加了一個模態,叫做 “機器人動作模態”,從而把它變成了視覺 - 文本 - 動作大模型(VLA)。

隨後,將原本非常具體的機器人動作數據,轉變成文本 token。

例如將轉動度數、放到哪個座標點等數據,轉變成文本 “放到某個位置”。

這樣一來,機器人數據也能被用到視覺 - 語言數據集中進行訓練,同時在進行推理的過程中,原本的文本指令也會被重新轉化為機器人數據,實現控制機器人等一系列操作。

沒錯,就是這麼簡單粗暴(手動狗頭)

在這次的研究中,團隊主要基於谷歌的一系列基礎大模型來 “做升級”,包括 50 億和 550 億的PaLI-X、30 億的PaLI以及 120 億的PaLM-E

為了提升大模型本身的能力,研究人員也下了不少功夫,把最近爆火的思維鏈、向量數據庫和無梯度架構(no-gradient architectures)都用上了。

這一系列操作,也讓 RT-2 和去年發佈的 RT-1 相比,具有了不少新優勢。

下面就來看看具體的實驗結果。

RT-2 使用上一代機器人模型 RT-1 的數據進行訓練(也就是説數據沒變,只是方法不同了)。

這些數據是用 13 個機器人在辦公室搭建的一個廚房環境中耗時 17 個月收集到的。

在實際測試中(一共歷經 6000 次),作者給了 RT-2 許多以前未見過的物體,需要 RT-2 在微調數據之外進行語義理解來完成任務。

結果完成的都相當不錯:

包括從簡單的識別字母、國旗、人物到從玩偶中識別陸生動物、選出顏色不相同的那隻,甚至是撿起快要從桌上掉下去的零食等複雜的命令。

而從符號理解、推理和人類識別這三個細分能力上來看,RT-2 的兩個變體都比 RT-1 和另一種視覺預訓練方法 VC-1 要好很多,性能最高可達 3 倍。

如前文所述,這兩個變體分別在 120 億參數的 PaLM-E 和 550 億參數的 PaLI-X 上進行訓練。

具體的泛化能力評估上,通過與多個基線模型的多類細分測試,最終發現 RT-2 性能提高了大約 2 倍。

(稍顯遺憾的是,我們還沒看到它和其他團隊最新基於 LLM 的機器人方法進行對比)

而為了更好地理解 RT-2 的不同設置如何影響泛化結果,作者又設計了兩大類評估:

一是在模型尺寸上,僅在 RT-2 PaLI-X 變體分別採用 50 億參數與 550 億參數進行訓練;

二是訓練方法上,分別採用從頭開始訓練模型 vs 微調 vs 協同微調的方法。

最終結果表明,視覺語言模型預訓練權重的重要性以及模型泛化能力有隨着模型大小而提高的趨勢。

另外,作者還在開源語言表基準上評估了 RT-2,結果顯示它在模擬基準上實現了 SOTA 結果(90%vs 之前的 77%)。

最後,由於 RT-2 PaLM-E 變體是一個視覺 - 語言 - 動作模型,可以在單個神經網絡中充當 LLM、VLM 和機器人控制器,因此 RT-2 還可以執行可控的思想鏈推理。

如下圖所示的 5 個需要推理的任務中(尤其最後一個非常有意思:選擇可以替代錘子的物品),它接到命令後會先輸出自然語言步驟,然後再給出具體的動作 token。

最最後,總結來説,這個最新的 RT-2 模型,不僅能更好地適用於不同的、機器此前沒見過的場景中,泛化能力更好了;與此同時,由於有了更好的大模型加持,它也掌握了一些有難度的新能力,比如推理。

One More Thing

谷歌將機器人研究的重心放在大模型上,似乎也不是 “空穴來風”。

就在這兩天,他們和哥倫比亞大學合作的一篇關於 “用大模型幫助獲取更多機器人操作技能” 的論文,同樣很火:

這篇論文提出了一種新的框架,不僅能讓機器人很好地適應大模型,同時還能保留原本機器人的基礎操作和控制能力:

和 RT-2 有所不同的是,這一項目已經開源:

屬實是用大模型帶動整個機器人部門升級了。

再聯想到前不久李飛飛團隊的具身智能成果,可以説,用大模型帶動機器人着實成為一種研究趨勢,且已經讓我們看到了一波非常有潛力的進展。

對於這個研究方向,你有哪些期待?

— 完 —

本文來源:量子位,原文標題:《谷歌 AGI 機器人大招!54 人天團憋 7 個月,強泛化強推理,DeepMind 和谷歌大腦合併後新成果》

風險提示及免責條款
市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。