Give robots an AI brain! Alphabet-C releases Visual Language Action Model to train robots to throw garbage.

谷歌的 RT-2 模型根據網上的文本和圖像進行訓練，直接指示機器人動作，比如讓機器人無需接受訓練就懂得垃圾是什麼，甚至知道怎樣扔垃圾。谷歌稱，面對訓練中從未出現的新任務情形時，RT-2 的性能較前代幾乎提高一倍；RT-2 能根據基本的推理響應用户指令。

谷歌正在把先進的人工智能（AI）模型植入機器人，給機器人配一個 AI 大腦。

美東時間 7 月 28 日週五，谷歌公司宣佈推出應用於機器人領域的新產品——名為 Robotics Transformer 2（RT-2）的 AI 模型。它是一種全新的 “視覺 - 語言 - 行動”（VLA）模型，可以幫助訓練機器人理解扔垃圾等任務。

谷歌介紹，RT-2 基於 Transformer 模型，根據互聯網上的文本和圖像進行訓練，直接指示機器人執行動作。就像用語言模型通過網絡文本訓練 AI 學習人類社會的思想和概念一樣，RT-2 也可以通過網絡數據，將相關知識告知機器人，指導機器人的行為。

谷歌舉例稱，如果我們要讓以前的機器人系統做出扔垃圾的動作，就必須明確訓練機器人懂得區分何為垃圾，以及撿起垃圾、扔掉它這些動作。而 RT-2 能將網上的相關知識傳給機器人，讓機器人無需明確的訓練，就懂得垃圾是什麼，甚至即便從未受過如何扔垃圾的訓練，也知道怎麼扔垃圾。

谷歌表示，RT-2 具有將信息轉化動作的能力，藉助它，機器人有望更快適應全新的情形和環境。

因為在 6000 多次測試 RT-2 模型的機器人試驗後，谷歌的團隊發現，面對訓練數據中已有的任務、或者説 “見過” 的任務，RT-2 和它的前代 RT-1 一樣發揮功能，沒有差別。而在新穎的、之前從未見過的任務情形中，RT-2 的性能幾乎提高一倍，成功率達到 62%，遠超 RT-1 的 32%。

換句話説，通過 RT-2，機器人能像人類一樣學習更多內容，將學到的概念應用於全新的情境中。

谷歌稱，RT-2 顯示出超越其所接觸機器人數據的推廣應用能力和語義、視覺理解能力，包括解釋新的命令，並通過基本的推理響應用户的指令，比如關於物體的類別和高層次描述的推理。

谷歌的研究還表明，通過結合思維鏈的推理，RT-2 能執行多階段的語義推理，比如判斷哪種物體可以臨時用作錘子，哪一類飲料最適合疲勞的人。

有媒體週五稱，谷歌目前沒有立即計劃大規模發佈或者出售應用 RT-2 的機器人，但最終，這些機器人可能用在倉庫或者用作家庭助理。