
CSC: Merger of Two AI Labs under Alphabet-C Expected to Further Accelerate Progress in Robot Models

Google Deepmind 近期發佈研究成果,具備 “自我完善” 能力的 “RoboCat” 和融合大語言模型能力的 VLA 模型 “RT-2”,機器人智能化進一步加速,有望掀起新一輪 AI 革命。
智通財經 APP 獲悉,中信建投發佈研報稱,2023 年 4 月 20 日,Google 宣佈將 Google Brain 和 DeepMind 兩大世界級 AI 實驗室合併,成立 Google DeepMind 部門,以谷歌的計算資源作為後盾,加速人工智能研發和應用的推進。Google Deepmind 在 2023 年 6 月和 7 月發佈了其最新研究成果,具備 “自我完善” 能力的 “RoboCat” 和融合大語言模型能力的 VLA 模型 “RT-2”,機器人智能化進一步加速,有望掀起新一輪 AI 革命。
中信建投主要觀點如下
從 Gato 到 RoboCat,更大規模的訓練數據集和創新的自我完善方法助力打造更強的機器人智能體。在 2022 年 5 月提出的 Gato 模型將智能體擴展到機器人控制領域中,但 “通用性” 和 “智能性” 仍有較大提升空間,其模型架構和控制任務數據的序列化方式是後續模型發展的重要基礎。2023 年 7 月提出的 RoboCat 則基於 Gato 的模型基礎,將訓練數據集擴充至 400 萬個機器人相關片段,並創新性的提出 “自我完善” 的方式來進一步豐富訓練數據,這兩點創新讓 RoboCat 在實現了訓練任務的性能提升並具備了一定的泛化性能,並且能夠在少量數據微調的情況下處理未見過的任務。
從 RT-1 到 RT-2,大語言模型帶來更強的泛化能力、邏輯推理能力、知識能力,深度賦能機器人智能化。2022 年 12 月提出的 RT-1 模型構建起了特定的指令、圖像和機器人指令之間的橋樑;2023 年 3 月的 PaLM-E 模型則能夠處理輸入的文本和圖像信息,將複雜任務轉化為 RT-1 能夠接受的指令;2023 年 7 月提出的 RT-2 是二者的融合, 在大語言模型強大能力的賦能下,RT-2 能夠完成分解複雜任務、簡單的計算、識別人臉等現實場景中常見但以往的模型無法完成的任務,智能化程度大幅提升。
差異路線引領發展,團隊整合協同革新。Google Brain 和 DeepMind 兩個團隊從兩個不同的切入點出發逐步推進 AI 機器人模型發展,DeepMind 團隊從智能體(Agent)的角度出發不斷提升機器人能力,因此 RoboCat 中的訓練數據大多來自強化學習,模型參數量控制表現更為優秀,能夠實現更高頻率的機器人控制;而 Google Brain 則嘗試將大語言模型應用到機器人的控制領域,因此 RT-2 的模型參數量更大,在泛化能力、知識和推理能力方面有更強的表現。隨着兩個團隊進一步合併,深化數據、模型等方面的協同合作,谷歌的機器人模型進展有望進一步加速。
