買個機器人端茶倒水有希望了？Meta、紐約大學造了一個 OK-Robot

紐約大學和 Meta 研究者開發出一款名為 OK-Robot 的機器人，它能夠通過語音指令執行各種任務，如拾取物品、整理物品和扔垃圾。OK-Robot 將視覺語言模型、導航和抓取模塊整合到一個開放知識型框架中，實現高效的操作。研究者通過在真實家庭環境中進行測試，驗證了 OK-Robot 的可行性。這一技術有望在未來為人們提供更多便利。

如果有個這樣的機器人，你幾點回家？

「xx，去把電視櫃上的遙控器幫我拿過來。」在一個家庭環境中，很多家庭成員都不免被支使幹這種活兒。甚至有時候，寵物狗也難以倖免。但人總有支使不動的時候，寵物狗也並不一定都能聽懂。幫人類幹活兒的終極夢想還是寄託在機器人身上。

最近，紐約大學、Meta 研發出的一款機器人學會了這個技能。你只需要對它説，「把桌子上的玉米片拿到牀頭櫃上」，它就能自己找到玉米片，並規劃出路線和相應的動作，順利完成任務。此外，它還能幫你整理東西或扔垃圾。

這個機器人名叫 OK-Robot，由來自紐約大學、Meta 的研究者共同構建。他們將視覺語言模型（用於物體檢測）、導航和抓取的基礎模塊整合到一個開放知識型框架中，為機器人的高效拾放操作提供瞭解決方案。看來，等我們老了之後，買個機器人給自己端茶倒水還是有希望的。

OK-Robot 定位中的「開放知識」指的是在大型公開數據集上訓練的學習模型。當 OK-Robot 被放置在一個新的家庭環境中時，它將從 iPhone 上獲取掃描結果。根據掃描結果，它會使用 LangSam 和 CLIP 計算出密集的視覺語言表徵，並將其存儲在語義存儲器中。在此之後，給定一個需要拾取的對象的語言查詢，查詢的語言表徵與語義記憶相匹配。接下來，它會依次應用導航和拾取模塊，移動到所需物體並將其拾取。類似的過程也可用於丟棄物體。

為了研究 OK-Robot，研究者在 10 個真實的家庭環境中對其進行了測試。通過實驗，他們發現，在一個從未見過的自然家居環境中，該系統零樣本部署的成功率平均為 58.5%。然而，這一成功率在很大程度上取決於環境的「自然程度」。因為他們發現，通過改進查詢、整理空間和排除明顯具有對抗性的物體（太大、太半透明、太滑），這一成功率達到了約 82.4%。

總之，通過實驗，他們得出了以下結論：

預訓練的視覺語言模型對開放詞彙導航非常有效：目前的開放詞彙視覺語言模型 —— 如 CLIP 或 OWL-ViT—— 在識別真實世界中的任意物體方面表現出色，並能以零樣本的方式導航、找到這些物體。

預訓練的抓取模型可直接應用於移動操控：與 VLM 類似，根據大量數據預訓練的專用機器人模型可以直接應用於家庭中的開放詞彙抓取。這些機器人模型不需要任何額外的訓練或微調。

如何組合組件至關重要：研究者發現，在預先訓練好模型的情況下，可以使用一個簡單的狀態機模型（state-machine model）將它們組合起來，而無需進行任何訓練。他們還發現，使用啓發式方法來抵消機器人的物理限制，可以在真實世界中獲得更高的成功率。

目前仍存在一些挑戰：考慮到在任意家庭中進行零樣本操作的巨大挑戰，OK-Robot 在先前工作的基礎上進行了改進。通過分析失敗模式，他們發現在視覺語言模型、機器人模型和機器人形態學方面可以進行重大改進，這將直接提高開放知識操縱智能體的性能。

為了鼓勵和支持其他研究者在開放知識機器人領域的工作，作者表示將共享 OK-Robot 的代碼和模塊。

技術組成和方法

該研究主要解決這個問題：從 B 上拿起 A 並將其放在 C 上，其中 A 是一個物體，B 和 C 是現實世界環境中的某個地方。要實現這一點，所提系統需要包含以下模塊：開放詞彙對象導航模塊，開放詞彙 RGB-D 抓取模塊以及釋放或放置對象的啓發式模塊（dropping heuristic）。

開放詞彙對象導航

首先是掃描房間。開放詞彙對象導航遵循了 CLIP-Fields 的方法，並假設有一個預先映射階段，即使用 iPhone 手動掃描家庭環境。這種手動掃描只是用 iPhone 上的 Record3D 應用程序拍攝家庭視頻，這將產生一系列帶位置的 RGB-D 圖像。

掃描每個房間的時間不到一分鐘，一旦信息收集完畢，RGB-D 圖像以及相機的姿態和位置就被導出到項目庫中進行地圖構建。錄製時必須捕捉地面表面以及環境中的物體和容器。

接下來是進行對象檢測。在掃描的每一幀上，會有一個開放詞彙對象檢測器對掃描的內容進行處理。本文選擇 OWL-ViT 對象檢測器，因為這種方法在初步查詢中表現更好。研究者在每一幀上應用檢測器，並提取每個對象邊界框、CLIP 嵌入、檢測器置信度，並將它們傳遞到導航模塊的對象存儲模塊中。

然後進行以對象為中心的語義存儲。本文藉助 VoxelMap 來完成這一步，具體來説，他們使用深度圖像和相機收集的姿態將對象掩模反向投影到現實世界座標中，這種方式可以提供一個點雲，其中每個點都有一個來自 CLIP 的關聯語義向量。

之後是查詢記憶模塊：給定一個語言查詢，本文使用 CLIP 語言編碼器將其轉換為語義向量。由於每個體素都與家中的真實位置相關聯，因此可以找到最有可能找到查詢對象的位置，類似於圖 2 (a)。

必要時，本文將「A on B」實施為「A close B」。為此，查詢 A 選擇前 10 個點，查詢 B 選擇前 50 個點。然後計算 10×50 成對歐氏距離，並選擇與最短 (A, B) 距離相關的 A 點。

完成上述過程，接下來就是導航到現實世界中的對象：一旦得到了現實世界中的 3D 位置座標，就可以將其用作機器人的導航目標來初始化操作階段。導航模塊必須將機器人放置在手臂可觸到的範圍，以便機器人隨後可以操縱目標物體。

機器人對現實世界物體的抓握

與開放詞彙導航不同，為了完成抓取任務，算法需要與現實世界中的任意對象進行物理交互，這使得這部分變得更加困難。因此，本文選擇使用預訓練的抓取模型來生成現實世界中的抓取姿態，並使用 VLM 進行語言條件過濾。

本文使用的抓取生成模塊是 AnyGrasp，它在給定單個 RGB 圖像和點雲的場景中使用平行鉗口夾具生成無碰撞抓取。

AnyGrasp 提供了場景中可能的抓握（圖 3 第 2 列），包括抓握點、寬度、高度、深度和抓握分數，該分數表示每次抓握中未校準的模型置信度。

使用語言查詢過濾抓握：對於從 AnyGrasp 獲得的抓握建議，本文采用 LangSam 過濾抓握。本文將所有建議的抓握點投影到圖像上，並找到落入對象掩模的抓握點（圖 3 第 4 列）。

抓握執行。一旦確定了最佳抓握（圖 3 第 5 列），就可以使用簡單的預抓握方法來抓握目標對象。

釋放或放置對象的啓發式模塊

抓握對象後，接下來就是將對象放置在什麼地方。與 HomeRobot 的基線實現不同，該方法假設物體放下的位置是一個平坦的表面，本文進行了擴展，還涵蓋了凹物體，如水槽、箱子、盒子和袋子。

至此，導航、抓握和放置都有了，之後就可以直接將它們組合起來，該方法可以直接應用於任何新的家庭。對於新的家居環境，該研究可以在一分鐘內掃描房間。然後，只需不到五分鐘即可將其處理到 VoxelMap 中。一旦完成，機器人就可以立即放置在選定的場地並開始運行。從到達一個全新的環境到開始在其中自主操作，該系統平均需要不到 10 分鐘即可完成第一個取放任務。

實驗

在超過 10 個家庭實驗中，OK-Robot 在取放任務上實現了 58.5% 的成功率。

該研究還對 OK-Robot 進行了深入探索以更好地理解其故障模式。研究發現，故障的主要原因是操作故障，然而，仔細觀察後注意到失敗的原因是長尾造成的，如圖 4 所示，失敗的三大原因包括未能從語義記憶中檢索到要導航到的正確對象 (9.3%) ，從操作模塊獲得的姿態難以完成（8.0％），以及硬件原因（7.5％）。

由圖 5 可得，OK-Robot 中使用的 VoxelMap 略微優於其他語義記憶模塊。至於抓取模塊，AnyGrasp 明顯優於其他抓取方法，在相對規模上比最佳候選方法（自上而下抓取）的性能高出近 50%。然而，基於啓發式的算法，HomeRobot 的自上向下抓取擊敗了開源 AnyGrasp 基線和 Contact-GraspNet，這一事實表明構建真正的通用抓取模型仍然很困難。

圖 6 展示了 OK-Robot 在各個階段失敗的完整分析。由分析可得，當研究者對環境進行清理並刪除模糊物體時，導航準確率會上升，總錯誤率從 15% 下降到 12%，最後一直下降到 4%。同樣，當研究者清理環境中的雜物時，操作準確率也提高了，錯誤率從 25% 下降到 16%，最後下降到 13%。

文章來源：機器之心，原文標題：《買個機器人端茶倒水有希望了？Meta、紐約大學造了一個 OK-Robot》

風險提示及免責條款

市場有風險，投資需謹慎。本文不構成個人投資建議，也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資，責任自負。