用 GPT-4 训练机器人！英伟达最新 Agent 开源：任务越复杂越拿手

英伟达 Eureka 在超过 80% 的任务中都超越人类专家，让机器人平均性能提升到 50% 以上。而且，近半数研究人员都是华人。

训练机器人，AI 比人类更拿手！

英伟达最新 AI AgentEureka ，用 GPT-4 生成奖励函数，结果教会机器人完成了三十多个复杂任务。

比如，快速转个笔，打开抽屉和柜子、抛球和接球。

尤其是转笔这个技能，要知道靠人类逐帧制作动画，也是非常困难的。

最终，Eureka 在超过 80% 的任务中都超越人类专家，让机器人平均性能提升到 50% 以上。

这一研究吸引了数十万网友关注，有人表示：直接快进到它弹钢琴那天，直接为大众所用。

英伟达科学家，也是此次共同作者之一 Jim Fan 评价到，它是超级人类奖励工程师。它可以辅助机器人工程师设计复杂任务。

目前该项目完全开源。

GPT-4 生成奖励策略

在机器人学习中，大模型擅长生成高级语义规划和中级操作，比如拾取和放置（VIMA、RT-1 等），但在复杂任务控制方面有所欠缺。

而 Eureka 的关键所在，就是通过上下文来实现了人类水平的奖励算法设计。

简单来说，就是用 GPT-4 的零样本生成、代码编写以及上下文改进功能，对奖励执行策略进行优化，由此通过强化学习来进行复杂的技能。

研究人员提出了一种混合梯度架构，外循环运行 GPT-4 来细化奖励函数（无梯度），而内循环运行强化学习来训练机器人控制器（基于梯度）。

主要有三个关键组成部分：

首先，无需任何特定提示工程和奖励模版。使用原始Isaac Gym（一种 GPU 加速的物理模拟器）环境代码作为上下文，生成初始奖励函数。

这种无梯度的情境学习方式，可以根据各种形式的人类输入，生成性能更强、符合开发人员愿景的奖励函数。

其次，Eureka 在每个进化步骤中都会生成很多候选函数，然后利用强化学习训练来进行快速评估。

以往这种过程需要几天甚至几周来完成，但由 Isaac Gym 可将模拟时间提高 1000 倍，强化学习内循环能在几分钟完成。

最后，依赖于奖励反射，Eureka 还支持一种新形式的上下文 RLHF。它能够将人类操作员的反馈融入自然语言中，以引导和调整奖励功能。

最终，在 29 种不同的开源 RL 环境中，83% 基准测试中 Eureka 都优于人类，并实现了 52% 改进。

这些环境包括 10 种不同的机器人形态，比如四足机器人、四旋翼机器人、双足机器人、机械手等。

让研究人员惊讶的是，尤其在处理复杂、高维电机控制的任务上，Eureka 表现更好，且与人类奖励的相关性越低。

甚至在少数情况下，AI 的策略与人类的策略呈现负相关。

这就有点像当年 AlphaGo 的下棋策略，人类看不懂学不会，但十分有效。

这项研究由英伟达、宾夕法尼亚大学、加州理工学院、德州大学奥斯汀分校的研究人员来完成。

可以看到的是，近半数研究人员都是华人。

一作是 Yecheng Jason Ma，目前是宾大 GRASP 实验室的四年级博士生，研究方向是强化学习和机器人学习。

英伟达科学家 Jim Fan 此次也是通讯作者之一。

咳咳，不过至于网友提到的弹钢琴，Jim Fan 自己曾分享过：只需几个简单按钮，AI 就能实时即兴生成演奏音乐。

不知道，未来会不会这样的呢？（不过，这研究已经是 2018 年的了）

本文作者：白交，来源：，原文标题：《用 GPT-4 训练机器人，英伟达最新 Agent 开源：任务越复杂越拿手》

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。