Oct, 2023

Eureka:通过编码大型语言模型实现与人类水平的奖励设计

TL;DREureka 是一个由 LLMs 支持的人类级奖励设计算法,通过利用 GPT-4 等最先进的 LLMs 的无需提示、代码编写和条件改进能力,进行奖励代码的进化优化,从而生成可用于强化学习的复杂技能获取奖励函数。在一个多样的包含 10 个不同机器人形态的 29 个开源强化学习环境中,Eureka 在 83%的任务上超过了人类专家,在平均标准化改进率为 52%。Eureka 的通用性还使得从人类反馈进行无梯度的上下文学习(RLHF)成为可能,在不进行模型更新的情况下,即可融入人类输入以提高生成奖励的质量和安全性。最后,利用 Eureka 奖励在课程学习设置中演示了模拟的 Shadow Hand 能够熟练进行旋转笔技巧,并以快速速度进行笔的操纵。