Eureka：通过编码大型语言模型实现与人类水平的奖励设计

Oct, 2023

Eureka：通过编码大型语言模型实现与人类水平的奖励设计

Eureka: Human-Level Reward Design via Coding Large Language Models

Yecheng Jason Ma, William Liang, Guanzhi Wang, De-An Huang, Osbert Bastani...

TL;DREureka 是一个由 LLMs 支持的人类级奖励设计算法，通过利用 GPT-4 等最先进的 LLMs 的无需提示、代码编写和条件改进能力，进行奖励代码的进化优化，从而生成可用于强化学习的复杂技能获取奖励函数。在一个多样的包含 10 个不同机器人形态的 29 个开源强化学习环境中，Eureka 在 83％的任务上超过了人类专家，在平均标准化改进率为 52％。Eureka 的通用性还使得从人类反馈进行无梯度的上下文学习（RLHF）成为可能，在不进行模型更新的情况下，即可融入人类输入以提高生成奖励的质量和安全性。最后，利用 Eureka 奖励在课程学习设置中演示了模拟的 Shadow Hand 能够熟练进行旋转笔技巧，并以快速速度进行笔的操纵。

Abstract

large language models (LLMs) have excelled as high-level semantic planners for sequential decision-making tasks. However, harnessing them to learn complex low-level manipulation tasks, such as dexterous pen spinning, remains an open problem. We bridge this fundamental gap and present <

large language models eureka complex low-level manipulation tasks reward design reinforcement learning

发现论文，激发创造

DrEureka: 语言模型引导的模拟到现实转移

使用大规模语言模型（LLMs）自动构建适合真实世界转化的奖励函数和域随机化分布的 DrEureka 方法可用于解决四足动作和灵巧操纵等机器人任务，且无需迭代式手动设计。

Jun, 2024

机器技能综合的语言到奖励转换

本文提出了一种新颖的方法，即通过利用大型语言模型 (LLMs) 定义奖励参数，从而优化和实现各种机器人任务，并结合实时优化器 MuJoCo MPC，使用户可以交互地创造行为并快速获得结果反馈。作者在一个模拟仿真机器人四足动物和一种机械手进行了 17 个任务的评价，证明了这种方法成功解决了 90% 的任务，并在真实机器人手臂上验证了方法的有效性，包括非握持推动等复杂操作技能。

Jun, 2023

REvolve: 大型语言模型在自动驾驶中的奖励进化

利用大型语言模型来设计人类对鼓励功能的反馈机制，从而更好地训练自主驾驶系统。

Jun, 2024

自我完善的大型语言模型作为机器人深度强化学习的自动奖励函数设计者

我们提出了一个带有自我完善机制的新型大语言模型框架，用于自动化奖励函数设计。通过在多个连续机器人控制任务上的实验，结果表明我们的大语言模型设计的奖励函数能够与手动设计的奖励函数相媲美甚至超越，突显了我们方法的效果和适用性。

Sep, 2023

通过自对准使用大型语言模型学习机器人技能的奖励

在没有人类干预的情况下，我们提出了一种通过使用大型语言模型（LLM）来学习奖励的方法，该方法通过迭代的自我对齐过程，最小化 LLM 和学习奖励函数之间的排名不一致性，从而在训练效果和效率方面实现了一致的改善，并且相比于基于突变的方法消耗了更少的 GPT 令牌。

May, 2024

从人类偏好中微调语言模型

本文介绍了如何利用奖励学习将强化学习应用于自然语言任务中，旨在建立适用于现实世界任务的奖励模型。我们将奖励学习应用于四个自然语言任务（文本连续生成、摘要），取得了不错的结果，但模型可能会利用人类评估者的简单启发式规则。

Sep, 2019

利用大型语言模型指导强化学习的预训练

提出了一种名为 ELLM（LLM 探索）的方法，它利用来自文本语料库的背景知识来塑造探索，通过利用大规模语言模型预训练，无需人介入便能引导智能体朝向有人类意义的和可能有用的行为方向，通过在 Crafter 游戏环境和 Housekeep 机器人模拟器中的实验，证明了 ELLM 训练的代理在预训练期间具有更好的常识行为覆盖，并且在一系列下游任务中通常与或优于性能。

Feb, 2023

使用语言模型进行奖励设计

本文探讨以自然语言接口为代理奖励函数来简化奖励设计，在强化学习框架下利用大型语言模型对用户目标进行培训，实现智能体与用户目标的对齐，并在 Ultimatum 游戏、矩阵游戏和 DealOrNoDeal 谈判任务中优于通过监督式学习学习的奖励函数训练的 RL 智能体。

Feb, 2023

LARG，基于语言的自动奖励和目标生成

本研究介绍了一个基于自然语言生成奖励和目标函数的机器人操作自动化训练方法，运用 Goal-conditioned 和 MTRL 技术，使用 Large Language Models，针对机器人操作的可扩展性问题进行了实验验证。

Jun, 2023

利用大型语言模型自动化并加快使用奖励机制的强化学习

我们提出了 LARL-RM 算法，利用自动机将高层知识编码到强化学习中，以加速强化学习过程，同时使用大型语言模型通过提示工程来获取高层领域特定知识，避免了需要专家编码自动机的问题，且能够在无需专家指导和监督下进行全闭环强化学习，我们还展示了算法收敛到最优策略的理论保证，并通过两个案例研究实现了 30% 的加速收敛。

Feb, 2024