使用语言模型进行奖励设计

ICLRFeb, 2023

Reward Design with Language Models

Minae Kwon, Sang Michael Xie, Kalesha Bullard, Dorsa Sadigh

TL;DR本文探讨以自然语言接口为代理奖励函数来简化奖励设计，在强化学习框架下利用大型语言模型对用户目标进行培训，实现智能体与用户目标的对齐，并在 Ultimatum 游戏、矩阵游戏和 DealOrNoDeal 谈判任务中优于通过监督式学习学习的奖励函数训练的 RL 智能体。

Abstract

reward design in reinforcement learning (RL) is challenging since specifying human notions of desired behavior may be difficult via reward functions or require many expert demonstrations. Can we instead cheaply d

reward design reinforcement learning natural language interface proxy reward function training

发现论文，激发创造

强化学习中使用自然语言进行奖励塑形

使用自然语言指令进行奖励塑形，在复杂的 Atari 游戏中，比标准强化学习算法成功完成任务的次数平均提高了 60%，并且可以无缝集成到任何标准强化学习算法中。

Mar, 2019

从人类偏好中微调语言模型

本文介绍了如何利用奖励学习将强化学习应用于自然语言任务中，旨在建立适用于现实世界任务的奖励模型。我们将奖励学习应用于四个自然语言任务（文本连续生成、摘要），取得了不错的结果，但模型可能会利用人类评估者的简单启发式规则。

Sep, 2019

通过建模奖励来学习理解目标规格

提出了一种基于奖励模型的框架，它使得机器学习代理能学习到语言指令，并通过这些指令执行任务，而不需要通过修改环境奖励函数来实现。这种方法将任务的语义表示和执行分离，在简单的网格世界中，使代理能够学习一系列涉及块的交互和对空间关系的理解的指令，且无需新的专家数据就可以适应环境的变化。

Jun, 2018

自我完善的大型语言模型作为机器人深度强化学习的自动奖励函数设计者

我们提出了一个带有自我完善机制的新型大语言模型框架，用于自动化奖励函数设计。通过在多个连续机器人控制任务上的实验，结果表明我们的大语言模型设计的奖励函数能够与手动设计的奖励函数相媲美甚至超越，突显了我们方法的效果和适用性。

Sep, 2023

自动驾驶场景下的上下文学习

利用大型语言模型优化强化学习的奖励功能，使自动驾驶代理在行为上更加灵活、精准和类人化，探究奖励设计在塑造自动驾驶车辆行为中的重要影响，为更先进、类人化的自动驾驶系统的发展提供了有希望的方向。

May, 2024

自然语言强化学习

强化学习和自然语言表示相结合的自然语言强化学习 (NLRL) 框架在解决样本效率低、解释性差、稀疏监督信号等问题方面表现出了显著的能力。通过在自然语言空间重新定义强化学习的概念和原则，以及结合大型语言模型的先进技术如 GPT-4 的实现方式，NLRL 在标签驱动的 MDPs 上的初步实验证明了该框架的有效性、效率以及可解释性。

Feb, 2024

通过自对准使用大型语言模型学习机器人技能的奖励

在没有人类干预的情况下，我们提出了一种通过使用大型语言模型（LLM）来学习奖励的方法，该方法通过迭代的自我对齐过程，最小化 LLM 和学习奖励函数之间的排名不一致性，从而在训练效果和效率方面实现了一致的改善，并且相比于基于突变的方法消耗了更少的 GPT 令牌。

May, 2024

机器技能综合的语言到奖励转换

本文提出了一种新颖的方法，即通过利用大型语言模型 (LLMs) 定义奖励参数，从而优化和实现各种机器人任务，并结合实时优化器 MuJoCo MPC，使用户可以交互地创造行为并快速获得结果反馈。作者在一个模拟仿真机器人四足动物和一种机械手进行了 17 个任务的评价，证明了这种方法成功解决了 90% 的任务，并在真实机器人手臂上验证了方法的有效性，包括非握持推动等复杂操作技能。

Jun, 2023

朝着具有社会和道德意识的强化学习智能体：利用 LLM 进行奖励设计

通过利用大规模语言模型（LLM）对道德和社会规范的理解，本研究评估了语言模型作为直接奖励信号的能力，并通过与人类反馈对比来展示语言模型的结果。

Jan, 2024

利用大型语言模型指导强化学习的预训练

提出了一种名为 ELLM（LLM 探索）的方法，它利用来自文本语料库的背景知识来塑造探索，通过利用大规模语言模型预训练，无需人介入便能引导智能体朝向有人类意义的和可能有用的行为方向，通过在 Crafter 游戏环境和 Housekeep 机器人模拟器中的实验，证明了 ELLM 训练的代理在预训练期间具有更好的常识行为覆盖，并且在一系列下游任务中通常与或优于性能。

Feb, 2023