语言奖励塑形的脆弱性提醒：可能会阻碍指导式智能体的学习

May, 2023

语言奖励塑形的脆弱性提醒：可能会阻碍指导式智能体的学习

A Reminder of its Brittleness: Language Reward Shaping May Hinder Learning for Instruction Following Agents

Sukai Huang, Nir Lipovetzky, Trevor Cohn

TL;DR本文讨论了语言奖励塑形（LRS）在强化学习（RL）中的应用，通过松弛任务约束的奖励扰动技术，降低了奖励有偏性的问题；同时提供了理论和经验证据，表明使用 LRS 奖励训练的代理相比纯 RL 代理收敛更慢。

Abstract

Teaching agents to follow complex written instructions has been an important yet elusive goal. One technique for improving learning efficiency is language reward shaping (LRS), which is used in reinforcement learning

language reward shaping reinforcement learning learning efficiency sparse reward trajectory

发现论文，激发创造

强化学习中使用自然语言进行奖励塑形

使用自然语言指令进行奖励塑形，在复杂的 Atari 游戏中，比标准强化学习算法成功完成任务的次数平均提高了 60%，并且可以无缝集成到任何标准强化学习算法中。

Mar, 2019

通过建模奖励来学习理解目标规格

提出了一种基于奖励模型的框架，它使得机器学习代理能学习到语言指令，并通过这些指令执行任务，而不需要通过修改环境奖励函数来实现。这种方法将任务的语义表示和执行分离，在简单的网格世界中，使代理能够学习一系列涉及块的交互和对空间关系的理解的指令，且无需新的专家数据就可以适应环境的变化。

Jun, 2018

一种基于叙事的奖励塑造方法，使用基于语境的自然语言指令

通过自然语言引导，我们对深度强化学习技术进行了改进，实现了对 StarCraft II 等任务的有效训练，并与传统的奖励塑形方法相比，取得了更好的性能表现。

Oct, 2019

基于大型语言模型的高效强化学习搜索

通过将大型语言模型与 MEDIC 框架结合，我们的研究旨在改善强化学习的样本效率，特别针对稀疏奖励领域和随机转换等问题，以提高 PPO 和 A2C 强化学习算法的样本复杂度，并为进一步探索如何利用这些模型增强现有强化学习流程铺平道路。

May, 2024

ELLA: 通过学习语言抽象进行探索

ELLA 是一种基于奖励塑形的方法，在语言指令与简单低级组成件之间建立相关性，以提高稀疏奖励环境下机器人智能体的样本效率。

Mar, 2021

学习如何利用成形奖励：一种新的奖励成形方法

本文提出了一种自适应利用给定塑形奖励函数的算法，通过将塑形奖励作为一个双层优化问题来解决，从而实现了真实奖励的最大化，并基于这个问题，提出了三种基于不同假设的学习算法。实验结果表明，我们的算法可以充分利用有益的塑形奖励，同时忽略无益的塑形奖励或者甚至将它们转化为有益的。

Nov, 2020

解析奖励塑造：理解奖励工程对样本复杂性的益处

本文阐述了在强化学习中选择适当的奖励设计方法对提高学习效率的重要性，并提出了一种将奖励设计融入强化学习框架的方案，并通过基于奖励设计所得到的样本效率的提高，证明了该方案在实践中的有效性。

Oct, 2022

基于位势的奖励用于学习人形机械的运动能力评测

设计和调整奖励函数是发展有效强化学习（RL）流程的主要挑战之一。在这项研究中，我们使用潜在基础奖励塑造（PBRS）来加速学习收敛，在高维系统中，PBRS 对于收敛速度的提升有限，但是 PBRS 奖励项相对缩放更加稳健，更容易调整。

Jul, 2023

EAGER: 语言指导强化学习中自动奖励塑造的问答

本文中，我们使用问题生成和问题回答系统来提取辅助目标，从而实现针对自身解决问题的能力，从而提高了自动奖励塑造方法的采样效率。

Jun, 2022

深度强化学习中的形状建议

本文提出由观察和行动函数构成的势函数的差作为附加奖励的 shaping advice 来增加环境奖励的稀疏性问题的增强学习方法，分别在单智能体和多智能体强化学习中应用。通过理论分析和实验评估指出，使用 shaping advice 能够使规则更快地学习任务并获得更高的奖励。

Feb, 2022