深度强化学习中的形状建议

Feb, 2022

Shaping Advice in Deep Reinforcement Learning

Baicen Xiao, Bhaskar Ramasubramanian, Radha Poovendran

TL;DR本文提出由观察和行动函数构成的势函数的差作为附加奖励的shaping advice来增加环境奖励的稀疏性问题的增强学习方法，分别在单智能体和多智能体强化学习中应用。通过理论分析和实验评估指出，使用shaping advice能够使规则更快地学习任务并获得更高的奖励。

Abstract

reinforcement learning involves agents interacting with an environment to complete tasks. When rewards provided by the environment are sparse, agents may not receive immediate feedback on the quality of actions that they take, thereby affecting learning of policies. In this paper, we p

发现论文，激发创造

基于潜在函数的塑形和 Q-值初始化是等价的

探讨了基于potential-based shaping algorithm的初始化步骤与reinforcement learning算法学习过程中的相似性，证明二者在一个广泛类别的策略下是无法区分的，并提出了一个更简单方法以捕捉该算法的好处以及有关使用potential-based shaping算法进行学习的效率的问题。

Jun, 2011

生态学强化学习

本文讨论了针对非情节式、奖励稀疏的强化学习任务中的环境特性，如何应用“环境塑形”和“环境动态性”等方法来提升学习效果，并通过实验验证了这些方法的有效性。

Jun, 2020

学习如何利用成形奖励：一种新的奖励成形方法

本文提出了一种自适应利用给定塑形奖励函数的算法，通过将塑形奖励作为一个双层优化问题来解决，从而实现了真实奖励的最大化，并基于这个问题，提出了三种基于不同假设的学习算法。实验结果表明，我们的算法可以充分利用有益的塑形奖励，同时忽略无益的塑形奖励或者甚至将它们转化为有益的。

Nov, 2020

解析奖励塑造：理解奖励工程对样本复杂性的益处

本文阐述了在强化学习中选择适当的奖励设计方法对提高学习效率的重要性，并提出了一种将奖励设计融入强化学习框架的方案，并通过基于奖励设计所得到的样本效率的提高，证明了该方案在实践中的有效性。

Oct, 2022

熵正则化强化学习中利用之前的奖励塑形和组合方案

本文提出了一种针对熵正则化强化学习中的奖励塑形和任务组合的方法，可以利用先前的解决方案帮助智能体快速解决新问题并加快学习速度。

Dec, 2022

基于贝叶斯赌博机的策略不变显式塑形方法，用于融合外部建议的强化学习

该论文提出一种名为Shaping-Bandits的多臂赌博问题来解决如何将外部建议纳入强化学习智能体的学习之中，并提出了三种不同的塑形算法，旨在考虑遵循专家策略或默认RL算法的长期后果。通过实验验证这些算法在四个不同的设置中实现了所述目标。

Apr, 2023

解决持续任务强化学习中无界状态空间问题

本篇论文探讨了深度加强学习算法在面对状态空间无法预测，强烈依赖于重置时的困境。通过引入Lyapunov启发式奖励塑造方法，策略学习可以更快、更稳定地收敛到最优解

Jun, 2023

f-策略梯度: 一种使用f-散度的目标条件化强化学习的通用框架

此研究论文介绍了一种名为 $f$-PG 的新型鼓励探索方法，通过最小化智能体状态访问分布与目标之间的 f-分歧来实现稀疏奖励环境下的优化策略，同时引入了熵正则化策略优化目标 $s$-MaxEnt RL 用于优化度量为 L2 的奖励，在多个环境中展示了与标准策略梯度方法相比更好的性能。

Oct, 2023

朝着计算高效的逆强化学习方向进发：通过奖励塑形

逆向强化学习是具有计算挑战性的，常见方法需要解决多个强化学习子问题。本研究激励使用基于潜力的奖励塑造来减轻每个强化学习子问题的计算负担，并希望能激发未来对计算效率高的逆向强化学习的发展。

Dec, 2023

从奖励塑形到Q塑形：通过大型语言模型引导知识实现无偏学习

本研究解决了在强化学习中奖励塑形存在的偏差问题，提出了Q塑形的创新方法，通过直接塑形Q值来融入领域知识，以提高样本效率。研究表明，Q塑形在20个不同环境中显著提升了样本效率，较最佳基线提高了16.87%，且相比于基于大型语言模型的奖励塑形方法提升了253.80%，确立了其作为一种优秀且无偏的替代方案。

Oct, 2024