深度强化学习中的形状建议
探讨了基于potential-based shaping algorithm的初始化步骤与reinforcement learning算法学习过程中的相似性,证明二者在一个广泛类别的策略下是无法区分的,并提出了一个更简单方法以捕捉该算法的好处以及有关使用potential-based shaping算法进行学习的效率的问题。
Jun, 2011
本文提出了一种自适应利用给定塑形奖励函数的算法,通过将塑形奖励作为一个双层优化问题来解决,从而实现了真实奖励的最大化,并基于这个问题,提出了三种基于不同假设的学习算法。实验结果表明,我们的算法可以充分利用有益的塑形奖励,同时忽略无益的塑形奖励或者甚至将它们转化为有益的。
Nov, 2020
本文阐述了在强化学习中选择适当的奖励设计方法对提高学习效率的重要性,并提出了一种将奖励设计融入强化学习框架的方案,并通过基于奖励设计所得到的样本效率的提高,证明了该方案在实践中的有效性。
Oct, 2022
该论文提出一种名为Shaping-Bandits的多臂赌博问题来解决如何将外部建议纳入强化学习智能体的学习之中,并提出了三种不同的塑形算法,旨在考虑遵循专家策略或默认RL算法的长期后果。通过实验验证这些算法在四个不同的设置中实现了所述目标。
Apr, 2023
本篇论文探讨了深度加强学习算法在面对状态空间无法预测,强烈依赖于重置时的困境。通过引入Lyapunov启发式奖励塑造方法,策略学习可以更快、更稳定地收敛到最优解
Jun, 2023
此研究论文介绍了一种名为 $f$-PG 的新型鼓励探索方法,通过最小化智能体状态访问分布与目标之间的 f-分歧来实现稀疏奖励环境下的优化策略,同时引入了熵正则化策略优化目标 $s$-MaxEnt RL 用于优化度量为 L2 的奖励,在多个环境中展示了与标准策略梯度方法相比更好的性能。
Oct, 2023
逆向强化学习是具有计算挑战性的,常见方法需要解决多个强化学习子问题。本研究激励使用基于潜力的奖励塑造来减轻每个强化学习子问题的计算负担,并希望能激发未来对计算效率高的逆向强化学习的发展。
Dec, 2023
本研究解决了在强化学习中奖励塑形存在的偏差问题,提出了Q塑形的创新方法,通过直接塑形Q值来融入领域知识,以提高样本效率。研究表明,Q塑形在20个不同环境中显著提升了样本效率,较最佳基线提高了16.87%,且相比于基于大型语言模型的奖励塑形方法提升了253.80%,确立了其作为一种优秀且无偏的替代方案。
Oct, 2024