干扰奖励强化学习中的分布式奖励评论框架
本文提出了一种新的加强学习算法,使用似然变换、原始-对偶空间以及近端算子等技术,解决了关于如何设计可靠、收敛、稳健的加强学习算法、如何保证算法具有预设的安全保证、如何稳定地设计离线-在线学习算法、如何将加强学习与随机优化理论相结合等问题,为相关理论做出了丰富的探索和创新。
May, 2014
本研究旨在提出一种在充满噪音的环境中学习的鲁棒性强的强化学习框架以及利用替代奖励来训练优化策略,实验表明我们的方法在提高期望奖励、加速收敛等方面的效果优于现有基线算法。
Oct, 2018
本文针对学习奖励模型所面临的挑战,探讨了正例-无标记学习算法(positive-unlabeled learning)在奖励学习问题中的应用,并验证该方法可以同时解决奖励低估和高估问题,从而显著提高 both GAIL and supervised 奖励学习的效果。
Nov, 2019
本研究提出了一种基于平均方差策略迭代 (MVPI) 框架的风险规避控制方法,采用任意策略评估方法和风险中立控制方法,通过对一个新颖的扩展 MDP 直接进行处理,减少风险中立控制与风险规避控制之间的差距,并介绍了一种风险规避 TD3 方法作为 MVPI 的示例。该方法在 Mujoco 机器人仿真任务中优于传统 TD3 方法和其他风险规避控制方法。
Apr, 2020
本文阐述了在强化学习中选择适当的奖励设计方法对提高学习效率的重要性,并提出了一种将奖励设计融入强化学习框架的方案,并通过基于奖励设计所得到的样本效率的提高,证明了该方案在实践中的有效性。
Oct, 2022
提出了一种名为Bayesian Reparameterized RCRL(BR-RCRL)的奖励条件强化学习新方法,它通过消除强化学习在高奖励输入下的独立性偏见和处理预测行为射线分布的问题,取得了比传统方法高出11%的性能在Gym-Mujoco和Atari离线RL基准中.
May, 2023
通过使用双层目标的新框架,将辅助奖励与环境的主要奖励相结合,我们提供了一种集成设计者指定的启发式方法的鲁棒且有原则的方式,以解决现有方法的主要缺点,即使给出不对齐或指定不良的辅助奖励函数,也能始终导致高性能解决方案。
Oct, 2023
本文研究了强化学习中标量马尔可夫奖励函数的表达能力,并确定了其所能表达的局限性。具体而言,我们关注三类强化学习任务;多目标强化学习、风险敏感强化学习和模态强化学习。针对每个类别,我们推导出描述该类别问题可使用标量马尔可夫奖励函数的必要和充分条件。此外,我们发现标量马尔可夫奖励函数无法表达每个类别中大多数实例。因此,我们为了更全面地了解标准奖励函数能够和不能够表达的内容做出了贡献。除此之外,我们还特别提到模态问题作为一个新的问题类别,因为目前强化学习文献中还没有对其进行系统性研究。我们还简要概述了通过专门的强化学习算法解决我们讨论的某些问题的方法。
Jan, 2024
通过数学证明,该论文指出学习到的奖励模型的预期测试误差越低,最差情况的后悔也越小,然而对于任意固定预期测试误差而言,存在着导致误差和后悔不匹配的现实数据分布,该问题即使在使用常见的强化学习方法中同样存在。因此,该论文的理论结果强调了开发衡量学习到奖励模型质量的新方法的重要性。
Jun, 2024