干扰奖励强化学习中的分布式奖励评论框架

Jan, 2024

干扰奖励强化学习中的分布式奖励评论框架

The Distributional Reward Critic Architecture for Perturbed-Reward Reinforcement Learning

Xi Chen, Zhihui Zhu, Andrew Perrault

TL;DR我们研究了在未知奖励扰动情况下的强化学习，引入了一种自适应分布式奖励评论家模型，理论上证明它能在技术条件下恢复真实奖励，在离散和连续控制任务中取得了最高回报，甚至在未定向的扰动条件下也能超过基准线的设计。

Abstract

We study reinforcement learning in the presence of an unknown reward perturbation. Existing methodologies for this problem make strong assumptions including reward smoothness, known →

发现论文，激发创造

基于梯度的强化学习的最优奖励基准线

研究了基于策略梯度的强化学习算法中关于梯度估计差异的问题，并提出将一个奖励基线纳入到学习系统中来降低差异，进而提高算法性能的方法。

Jan, 2013

近端强化学习：原始对偶空间中序贯决策的新理论

本文提出了一种新的加强学习算法，使用似然变换、原始-对偶空间以及近端算子等技术，解决了关于如何设计可靠、收敛、稳健的加强学习算法、如何保证算法具有预设的安全保证、如何稳定地设计离线-在线学习算法、如何将加强学习与随机优化理论相结合等问题，为相关理论做出了丰富的探索和创新。

May, 2014

扰动奖励的强化学习

本研究旨在提出一种在充满噪音的环境中学习的鲁棒性强的强化学习框架以及利用替代奖励来训练优化策略，实验表明我们的方法在提高期望奖励、加速收敛等方面的效果优于现有基线算法。

Oct, 2018

正例-未标注奖励学习

本文针对学习奖励模型所面临的挑战，探讨了正例-无标记学习算法（positive-unlabeled learning）在奖励学习问题中的应用，并验证该方法可以同时解决奖励低估和高估问题，从而显著提高 both GAIL and supervised 奖励学习的效果。

Nov, 2019

风险规避强化学习的均值方差策略迭代

本研究提出了一种基于平均方差策略迭代 (MVPI) 框架的风险规避控制方法，采用任意策略评估方法和风险中立控制方法，通过对一个新颖的扩展 MDP 直接进行处理，减少风险中立控制与风险规避控制之间的差距，并介绍了一种风险规避 TD3 方法作为 MVPI 的示例。该方法在 Mujoco 机器人仿真任务中优于传统 TD3 方法和其他风险规避控制方法。

Apr, 2020

解析奖励塑造：理解奖励工程对样本复杂性的益处

本文阐述了在强化学习中选择适当的奖励设计方法对提高学习效率的重要性，并提出了一种将奖励设计融入强化学习框架的方案，并通过基于奖励设计所得到的样本效率的提高，证明了该方案在实践中的有效性。

Oct, 2022

基于能量模型的奖励条件下贝叶斯重新参数化增强学习

提出了一种名为Bayesian Reparameterized RCRL（BR-RCRL）的奖励条件强化学习新方法，它通过消除强化学习在高奖励输入下的独立性偏见和处理预测行为射线分布的问题，取得了比传统方法高出11%的性能在Gym-Mujoco和Atari离线RL基准中.

May, 2023

通过奖励函数优化进行行为对齐

通过使用双层目标的新框架，将辅助奖励与环境的主要奖励相结合，我们提供了一种集成设计者指定的启发式方法的鲁棒且有原则的方式，以解决现有方法的主要缺点，即使给出不对齐或指定不良的辅助奖励函数，也能始终导致高性能解决方案。

Oct, 2023

关于马尔可夫奖励在表达多目标、风险敏感和模态任务方面的限制

本文研究了强化学习中标量马尔可夫奖励函数的表达能力，并确定了其所能表达的局限性。具体而言，我们关注三类强化学习任务；多目标强化学习、风险敏感强化学习和模态强化学习。针对每个类别，我们推导出描述该类别问题可使用标量马尔可夫奖励函数的必要和充分条件。此外，我们发现标量马尔可夫奖励函数无法表达每个类别中大多数实例。因此，我们为了更全面地了解标准奖励函数能够和不能够表达的内容做出了贡献。除此之外，我们还特别提到模态问题作为一个新的问题类别，因为目前强化学习文献中还没有对其进行系统性研究。我们还简要概述了通过专门的强化学习算法解决我们讨论的某些问题的方法。

Jan, 2024

优化学习奖励函数的危险性：低训练误差并不能保证低后悔

通过数学证明，该论文指出学习到的奖励模型的预期测试误差越低，最差情况的后悔也越小，然而对于任意固定预期测试误差而言，存在着导致误差和后悔不匹配的现实数据分布，该问题即使在使用常见的强化学习方法中同样存在。因此，该论文的理论结果强调了开发衡量学习到奖励模型质量的新方法的重要性。

Jun, 2024