受约束强化学习具有零对偶间隙

Oct, 2019

Constrained Reinforcement Learning Has Zero Duality Gap

Santiago Paternain, Luiz F.O. Chamon, Miguel Calvo-Fullana, Alejandro Ribeiro

TL;DR本文针对自主制约智能方面存在的困境进行研究，主要研究如何应用 Primal-Dual 方法使其具有收敛性。通过探究多目标收益函数，多目标学习和多目标值函数相结合等方法的局限性，提出 Primal-Dual 算法。与其他算法不同，本方法可以在把冲突目标转化为受限制 RL 问题后得到实际的最优解，具有收敛性，并且可以扩展到一些神经网络模型上。

Abstract

autonomous agents must often deal with conflicting requirements, such as completing tasks using the least amount of time/energy, learning multiple tasks, or dealing with multiple opponents. In the context of rein

autonomous agents reinforcement learning conflicting requirements primal-dual methods convergence

发现论文，激发创造

强化学习的双重视角对政策约束的施加

通过使用一种通用的原始对偶框架，将经典优化和控制理论与基于值和演员 - 评论家强化学习方法结合，本研究旨在统一和整合现有技术，并为学习的策略施加附加约束。构建出的 $ exttt {DualCRL}$ 算法支持各种策略约束的组合，在训练过程中使用可训练的奖励修改实现自动处理，实验证明了该方法的有效性，并为系统设计者提供了多种策略约束的工具箱。

Apr, 2024

通过原始对偶方法实现有约束强化学习的零约束违规

该研究提出了一种保守随机原始 - 对偶算法 (CSPDA)，用于解决基于约束马尔可夫决策过程 (CMDP) 的强化学习问题，该算法能够在零约束违规的情况下实现 ε- 最优累积奖励，并提供比现有算法更有效率的复杂度。

Sep, 2021

状态增强约束强化学习：克服通过奖励学习的限制

通过在状态中增加 Lagrange 乘子并将原始 - 对偶方法重新解释为推动乘子演变的动态部分，本文提出了一种系统的状态增强过程，可确保解决具有约束的增强学习问题。

Feb, 2021

任意经验的模仿：强化学习和模仿学习方法的双重统一

该研究论文旨在通过对强化学习，凸优化和无偏学习方法进行研究，提出了一种新方法，即对偶 RL 方法，可以用于从离线偏置数据中进行无偏学习。

Feb, 2023

用于有约束多任务强化学习的自然策略梯度和演员评论家方法

多任务强化学习研究了多个任务同时有效解决的单一策略的约束形式，在中心化和去中心化设置下分别考虑了服务器和代理之间的全局约束问题，并提出了基于原始 - 对偶算法和基于采样的演员 - 评论家算法来解决这一问题，并研究了线性函数逼近的泛化扩展。

May, 2024

基于约束的强化学习的简单无回报方法

本文探讨奖励自由强化学习和受限制的强化学习之间的联系，在标记 MDP 设置中，我们提出了一种简单的元算法，利用现有的奖励自由 RL 解算器，对受限制的强化学习问题进行直接求解，在现有结果的基础上匹配最佳结果，同时在线性函数近似下，我们直接将其扩展到标记二人马尔可夫博弈的设置中，并提供了一个新的受限制的 RL 结果。

Jul, 2021

安全平衡：一种用于约束多目标强化学习的框架

在涉及安全关键系统的众多强化学习问题中，平衡多个目标并同时满足严格的安全约束是一个关键挑战。为解决这个问题，我们提出了一个基于原始的框架，通过多目标学习和约束遵从性之间的策略优化来协调。我们的方法采用了一种新颖的自然策略梯度操作方法，用于优化多个强化学习目标，并克服不同任务之间冲突梯度，因为简单的加权平均梯度方向可能不利于特定任务的性能，原因在于不同任务目标的梯度不对齐。当出现硬约束违规时，我们的算法介入纠正策略以最小化违规。我们在表格设置中建立了理论收敛和约束违规保证。在具有挑战性的安全多目标强化学习任务上，我们提出的方法在实证上也优于先前最先进的方法。

May, 2024

约束学习问题的近似最优解

通过对双向上升算法进行特性化，我们在非凸条件下解决了理论与实践之间的差距，揭示了双向学习的先前经验成功，并在公平学习任务中验证了我们的结果。

Mar, 2024

基于强对偶性的分布鲁棒约束强化学习

本研究通过基于强对偶性的算法框架，在环境不确定性的一个类别中提出了第一个高效且可证明的解决方法，来解决分布鲁棒受限强化学习（DRC-RL）问题，该问题旨在最大化预期奖励，同时受制于环境分布变化和约束条件。

Jun, 2024

线性 MDP 的离线原始 - 对偶强化学习

本文提出了一种基于线性规划的原对偶优化方法，该方法针对有限时间或使用表格的强 RL 范式有较强的理论保证，采用函数近似和最小数据集假设解决了无限时间范式的算法问题，并在更具挑战性的平均回报设置下进行了分析。

May, 2023