约束马尔可夫决策过程的原始对偶方法

Jan, 2021

约束马尔可夫决策过程的原始对偶方法

A Primal-Dual Approach to Constrained Markov Decision Processes

Yi Chen, Jing Dong, Zhaoran Wang

TL;DR本文提出了一种基于采样的原始 - 对偶算法来解决带约束的马尔科夫决策过程，通过应用正则化策略迭代来改善策略，应用次梯度上升来保持约束。在弱耦合结构的情况下，通过嵌入式分解方法，能够显著减少问题的维度。将算法应用于多产品库存管理和多类队列调度，并表明它产生优于现有启发式算法的控制。

Abstract

In many operations management problems, we need to make decisions sequentially to minimize the cost while satisfying certain constraints. One modeling approach to study such problems is constrained markov decision process (CMDP). When solving the CMDP to derive good operational policie

constrained markov decision process policy iteration subgradient ascent inventory management queue scheduling

发现论文，激发创造

基于策略的原始对偶法用于凸约束马尔可夫决策过程

研究凸约束马尔可夫决策过程（CMDPs），提出基于策略的原始 - 对偶算法来解决优化问题和约束问题，通过隐藏在问题中的凸性证明了所提出的算法的全局收敛性，并以最优性差距和约束违规性表示，证明了算法的 $O (T^{-1/3})$ 收敛速度。

May, 2022

约束马尔科夫决策过程的更快算法和更精细分析

本论文提出了一种新的原始对偶方法来解决带限制的马尔可夫决策过程问题，通过熵正规化策略优化器、对偶变量正规化器和 Nesterov 加速梯度下降对偶优化器等创新方法，全局收敛至凸优化下的凸约束，显示了目前已有的原始对偶算法无法达到的最优复杂度 O (1/ε)。

Oct, 2021

CMDP 离策略学习的近似最优原始对偶算法

本研究针对离线数据的约束马尔可夫决策过程问题，引入了单策略集中度系数、提出了 DPDL 算法，并建立了样本复杂度下界，保证无约束违规。

Jul, 2022

安全强化学习中的加速原始 - 对偶策略优化

本文提出了一种用于受限 Markov 决策过程 CMDPs 的策略搜索方法 APDO，并在模拟机器人运动任务上实验，结果表明 APDO 比 CMDPs 的现有方法具有更好的采样效率和更快的收敛速度。

Feb, 2018

在受限马尔可夫决策过程中的真正无悔学习

本文提出了一种基于正则化原始对偶方案的模型为基础的算法，用于学习未知的多约束 CMDP，并证明了该算法在没有误差抵消的情况下能够实现亚线性遗憾。

Feb, 2024

面向有约束 MDPs 的无痛政策优化

研究无限时间、折扣的约束马尔可夫决策过程中的政策优化问题，提出了一种泛化的原始 - 对偶框架，用于评估算法表现，实例化了此框架来使用硬币投注算法并证明了其结果的目标约束逼近度，以及并非像其他方法一样需要超参数调整，并通过对合成和 Cartpole 环境的实验证明了其效力和稳健性。

Apr, 2022

双重二元性：用变分原对偶策略优化进行受约束强化学习

在这项研究中，我们通过实施 Lagrangian 和 Fenchel 对偶性，将原始约束问题重构为无约束原始 - 对偶优化问题，以设计算法解决约束凸性马尔可夫决策过程中的凸性泛函最小化问题，其中访问度量是凸约束。同时，通过将访问度量嵌入到有限维空间中，我们可以通过结合函数逼近来处理较大的状态空间。

Feb, 2024

一种具有均匀 PAC 保证的限制 MDP 的策略梯度原始对偶算法

我们介绍了一种具有均匀概率近似正确性保证的新型策略梯度原始 - 对偶算法，同时保证了收敛至最优策略、次线性遗憾和多项式样本复杂度的理论保证，并在一个简单的 CMDP 示例中进行实证展示，证明了算法收敛至最优策略，而现有算法则表现出振荡性能和约束违规。

Jan, 2024

通过线性规划对偶解决大规模马尔可夫决策问题

本文提出了一种针对状态空间较大的 MDP 问题进行优化的方法，该方法基于一小组策略的占用度量的低维度逼近，并提出了一个有效的算法，可用于在该类策略中找到低过度损失相对于最佳策略的策略。作者限定了平均成本和折扣成本情况下的过量损失，并在队列应用中展示了该方法的有效性。

Jan, 2019

大规模马尔可夫决策问题的线性规划

本文考虑了控制具有大状态空间的马尔可夫决策过程以最小化平均成本的问题，并使用线性规划和两种方法，即基于随机凸优化和基于约束采样的方法，将性能提高到与在低维策略类中的任何策略相比的最佳水平。

Feb, 2014