基于策略的原始对偶法用于凸约束马尔可夫决策过程
本论文提出了一种新的原始对偶方法来解决带限制的马尔可夫决策过程问题,通过熵正规化策略优化器、对偶变量正规化器和 Nesterov 加速梯度下降对偶优化器等创新方法,全局收敛至凸优化下的凸约束,显示了目前已有的原始对偶算法无法达到的最优复杂度 O (1/ε)。
Oct, 2021
本文提出了一种基于采样的原始 - 对偶算法来解决带约束的马尔科夫决策过程,通过应用正则化策略迭代来改善策略,应用次梯度上升来保持约束。在弱耦合结构的情况下,通过嵌入式分解方法,能够显著减少问题的维度。将算法应用于多产品库存管理和多类队列调度,并表明它产生优于现有启发式算法的控制。
Jan, 2021
在这项研究中,我们通过实施 Lagrangian 和 Fenchel 对偶性,将原始约束问题重构为无约束原始 - 对偶优化问题,以设计算法解决约束凸性马尔可夫决策过程中的凸性泛函最小化问题,其中访问度量是凸约束。同时,通过将访问度量嵌入到有限维空间中,我们可以通过结合函数逼近来处理较大的状态空间。
Feb, 2024
研究无限时间、折扣的约束马尔可夫决策过程中的政策优化问题,提出了一种泛化的原始 - 对偶框架,用于评估算法表现,实例化了此框架来使用硬币投注算法并证明了其结果的目标约束逼近度,以及并非像其他方法一样需要超参数调整,并通过对合成和 Cartpole 环境的实验证明了其效力和稳健性。
Apr, 2022
研究如何在满足预期总效用的约束条件下最大化预期总回报,提出了一种新的自然策略梯度原始 - 对偶方法来解决 Constrained Markov 决策过程(constrained MDPs)的折扣无限时域下的最优控制问题,在自然策略梯度上升和投影次梯度下降的影响下更新原始变量和对偶变量。
Jun, 2022
我们介绍了一种具有均匀概率近似正确性保证的新型策略梯度原始 - 对偶算法,同时保证了收敛至最优策略、次线性遗憾和多项式样本复杂度的理论保证,并在一个简单的 CMDP 示例中进行实证展示,证明了算法收敛至最优策略,而现有算法则表现出振荡性能和约束违规。
Jan, 2024
本文提出了一种用于受限 Markov 决策过程 CMDPs 的策略搜索方法 APDO,并在模拟机器人运动任务上实验,结果表明 APDO 比 CMDPs 的现有方法具有更好的采样效率和更快的收敛速度。
Feb, 2018
本文介绍了利用 Lagrangian 方法将约束马尔可夫决策过程转化为有约束鞍点问题的优化方法,提出了两种单时间尺度的基于原始对偶算法的策略算法,可以使策略迭代收敛到一个最优受限策略。其中一个采用了一种正则化策略梯度算法,另一个采用了一种乐观的策略梯度算法。这是约束 MDPs 单时间尺度算法中第一个非渐进策略最终迭代收敛结果。
Jun, 2023
提出一种新颖的 C-NPG-PD 算法以达到全局最优并减少训练样例复杂度,解决了连续状态 - 动作空间下的限制马尔可夫决策过程问题。
Jun, 2022