提出一种新颖的 C-NPG-PD 算法以达到全局最优并减少训练样例复杂度,解决了连续状态 - 动作空间下的限制马尔可夫决策过程问题。
Jun, 2022
本论文提出了一种新的原始对偶方法来解决带限制的马尔可夫决策过程问题,通过熵正规化策略优化器、对偶变量正规化器和 Nesterov 加速梯度下降对偶优化器等创新方法,全局收敛至凸优化下的凸约束,显示了目前已有的原始对偶算法无法达到的最优复杂度 O (1/ε)。
Oct, 2021
在受限制的马尔可夫决策问题(CMDP)中,我们开发了原始 - 对偶加速自然策略梯度(PD-ANPG)算法,它保证了 ε 全局最优性差距和 ε 约束违反,样本复杂度为 O (ε^-3),从而在 CMDP 的样本复杂度上取得了 O (ε^-1) 的进展。
May, 2024
研究无限时间、折扣的约束马尔可夫决策过程中的政策优化问题,提出了一种泛化的原始 - 对偶框架,用于评估算法表现,实例化了此框架来使用硬币投注算法并证明了其结果的目标约束逼近度,以及并非像其他方法一样需要超参数调整,并通过对合成和 Cartpole 环境的实验证明了其效力和稳健性。
Apr, 2022
本文研究了无限时段平均回报约束马尔可夫决策过程(CMDP)。在我们的知识范围内,该工作是第一个深入探讨了具有一般策略参数化的平均回报 CMDP 的遗憾和约束违反分析。为了解决这个挑战,我们提出了一种基于原始对偶的策略梯度算法,能够在确保低遗憾全局最优策略的同时,灵活处理约束。特别地,我们证明了我们提出的算法实现了 $\tilde {\mathcal {O}}({T}^{3/4})$ 的目标遗憾和 $\tilde {\mathcal {O}}({T}^{3/4})$ 的约束违反界限。
Feb, 2024
本研究针对离线数据的约束马尔可夫决策过程问题,引入了单策略集中度系数、提出了 DPDL 算法,并建立了样本复杂度下界,保证无约束违规。
Jul, 2022
该研究提出了一种保守随机原始 - 对偶算法 (CSPDA),用于解决基于约束马尔可夫决策过程 (CMDP) 的强化学习问题,该算法能够在零约束违规的情况下实现 ε- 最优累积奖励,并提供比现有算法更有效率的复杂度。
Sep, 2021
这篇研究论文提出了一个新的基于受约束的马尔可夫决策过程(CMDP)框架的强化学习算法,通过离线数据评估和策略梯度更新来在线学习,实现了 CMDP 在线性设置中的多项式样本复杂度。
Jun, 2024
本文提出了一种基于正则化原始对偶方案的模型为基础的算法,用于学习未知的多约束 CMDP,并证明了该算法在没有误差抵消的情况下能够实现亚线性遗憾。
我们介绍了一种具有均匀概率近似正确性保证的新型策略梯度原始 - 对偶算法,同时保证了收敛至最优策略、次线性遗憾和多项式样本复杂度的理论保证,并在一个简单的 CMDP 示例中进行实证展示,证明了算法收敛至最优策略,而现有算法则表现出振荡性能和约束违规。
Jan, 2024