本文研究了具有不稳定目标和约束的约束马尔可夫决策过程的原始-对偶强化学习,并提出了具有安全性和适应性的时间变化中安全的RL算法,同时建立了动态遗憾界和约束违规界。
Jan, 2022
提出一种新颖的C-NPG-PD算法以达到全局最优并减少训练样例复杂度,解决了连续状态-动作空间下的限制马尔可夫决策过程问题。
Jun, 2022
本研究针对离线数据的约束马尔可夫决策过程问题,引入了单策略集中度系数、提出了DPDL算法,并建立了样本复杂度下界,保证无约束违规。
Jul, 2022
本文提出了一种基于Lagrangian方法的新型模型双重算法OptAug-CMDP,针对标签化的有限路径CMDP,证明了该算法在探索CMDP的K个周期内同时获得了目标和约束违规的期望性能敏感性,且无需进行错误取消。
Jun, 2023
在无限时间、约束的马尔科夫决策过程中,通过零阶内点方法实现约束满足,以最大化预期累积奖励,确保策略在学习过程中的可行性,并具有样本复杂度O(ε^(-6))
Dec, 2023
我们介绍了一种具有均匀概率近似正确性保证的新型策略梯度原始-对偶算法,同时保证了收敛至最优策略、次线性遗憾和多项式样本复杂度的理论保证,并在一个简单的CMDP示例中进行实证展示,证明了算法收敛至最优策略,而现有算法则表现出振荡性能和约束违规。
Jan, 2024
本文研究了无限时段平均回报约束马尔可夫决策过程(CMDP)。在我们的知识范围内,该工作是第一个深入探讨了具有一般策略参数化的平均回报CMDP的遗憾和约束违反分析。为了解决这个挑战,我们提出了一种基于原始对偶的策略梯度算法,能够在确保低遗憾全局最优策略的同时,灵活处理约束。特别地,我们证明了我们提出的算法实现了$\tilde{\mathcal{O}}({T}^{3/4})$的目标遗憾和$\tilde{\mathcal{O}}({T}^{3/4})$的约束违反界限。
Feb, 2024
本文提出了一种基于正则化原始对偶方案的模型为基础的算法,用于学习未知的多约束CMDP,并证明了该算法在没有误差抵消的情况下能够实现亚线性遗憾。
我们研究了强化学习问题中的约束马尔可夫决策过程(CMDP),并通过优化算法对CMDP问题的样本复杂度提出了改进,实现了优化的问题相关保证。
在受限制的马尔可夫决策问题(CMDP)中,我们开发了原始-对偶加速自然策略梯度(PD-ANPG)算法,它保证了ε全局最优性差距和ε约束违反,样本复杂度为O(ε^-3),从而在CMDP的样本复杂度上取得了O(ε^-1)的进展。
May, 2024