约束马尔科夫决策过程的更快算法和更精细分析
研究了采用软最大化参数化的熵正则化约束马尔可夫决策过程及其Lagrange对偶函数和约束违规等问题。并提出了加速对偶下降方法以实现全局收敛性。
Oct, 2021
研究无限时间、折扣的约束马尔可夫决策过程中的政策优化问题,提出了一种泛化的原始-对偶框架,用于评估算法表现,实例化了此框架来使用硬币投注算法并证明了其结果的目标约束逼近度,以及并非像其他方法一样需要超参数调整,并通过对合成和Cartpole环境的实验证明了其效力和稳健性。
Apr, 2022
研究凸约束马尔可夫决策过程(CMDPs),提出基于策略的原始-对偶算法来解决优化问题和约束问题,通过隐藏在问题中的凸性证明了所提出的算法的全局收敛性,并以最优性差距和约束违规性表示,证明了算法的 $O(T^{-1/3})$ 收敛速度。
May, 2022
研究如何在满足预期总效用的约束条件下最大化预期总回报,提出了一种新的自然策略梯度原始-对偶方法来解决Constrained Markov决策过程(constrained MDPs)的折扣无限时域下的最优控制问题,在自然策略梯度上升和投影次梯度下降的影响下更新原始变量和对偶变量。
Jun, 2022
本文介绍了利用Lagrangian方法将约束马尔可夫决策过程转化为有约束鞍点问题的优化方法,提出了两种单时间尺度的基于原始对偶算法的策略算法,可以使策略迭代收敛到一个最优受限策略。其中一个采用了一种正则化策略梯度算法,另一个采用了一种乐观的策略梯度算法。这是约束MDPs单时间尺度算法中第一个非渐进策略最终迭代收敛结果。
Jun, 2023
我们介绍了一种具有均匀概率近似正确性保证的新型策略梯度原始-对偶算法,同时保证了收敛至最优策略、次线性遗憾和多项式样本复杂度的理论保证,并在一个简单的CMDP示例中进行实证展示,证明了算法收敛至最优策略,而现有算法则表现出振荡性能和约束违规。
Jan, 2024
本文研究了无限时段平均回报约束马尔可夫决策过程(CMDP)。在我们的知识范围内,该工作是第一个深入探讨了具有一般策略参数化的平均回报CMDP的遗憾和约束违反分析。为了解决这个挑战,我们提出了一种基于原始对偶的策略梯度算法,能够在确保低遗憾全局最优策略的同时,灵活处理约束。特别地,我们证明了我们提出的算法实现了$\tilde{\mathcal{O}}({T}^{3/4})$的目标遗憾和$\tilde{\mathcal{O}}({T}^{3/4})$的约束违反界限。
Feb, 2024
在这项研究中,我们通过实施Lagrangian和Fenchel对偶性,将原始约束问题重构为无约束原始-对偶优化问题,以设计算法解决约束凸性马尔可夫决策过程中的凸性泛函最小化问题,其中访问度量是凸约束。同时,通过将访问度量嵌入到有限维空间中,我们可以通过结合函数逼近来处理较大的状态空间。
Feb, 2024
在受限制的马尔可夫决策问题(CMDP)中,我们开发了原始-对偶加速自然策略梯度(PD-ANPG)算法,它保证了ε全局最优性差距和ε约束违反,样本复杂度为O(ε^-3),从而在CMDP的样本复杂度上取得了O(ε^-1)的进展。
May, 2024