安全强化学习中的加速原始-对偶策略优化
研究控制一个在运作时间内有高概率保持期望安全集合的Markov决策过程的学习问题,使用一种约束的Markov决策过程来处理,通过提出一种问题的差分松弛方法,使得有最优安全保障的策略能够被发现。
Nov, 2019
该研究提出了一种保守随机原始-对偶算法(CSPDA),用于解决基于约束马尔可夫决策过程(CMDP)的强化学习问题,该算法能够在零约束违规的情况下实现ε-最优累积奖励,并提供比现有算法更有效率的复杂度。
Sep, 2021
本文研究了具有不稳定目标和约束的约束马尔可夫决策过程的原始-对偶强化学习,并提出了具有安全性和适应性的时间变化中安全的RL算法,同时建立了动态遗憾界和约束违规界。
Jan, 2022
研究凸约束马尔可夫决策过程(CMDPs),提出基于策略的原始-对偶算法来解决优化问题和约束问题,通过隐藏在问题中的凸性证明了所提出的算法的全局收敛性,并以最优性差距和约束违规性表示,证明了算法的 $O(T^{-1/3})$ 收敛速度。
May, 2022
我们介绍了一种具有均匀概率近似正确性保证的新型策略梯度原始-对偶算法,同时保证了收敛至最优策略、次线性遗憾和多项式样本复杂度的理论保证,并在一个简单的CMDP示例中进行实证展示,证明了算法收敛至最优策略,而现有算法则表现出振荡性能和约束违规。
Jan, 2024
本文研究了无限时段平均回报约束马尔可夫决策过程(CMDP)。在我们的知识范围内,该工作是第一个深入探讨了具有一般策略参数化的平均回报CMDP的遗憾和约束违反分析。为了解决这个挑战,我们提出了一种基于原始对偶的策略梯度算法,能够在确保低遗憾全局最优策略的同时,灵活处理约束。特别地,我们证明了我们提出的算法实现了$\tilde{\mathcal{O}}({T}^{3/4})$的目标遗憾和$\tilde{\mathcal{O}}({T}^{3/4})$的约束违反界限。
Feb, 2024
在这项研究中,我们通过实施Lagrangian和Fenchel对偶性,将原始约束问题重构为无约束原始-对偶优化问题,以设计算法解决约束凸性马尔可夫决策过程中的凸性泛函最小化问题,其中访问度量是凸约束。同时,通过将访问度量嵌入到有限维空间中,我们可以通过结合函数逼近来处理较大的状态空间。
Feb, 2024
本研究解决了连续状态和动作空间的约束马尔可夫决策过程(MDP)中计算确定性最优策略的问题。我们提出了一种新的确定性策略梯度原始-对偶(D-PGPD)算法,具有非渐近收敛性,能有效地更新确定性策略和对偶变量,且在机器人导航和流体控制这两种连续控制问题中验证了其有效性。此方法是首个针对连续空间约束MDP提出的确定性策略搜索方法。
Aug, 2024