在受限马尔可夫决策过程中的真正无悔学习
本文关注于强化学习中保障安全的关键问题,提出一种新的基于置信上限的原始对偶算法,更好地解决了环境参数未知的情况下,限制条件作用下的 regret 分析。
Mar, 2020
该研究提出了一种保守随机原始-对偶算法(CSPDA),用于解决基于约束马尔可夫决策过程(CMDP)的强化学习问题,该算法能够在零约束违规的情况下实现ε-最优累积奖励,并提供比现有算法更有效率的复杂度。
Sep, 2021
本文研究了具有不稳定目标和约束的约束马尔可夫决策过程的原始-对偶强化学习,并提出了具有安全性和适应性的时间变化中安全的RL算法,同时建立了动态遗憾界和约束违规界。
Jan, 2022
研究凸约束马尔可夫决策过程(CMDPs),提出基于策略的原始-对偶算法来解决优化问题和约束问题,通过隐藏在问题中的凸性证明了所提出的算法的全局收敛性,并以最优性差距和约束违规性表示,证明了算法的 $O(T^{-1/3})$ 收敛速度。
May, 2022
本文提出了一种基于Lagrangian方法的新型模型双重算法OptAug-CMDP,针对标签化的有限路径CMDP,证明了该算法在探索CMDP的K个周期内同时获得了目标和约束违规的期望性能敏感性,且无需进行错误取消。
Jun, 2023
本研究针对在线约束马尔可夫决策过程(CMDP)中的最优策略识别问题,提出了一种名为Pruning-Refinement-Identification(PRI)的新算法,该算法基于所发现的CMDP的一个基本结构属性,称为有限随机性,实现了无模型的高概率接近最优策略的学习,并在表格设置下提供了改进的后悔损失和约束违规的保证。
Sep, 2023
我们介绍了一种具有均匀概率近似正确性保证的新型策略梯度原始-对偶算法,同时保证了收敛至最优策略、次线性遗憾和多项式样本复杂度的理论保证,并在一个简单的CMDP示例中进行实证展示,证明了算法收敛至最优策略,而现有算法则表现出振荡性能和约束违规。
Jan, 2024
本文研究了无限时段平均回报约束马尔可夫决策过程(CMDP)。在我们的知识范围内,该工作是第一个深入探讨了具有一般策略参数化的平均回报CMDP的遗憾和约束违反分析。为了解决这个挑战,我们提出了一种基于原始对偶的策略梯度算法,能够在确保低遗憾全局最优策略的同时,灵活处理约束。特别地,我们证明了我们提出的算法实现了$\tilde{\mathcal{O}}({T}^{3/4})$的目标遗憾和$\tilde{\mathcal{O}}({T}^{3/4})$的约束违反界限。
Feb, 2024
我们研究了强化学习问题中的约束马尔可夫决策过程(CMDP),并通过优化算法对CMDP问题的样本复杂度提出了改进,实现了优化的问题相关保证。
Feb, 2024