CMDP离策略学习的近似最优原始对偶算法
本文提出了一种用于受限Markov决策过程CMDPs的策略搜索方法APDO,并在模拟机器人运动任务上实验,结果表明APDO比CMDPs的现有方法具有更好的采样效率和更快的收敛速度。
Feb, 2018
该研究提出了一种保守随机原始-对偶算法(CSPDA),用于解决基于约束马尔可夫决策过程(CMDP)的强化学习问题,该算法能够在零约束违规的情况下实现ε-最优累积奖励,并提供比现有算法更有效率的复杂度。
Sep, 2021
本文研究了具有不稳定目标和约束的约束马尔可夫决策过程的原始-对偶强化学习,并提出了具有安全性和适应性的时间变化中安全的RL算法,同时建立了动态遗憾界和约束违规界。
Jan, 2022
本文提出了一种基于Lagrangian方法的新型模型双重算法OptAug-CMDP,针对标签化的有限路径CMDP,证明了该算法在探索CMDP的K个周期内同时获得了目标和约束违规的期望性能敏感性,且无需进行错误取消。
Jun, 2023
在无限时间、约束的马尔科夫决策过程中,通过零阶内点方法实现约束满足,以最大化预期累积奖励,确保策略在学习过程中的可行性,并具有样本复杂度O(ε^(-6))
Dec, 2023
我们介绍了一种具有均匀概率近似正确性保证的新型策略梯度原始-对偶算法,同时保证了收敛至最优策略、次线性遗憾和多项式样本复杂度的理论保证,并在一个简单的CMDP示例中进行实证展示,证明了算法收敛至最优策略,而现有算法则表现出振荡性能和约束违规。
Jan, 2024
该论文提出了一种用于解决低秩Markov决策过程的离线强化学习算法,该算法在折扣无限时间段设置中具有较低的样本复杂度,且支持离线约束强化学习设置。
Feb, 2024
我们研究了强化学习问题中的约束马尔可夫决策过程(CMDP),并通过优化算法对CMDP问题的样本复杂度提出了改进,实现了优化的问题相关保证。
Feb, 2024
这篇研究论文提出了一个新的基于受约束的马尔可夫决策过程(CMDP)框架的强化学习算法,通过离线数据评估和策略梯度更新来在线学习,实现了CMDP在线性设置中的多项式样本复杂度。
Jun, 2024