自信自然策略梯度用于$q_π$可实现受限MDP中的本地规划
本文考虑了使用生成模型进行有限轮次的MDP本地规划,并提出了一种名为TensorPlan算法的方法,在最优价值函数符合线性可实现性的情况下,能够以poly((dH/δ)的复杂度找到相对于任何线性可实现性且存在界限参数的确定性策略的δ最优策略;此外,本文还将上限拓展到了近可实现性情况和无限时域折扣设置。
Feb, 2021
研究无限时间、折扣的约束马尔可夫决策过程中的政策优化问题,提出了一种泛化的原始-对偶框架,用于评估算法表现,实例化了此框架来使用硬币投注算法并证明了其结果的目标约束逼近度,以及并非像其他方法一样需要超参数调整,并通过对合成和Cartpole环境的实验证明了其效力和稳健性。
Apr, 2022
提出一种新颖的C-NPG-PD算法以达到全局最优并减少训练样例复杂度,解决了连续状态-动作空间下的限制马尔可夫决策过程问题。
Jun, 2022
论文提出了一种新的拟动态规划算法Confident Approximate Policy Iteration(CAPI),并将其应用于以局部模拟器为基础的规划问题中,该算法通过一系列策略来获得越来越精确的结果,在最小代价(内存和计算代价)下输出最优策略,同时该算法的查询复杂度较先进算法有很大的改善。
Oct, 2022
我们引入并研究了具有任意时间限制的受限马尔可夫决策过程(cMDPs)。我们提出了一种固定参数可处理的方法,将具有任意时间限制的cMDPs转化为无约束的MDPs。我们设计出了适用于大表cMDPs的计划和学习算法,并设计了近似算法,可以高效地计算或学习一个近似可行策略。
Nov, 2023
在无限时间、约束的马尔科夫决策过程中,通过零阶内点方法实现约束满足,以最大化预期累积奖励,确保策略在学习过程中的可行性,并具有样本复杂度O(ε^(-6))
Dec, 2023
我们介绍了一种具有均匀概率近似正确性保证的新型策略梯度原始-对偶算法,同时保证了收敛至最优策略、次线性遗憾和多项式样本复杂度的理论保证,并在一个简单的CMDP示例中进行实证展示,证明了算法收敛至最优策略,而现有算法则表现出振荡性能和约束违规。
Jan, 2024
我们研究了强化学习问题中的约束马尔可夫决策过程(CMDP),并通过优化算法对CMDP问题的样本复杂度提出了改进,实现了优化的问题相关保证。
Feb, 2024
在受限制的马尔可夫决策问题(CMDP)中,我们开发了原始-对偶加速自然策略梯度(PD-ANPG)算法,它保证了ε全局最优性差距和ε约束违反,样本复杂度为O(ε^-3),从而在CMDP的样本复杂度上取得了O(ε^-1)的进展。
May, 2024