平均奖励马尔科夫决策过程中的批量策略学习
本研究提出了一种基于平均报酬 MDPs 的学习和规划算法,其中包括第一种无参考状态的普遍证明收敛的无模型控制算法、第一个证明收敛的无政策自由预测算法,以及第一个离线学习算法,其收敛于实际值函数而不是值函数增加一个偏移量。在使用时间差错错误而不是常规错误更新平均报酬估计时,我们的所有算法都基于此。
Jun, 2020
本篇论文研究鲁棒平均回报 MDP 问题,旨在找到一种策略,使其在不确定性的 MDP 集合中的最坏平均回报最优化。作者探讨了利用折扣 MDP 实现这个问题,证明了当折扣因子趋近于 1 时,鲁棒折扣价值函数收敛于鲁棒平均回报,并设计了鲁棒动态规划方法。同时,也考虑了直接处理鲁棒平均回报 MDP 问题的情况,并导出了其鲁棒 Bellman 方程,设计了一种鲁棒相对价值迭代算法来求解其策略。
Jan, 2023
我们提出了多种经过证明有效的无模型强化学习算法,包括基于参考优势分解的在线无模型强化学习算法以及适用于模拟器环境的无模型强化学习算法,在平均报酬马尔科夫决策过程中实现更好的折扣估计和置信区间的高效构建。
Jun, 2023
本文研究了无限时间段平均回报马尔可夫决策过程(MDP)。与现有研究不同的是,我们采用了基于通用策略梯度的算法,使其摆脱了线性 MDP 结构的约束。我们提出了一种基于策略梯度的算法,并证明了其全局收敛性质。然后我们证明该算法具有 $\tilde {\mathcal {O}}({T}^{3/4})$ 的后悔度。值得注意的是,本文是第一次对于一般参数化策略梯度算法在平均回报情景下的后悔计算进行了探索性研究。
Sep, 2023
本文提出两种基于无模型的强化学习算法,用于学习无限时间持续的平均回报 MDP 问题,第一种算法在弱相互通信的 MDPs 中,将问题简化为折扣回报问题,在 T 步之后的遗憾为 O (T^(2/3)), 该算法是解决该问题的第一种无模型的算法;第二种算法利用了对抗多臂老虎机自适应算法的最新进展,将遗憾进一步改进至 O (sqrt (T)),但需要更强的符合人类定义的遍历条件。这个结果取代了 Abbasi-Yadkori 等人 2019 年只有在符合人类定义的遍历条件下的 ergodic MDP 才能达到 O (T^(3/4)) 的遗憾。
Oct, 2019
该研究报告首次提出了有限时间全局收敛分析方法,针对无限时间平均奖励马尔可夫决策过程中的策略梯度方法。具体而言,我们关注的是具有有限状态和动作空间的遍历型表格型马尔可夫决策过程。我们的分析表明,策略梯度迭代以 O (log (T)) 的子线性速率收敛到最优策略,并获得了 O (log (T)) 的后悔度保证,其中 T 表示迭代次数。我们的研究工作主要贡献在于证明了策略梯度算法对于平均奖励马尔可夫决策过程的收敛性,以及得到了有限时间的性能保证。与现有的折扣奖励性能界限不同,我们的性能界限明确依赖于捕捉底层马尔可夫决策过程复杂性的常数。在此基础上,我们重新审视和改进了折扣奖励马尔可夫决策过程的性能界限,并通过模拟评估了平均奖励策略梯度算法的性能。
Mar, 2024
本文研究了强化学习中平均回报和折扣回报的区别,提出了面向平均回报的策略梯度定理,同时开发了基于此理论的 Average Reward Off-Policy Deep Deterministic Policy Gradient (ARO-DDPG) 算法。实验结果表明,ARO-DDPG 在 MuJoCo 环境中优于现有的基于平均回报的策略方法。
May, 2023
设计了一个计算有效的算法,通过将平均奖励设定近似为折扣设定,并且在适当调整贴现因子时,通过运行基于乐观值迭代的算法来实现无限时段平均奖励线性马尔可夫决策过程 (MDP) 的 O (sqrt (T)) 的遗憾。
May, 2024
本文研究了无限时段平均回报约束马尔可夫决策过程(CMDP)。在我们的知识范围内,该工作是第一个深入探讨了具有一般策略参数化的平均回报 CMDP 的遗憾和约束违反分析。为了解决这个挑战,我们提出了一种基于原始对偶的策略梯度算法,能够在确保低遗憾全局最优策略的同时,灵活处理约束。特别地,我们证明了我们提出的算法实现了 $\tilde {\mathcal {O}}({T}^{3/4})$ 的目标遗憾和 $\tilde {\mathcal {O}}({T}^{3/4})$ 的约束违反界限。
Feb, 2024