乐观自然策略梯度:一种简单高效的在线强化学习策略优化框架
该研究使用独立自然策略梯度算法解决马尔科夫潜在博弈中的多智能体强化学习问题,证明了在引入次优间隙的情况下,使用具有提供精确策略评估的正交算子的独立自然策略梯度方法可以渐进地在 Ε-Nash 均衡中达到 Ο(1/Ε) 次迭代,这比之前的结果 Ο(1/Ε^2) 次迭代要好,并且与单智能体的情况相同,其可达到 Ο(1/Ε) 次迭代的阶数。通过合成潜在博弈和拥塞博弈的实证结果来验证理论上的界限。
Oct, 2023
该研究证明了自然策略梯度算法在无限状态的平均奖励马尔可夫决策过程中的收敛速度,如果采用良好的初始策略进行初始化,则收敛速度为 O (1/√T)。此外,针对大类排队马尔可夫决策过程,最大权重策略足以满足我们的初始策略要求并实现 O (1/√T) 的收敛速度。关键是根据 NPG 算法的迭代策略所达到的相对值函数,我们得出了这一结果。
Feb, 2024
为了证明策略优化算法的收敛性,本篇论文开发出了一种新的方法,该方法使用非统计方法提供了 $ extit {非渐进}$ 收敛保证,并专注于受 softmax 参数化限制的比例调节的策略梯度算法,重点是折扣的马尔可夫决策过程。实验证明,该算法在逼近正则化 MDP 的最优价值函数时,收敛呈线性或甚至二次收敛速度,考虑到算法的稳定性,收敛结果适应了广泛的学习速率,并阐明了熵正则化在实现快速收敛方面的作用。
Jul, 2020
研究如何在满足预期总效用的约束条件下最大化预期总回报,提出了一种新的自然策略梯度原始 - 对偶方法来解决 Constrained Markov 决策过程(constrained MDPs)的折扣无限时域下的最优控制问题,在自然策略梯度上升和投影次梯度下降的影响下更新原始变量和对偶变量。
Jun, 2022
本研究考虑了在强化学习环境中状态空间任意大、甚至可数无限的政策优化方法,重点是通信网络、匹配市场和其他排队系统的控制问题。我们研究了自然策略梯度 (Natural Policy Gradient, NPG) 在有限状态空间上的流行算法。在合理的假设下,我们得到了 NPG 的性能上界,该上界与状态空间的大小无关,只要策略评估误差在真实值函数的某个倍数内。我们通过建立关于 Poisson 方程解(即相对值函数)的新的与策略无关的界限,并将这些界限与先前已知的马尔可夫决策过程 (MDP) 和从专家学习的联系相结合,得到了这个结果。
May, 2024
研究马尔可夫潜势博弈在无限时间平均回报准则下,证明基于独立策略梯度和独立自然策略梯度的算法都能在全局收敛到纳什均衡点,同时提出了渐进性和底座条件,通过梯度和微分值函数的灵敏度边界为梯度方法奠定了基础,并证明了三种算法的收敛性以及具体的时间复杂度,当需要估计策略梯度时,我们提出了一个算法并给出了样本复杂度分析,最后通过模拟研究来验证结果。
Mar, 2024
这项研究主要关注多智能体强化学习中的熵正则化独立自然策略梯度算法,通过引入熵正则化实现有界理性的决策,从而使智能体的行为接近纳什均衡,并通过实证结果验证了理论分析的可靠性。
May, 2024
本文介绍了一种新的自然策略梯度变体 NPG-HM,它利用 Hessian 辅助的动量技术用于方差减少,子问题则通过随机梯度下降方法求解。研究结果表明,NPG-HM 在一般 Fisher 非退化策略参数化下,能够以样本复杂度 O (ε^−2) 达到全局最后迭代 ε- 最优性,并且该方法在处理子问题时具有松弛的弱梯度优势特性和错误分解的便捷方式。此外,基于 Mujoco 环境的数值实验结果显示 NPG-HM 在性能上优于其他最先进的策略梯度方法。
Jan, 2024
设计高效学习算法解决无限时间折扣奖励马尔可夫决策过程问题,提出了应用加速随机梯度下降过程获取自然策略梯度的加速自然策略梯度算法(ANPG)。ANPG 在一般参数化情况下,实现了 O (ε^-2) 的样本复杂度和 O (ε^-1) 的迭代复杂度,其中 ε 定义了最优性误差。相比现有技术,ANPG 通过一个 log (1/ε) 因子改进了样本复杂度。ANPG 是一个一阶算法,并且不需要假设重要性采样权重的方差有上界,这与一些现有文献不同。在无 Hessian 和无重要性采样算法类别中,ANPG 的样本复杂度超过了已知算法的 O (ε^-1/2) 倍,并与他们的迭代复杂度相匹配。
Oct, 2023