通过多层级演员 - 评论家算法在平均奖励强化学习中实现全局最优性无需混合时间预言机

Mar, 2024

通过多层级演员 - 评论家算法在平均奖励强化学习中实现全局最优性无需混合时间预言机

Global Optimality without Mixing Time Oracles in Average-reward RL via Multi-level Actor-Critic

Bhrij Patel, Wesley A. Suttle, Alec Koppel, Vaneet Aggarwal, Brian M. Sadler...

TL;DR通过引入多层渐进策略梯度估计方法，解决了在平均奖励增强学习中混合时间知识的依赖性问题，并取得了比之前的基于策略梯度方法（PPGAE）更高的奖励表现。

Abstract

In the context of average-reward reinforcement learning, the requirement for oracle knowledge of the mixing time, a measure of the duration a Markov chain under a fixed policy needs to achieve its stationary distribution-poses a significant challenge for the global convergence of

average-reward reinforcement learning policy gradient methods multi-level actor-critic multi-level monte carlo gridworld goal-reaching navigation

发现论文，激发创造

有限时间收敛和演员 - 评论家多目标强化学习的样本复杂度

该研究论文介绍了一种创新的演员 - 评论家算法 MOAC，用于解决多目标强化学习问题，并提供了有限时间帕累托平稳收敛和样本复杂度的分析，通过在冲突的奖励信号之间进行权衡来找到策略，解决了应用中普遍存在的多个潜在冲突目标的问题，并通过实验证实了该方法的有效性。

May, 2024

均值演员 - 评论家

提出了一种新的算法 Mean Actor-Critic（MAC）用于离散动作连续状态强化学习，该算法使用代理的所有动作值的显式表示来估计策略的梯度，证明这种方法相对于传统的 Actor-Critic 方法减少了策略梯度估计中的方差，并在两个控制域和六个 Atari 游戏上展示了与最先进的策略搜索算法的竞争力。

Sep, 2017

层次平均回报策略梯度算法

本文扩展了分层 option-critic 策略梯度定理，旨在通过使用基于常微分方程的方法分析，优化代理的策略，最大限度地获得马尔可夫链的最终奖励，并在稀疏奖励的网格世界环境中表明了学习 option 的竞争优势。

Nov, 2019

全局收敛性：在平均奖励马尔可夫决策过程中的策略梯度

该研究报告首次提出了有限时间全局收敛分析方法，针对无限时间平均奖励马尔可夫决策过程中的策略梯度方法。具体而言，我们关注的是具有有限状态和动作空间的遍历型表格型马尔可夫决策过程。我们的分析表明，策略梯度迭代以 O (log (T)) 的子线性速率收敛到最优策略，并获得了 O (log (T)) 的后悔度保证，其中 T 表示迭代次数。我们的研究工作主要贡献在于证明了策略梯度算法对于平均奖励马尔可夫决策过程的收敛性，以及得到了有限时间的性能保证。与现有的折扣奖励性能界限不同，我们的性能界限明确依赖于捕捉底层马尔可夫决策过程复杂性的常数。在此基础上，我们重新审视和改进了折扣奖励马尔可夫决策过程的性能界限，并通过模拟评估了平均奖励策略梯度算法的性能。

Mar, 2024

单时间尺度演员 - 评论家算法可证明找到全局最优策略

本研究主要研究了强化学习中最受欢迎的 Actor-Critic 算法的全局收敛性和全局最优性。作者在单时间尺度上进行更新，其中演员和评论家同时更新。研究结果表明，均使用线性或深度神经网络时，演员序列以 $O (K^{-1/2})$ 的次线性速率收敛于全局最优策略，尤其是当使用深度神经网络时，该算法首次找到非线性函数逼近情况下的全局最优策略。

Aug, 2020

两时间尺度自然演员 - 评论家算法的有限样本分析

本文旨在探究 Actor-critic 风格的两个时间尺度算法在强化学习中的应用，提出了一种在线自然 Actor-critic 算法在表格环境下的全局收敛特性，评估其采样轨迹的有效性，并以样本数为单位展开学习效率的分析，为优化全局最优解的搜索提出了提高性能的方法。

Jan, 2021

用于折扣和平均奖励 MDP 的方差约束 Actor-Critic 算法

研究采用演员 - 评论家算法处理马尔可夫决策问题中的风险敏感准则优化问题，并通过协同扰动优化算法及其他方法解决难以优化的问题。最后，论文在交通信号控制应用中展示了算法的实用性。

Mar, 2014

用于有约束多任务强化学习的自然策略梯度和演员评论家方法

多任务强化学习研究了多个任务同时有效解决的单一策略的约束形式，在中心化和去中心化设置下分别考虑了服务器和代理之间的全局约束问题，并提出了基于原始 - 对偶算法和基于采样的演员 - 评论家算法来解决这一问题，并研究了线性函数逼近的泛化扩展。

May, 2024

缩小差距：在具有神经网络参数化的马尔可夫抽样下实现演员 - 评论员的全球收敛（最新迭代）

该研究论文通过对 Actor-Critic 算法进行全面的理论分析，包括五个实践方面（即 MMCLG 标准），从而建立了全局收敛的样本复杂度界限，为实践应用提供了理论依据。

May, 2024

部分观察多智能体环境下的演员 - 评论家策略优化

本研究讨论了基于梯度上升的策略梯度和演员 - 评论家算法在部分可观测多智能体环境中的角色，并通过对零和不完全信息游戏等模型的建模来优化模型自由多智能体增强学习的表现。

Oct, 2018