应用于 PPO 和 RUDDER 的 Actor-Critic 方法的收敛证明

Dec, 2020

应用于 PPO 和 RUDDER 的 Actor-Critic 方法的收敛证明

Convergence Proof for Actor-Critic Methods Applied to PPO and RUDDER

Markus Holzleitner, Lukas Gruber, José Arjona-Medina, Johannes Brandstetter, Sepp Hochreiter

TL;DR简述：证明了同时学习策略函数（Actor）和价值函数（Critic）的 Actor-Critic 强化学习算法的收敛性，该算法使用深度神经网络，并应用了二时间尺度随机逼近理论的技术。这对使用周期性样本数据并在学习过程中变得更贪心的 Actor-Critic 方法是有效的。

Abstract

We prove under commonly used assumptions the convergence of actor-critic reinforcement learning algorithms, which simultaneously learn a policy function, the actor, and a value function, the critic. Both functions can be deep neural networks of arbitrary complexity. Our framework allow

actor-critic reinforcement learning deep neural networks proximal policy optimization rudder stochastic approximation theory

发现论文，激发创造

Actor-Critic 方法在强化学习中的样本复杂度问题与函数近似

本研究提出了一种新的 Actor-Critic 算法变体，使用 Monte Carlo 演算法在策略搜索更新期间进行 rollouts 以控制偏差，不论策略评估技术的选择，我们都能提供 Actor-Critic 算法的收敛速度，特别是当值函数采用线性函数近似且为连续状态和动作空间时，这些结果适用于 Temporal Difference, Gradient Temporal Difference 和 Accelerated Gradient Temporal Difference。

Oct, 2019

基于离线训练和函数近似的收敛演员 - 评论家算法

我们提出了第一种同时适用于状态值和策略函数逼近的政策梯度算法，保证在离线学习下收敛，解决了动作表示问题带来的高维 “诅咒” 问题，这些算法是基于基于平均状态值函数目标的渐变高演员 - 评论家和强调梯度的高演员 - 评论家推导而来，能够保持所有经典 Actor-Critic 方法的优点，并且在功能逼近方面被证明是可收敛的。

Feb, 2018

部分观察多智能体环境下的演员 - 评论家策略优化

本研究讨论了基于梯度上升的策略梯度和演员 - 评论家算法在部分可观测多智能体环境中的角色，并通过对零和不完全信息游戏等模型的建模来优化模型自由多智能体增强学习的表现。

Oct, 2018

双重稳健离线演员 - 评论家算法：收敛和最优性

本文提出了一种新的基于 actor-critic 算法的离策略强化学习算法 DR-Off-PAC，通过利用已学习的干扰函数来降低估计误差并减少采样复杂度，同时采用单时间尺度结构，可以更加高效地实现一次更新。其中采用密度比方法来调整分布不匹配以稳定收敛，并且通过分析样本复杂度证明了算法渐进的收敛速率。

Feb, 2021

具备函数逼近和理论保证的决策感知演员 - 评论家算法

我们设计了一个决策感知的联合目标来训练演员和评论家，以解决演员的最优目标与评论家的最小化 TD 误差目标不匹配的问题，并提出了一个通用的 Actor-critic 算法来处理任何函数逼近，在一些简单的赌博机示例中，我们证明了提出的评论家目标的好处。最后，我们在简单的 RL 问题上通过实验证明了决策感知的 Actor-critic 框架的好处。

May, 2023

单时间尺度演员 - 评论家算法可证明找到全局最优策略

本研究主要研究了强化学习中最受欢迎的 Actor-Critic 算法的全局收敛性和全局最优性。作者在单时间尺度上进行更新，其中演员和评论家同时更新。研究结果表明，均使用线性或深度神经网络时，演员序列以 $O (K^{-1/2})$ 的次线性速率收敛于全局最优策略，尤其是当使用深度神经网络时，该算法首次找到非线性函数逼近情况下的全局最优策略。

Aug, 2020

ReLU 拯救：通过正 Advantage 改进你的 On-Policy Actor-Critic 模型

本文介绍了一种用于加强 on-policy 进行深度强化学习（DRL）算法的有效性的新方法，通过在价值函数估计中加入了保守性指标，同时使用 Thompson sampling 来实现谨慎探索，改进了现有算法，从而在多个基准中进行了严格的实证评估，并提供了理论证明，表明了新算法的可行性，特别是在多智能体强化学习中。

Jun, 2023

在线神经演员 - 评论家算法的弱收敛分析

使用在线演员 - 评论家算法训练的单层神经网络在隐藏单元数量和训练步骤数量趋于无穷大时，收敛于随机常微分方程 (ODE)。

Mar, 2024

带有阶段演员的演员 - 评论家强化学习

强化学习中的政策梯度方法在解决连续最优控制问题方面具有很大潜力。本研究提出了一种名为 Phased Actor in Actor-Critic (PAAC) 的新方法，旨在改善政策梯度估计的质量，减少随机性变化，并提供稳定的系统动力学。PAAC 在 DeepMind Control Suite (DMC) 中的评估结果显示了其在学习成本、鲁棒性、学习速度和成功率方面显著的性能提升，通过与其他相关方法的比较，为这些政策梯度算法提供了统一视角。

Apr, 2024

一种收敛的在线单时间尺度演员评论家算法

介绍一种基于 Actor-Critic 的在线时序差异算法，用于评估值函数以及更新参数，且可以实现对平均奖励的局部最大值的收敛，为构建更真实的强化学习神经科学模型提供了可能性。

Sep, 2009