带有阶段演员的演员 - 评论家强化学习

Apr, 2024

带有阶段演员的演员 - 评论家强化学习

Actor-Critic Reinforcement Learning with Phased Actor

Ruofan Wu, Junmin Zhong, Jennie Si

TL;DR强化学习中的政策梯度方法在解决连续最优控制问题方面具有很大潜力。本研究提出了一种名为 Phased Actor in Actor-Critic (PAAC) 的新方法，旨在改善政策梯度估计的质量，减少随机性变化，并提供稳定的系统动力学。PAAC 在 DeepMind Control Suite (DMC) 中的评估结果显示了其在学习成本、鲁棒性、学习速度和成功率方面显著的性能提升，通过与其他相关方法的比较，为这些政策梯度算法提供了统一视角。

Abstract

policy gradient methods in actor-critic reinforcement learning (RL) have become perhaps the most promising approaches to solving continuous optimal control problems. However, the trial-and-error nature of RL and

policy gradient methods actor-critic reinforcement learning continuous optimal control problems phased actor in actor-critic method variance reduction

发现论文，激发创造

解耦的 Actor-Critic

我们提出了一种名为 Decoupled Actor-Critic（DAC）的离策略算法，通过梯度反向传播学习两个不同的演员：一个保守的演员用于时序差分学习，一个乐观的演员用于探索。在 DeepMind Control 任务中，DAC 在低和高回放比例的情况下，并结合了多个设计选择，取得了最新的表现和样本效率。

Oct, 2023

连续控制指导演员 - 评论家

本研究提出了一种新的演员 - 评论家方法，即 GAC，它首先学习本地最大化评论家的指南演员角色，然后通过监督学习来更新策略参数。实验证明，该方法是连续控制的一种有前途的增强学习方法。

May, 2017

零阶演员 - 评论家

提出了一种新的零阶演员评论家算法（ZOAC），将进化型的零阶优化方法和基于政策梯度的一阶方法统一到一个政策演员结构中，解决了两种算法的缺陷，获得了更高的样本效率和更强的鲁棒性。

Jan, 2022

部分观察多智能体环境下的演员 - 评论家策略优化

本研究讨论了基于梯度上升的策略梯度和演员 - 评论家算法在部分可观测多智能体环境中的角色，并通过对零和不完全信息游戏等模型的建模来优化模型自由多智能体增强学习的表现。

Oct, 2018

Actor-Critic 方法在强化学习中的样本复杂度问题与函数近似

本研究提出了一种新的 Actor-Critic 算法变体，使用 Monte Carlo 演算法在策略搜索更新期间进行 rollouts 以控制偏差，不论策略评估技术的选择，我们都能提供 Actor-Critic 算法的收敛速度，特别是当值函数采用线性函数近似且为连续状态和动作空间时，这些结果适用于 Temporal Difference, Gradient Temporal Difference 和 Accelerated Gradient Temporal Difference。

Oct, 2019

AC4MPC: 基于演员 - 评论家强化学习的非线性模型预测控制

利用演员 - 评论家强化学习技术提高模型预测控制性能，通过演员模型提供初始猜测解以及评论家模型对轨迹进行评估确定最佳控制方案。

Jun, 2024

双重稳健离线演员 - 评论家算法：收敛和最优性

本文提出了一种新的基于 actor-critic 算法的离策略强化学习算法 DR-Off-PAC，通过利用已学习的干扰函数来降低估计误差并减少采样复杂度，同时采用单时间尺度结构，可以更加高效地实现一次更新。其中采用密度比方法来调整分布不匹配以稳定收敛，并且通过分析样本复杂度证明了算法渐进的收敛速率。

Feb, 2021

基于 Actor-Critic 的不当强化学习

提出了两种基于强化学习的算法，分别是基于策略梯度的方法和基于 actor-critic 的方法，通过在动态环境下优化控制策略，针对一个给定的目标环境，能够在很少的试验次数内生成一个良好的控制器。多个不匹配且可能是模拟环境下学习来的基本控制器，混合并组合使之稳定控制。

Jul, 2022

演员 - 评论家和策略梯度之间的差距表征

本文提出了一种旨在改进强化学习中 Actor-critic 方法的算法 ——Residual Actor-Critic 和 Stackelberg Actor-Critic，可以提高现有方法的样本效率和最终性能，并通过对 Actor 和 Critic 之间的两人博弈进行深入分析，建立了它们与政策梯度方法的确切联系。

Jun, 2021

价值改进的演员评论算法

通过在策略和价值中分别应用改进算子，本研究提出了一种对演员 - 评论家（AC）框架的通用扩展，命名为 Value-Improved AC (VI-AC)，并设计了 VI-TD3 和 VI-DDPG 两个实际算法，在 Mujoco 基准测试中发现在所有环境中它们都能改进现有基准算法的性能或与其持平。

Jun, 2024