如何学习一个有用的评论家？基于模型的动作梯度估计策略优化

Apr, 2020

如何学习一个有用的评论家？基于模型的动作梯度估计策略优化

How to Learn a Useful Critic? Model-based Action-Gradient-Estimator Policy Optimization

Pierluca D'Oro, Wojciech Jaśkowski

TL;DR本文提出了一种基于动态学习的 MAGE 算法，通过显式学习动作价值梯度，从而进一步优化策略，相较于无模型和有模型的现有算法，该算法在连续控制任务中表现良好。

Abstract

deterministic-policy actor-critic algorithms for continuous control improve the actor by plugging its actions into the critic and ascending the action-value gradient, which is obtained by chaining the actor's Jac

deterministic-policy actor-critic algorithm mage continuous control policy optimization

发现论文，激发创造

连续控制指导演员 - 评论家

本研究提出了一种新的演员 - 评论家方法，即 GAC，它首先学习本地最大化评论家的指南演员角色，然后通过监督学习来更新策略参数。实验证明，该方法是连续控制的一种有前途的增强学习方法。

May, 2017

均值演员 - 评论家

提出了一种新的算法 Mean Actor-Critic（MAC）用于离散动作连续状态强化学习，该算法使用代理的所有动作值的显式表示来估计策略的梯度，证明这种方法相对于传统的 Actor-Critic 方法减少了策略梯度估计中的方差，并在两个控制域和六个 Atari 游戏上展示了与最先进的策略搜索算法的竞争力。

Sep, 2017

模型增强的 Actor-Critic 算法：透过路径反向传播

本文介绍了一种新的基于模型的强化学习算法，通过利用学习到的模型和策略经过多个时间步长的路径导数来构建策略优化算法，同时通过学习一个演员评论家，使用终端值函数避免了通过多个时间步长的不稳定性。结果显示，该方法比现有的最先进的基于模型的算法在样本效率上更为一致，并且与基于模型的算法达到了基于模型的算法无法达到的渐近性能，而且具有可扩展性。

May, 2020

Actor-Critic 方法在强化学习中的样本复杂度问题与函数近似

本研究提出了一种新的 Actor-Critic 算法变体，使用 Monte Carlo 演算法在策略搜索更新期间进行 rollouts 以控制偏差，不论策略评估技术的选择，我们都能提供 Actor-Critic 算法的收敛速度，特别是当值函数采用线性函数近似且为连续状态和动作空间时，这些结果适用于 Temporal Difference, Gradient Temporal Difference 和 Accelerated Gradient Temporal Difference。

Oct, 2019

离策演员 - 评论家

本研究提出了一种在线的增量式 actor-critic 算法来应对现实生活中的多种问题，在采用 off-policy 学习和最新的 gradient temporal-difference 技术的同时，能够灵活地运用 policy 设计，具有较强的学习潜力和泛化性能，并能收敛至较好的算法性能。

May, 2012

使用矩阵神经网络的均场控制的演员评价学习算法

我们开发了一种新的策略梯度和演员 - 评论家算法，用于解决在连续时间强化学习设置中的平均场控制问题。我们的方法利用了值函数的梯度表示，采用参数化的随机策略。演员（策略）和评论家（值函数）的学习通过在概率测度的 Wasserstein 空间上的一类动量神经网络函数实现，其中关键特点是直接采样分布的轨迹。本研究解决的一个核心挑战涉及平均场框架特定的计算处理。为了说明我们方法的有效性，我们提供了一组全面的数值结果，其中包括多维设置和具有可控波动性的非线性二次平均场控制问题。

Sep, 2023

基于模型的元学习批判家对策略梯度的优化

针对强化学习中仍存在的新场景快速泛化的问题，该研究提出了一个元学习算法，通过对反梯度策略学习的评论家进行元学习来优化学习任务通用的代理。结果表明，该算法可以学习到接近真实 Q 值函数的评论家，使学到的评论家能够适应于新的任务和环境，并能用于学习新策略。

Apr, 2022

部分观察多智能体环境下的演员 - 评论家策略优化

本研究讨论了基于梯度上升的策略梯度和演员 - 评论家算法在部分可观测多智能体环境中的角色，并通过对零和不完全信息游戏等模型的建模来优化模型自由多智能体增强学习的表现。

Oct, 2018

带有阶段演员的演员 - 评论家强化学习

强化学习中的政策梯度方法在解决连续最优控制问题方面具有很大潜力。本研究提出了一种名为 Phased Actor in Actor-Critic (PAAC) 的新方法，旨在改善政策梯度估计的质量，减少随机性变化，并提供稳定的系统动力学。PAAC 在 DeepMind Control Suite (DMC) 中的评估结果显示了其在学习成本、鲁棒性、学习速度和成功率方面显著的性能提升，通过与其他相关方法的比较，为这些政策梯度算法提供了统一视角。

Apr, 2024

基于离线训练和函数近似的收敛演员 - 评论家算法

我们提出了第一种同时适用于状态值和策略函数逼近的政策梯度算法，保证在离线学习下收敛，解决了动作表示问题带来的高维 “诅咒” 问题，这些算法是基于基于平均状态值函数目标的渐变高演员 - 评论家和强调梯度的高演员 - 评论家推导而来，能够保持所有经典 Actor-Critic 方法的优点，并且在功能逼近方面被证明是可收敛的。

Feb, 2018