零阶演员 - 评论家 | BriefGPT

Jan, 2022

零阶演员 - 评论家

Zeroth-Order Actor-Critic

Yuheng Lei, Jianyu Chen, Shengbo Eben Li, Sifa Zheng

TL;DR提出了一种新的零阶演员评论家算法（ZOAC），将进化型的零阶优化方法和基于政策梯度的一阶方法统一到一个政策演员结构中，解决了两种算法的缺陷，获得了更高的样本效率和更强的鲁棒性。

Abstract

The recent advanced evolution-based zeroth-order optimization methods and the policy gradient-based first-order methods are two promising alternatives to solve →

reinforcement learning rl problems zeroth-order optimization methods policy gradient-based first-order methods actor-critic architecture

发现论文，激发创造

带有阶段演员的演员 - 评论家强化学习

强化学习中的政策梯度方法在解决连续最优控制问题方面具有很大潜力。本研究提出了一种名为 Phased Actor in Actor-Critic (PAAC) 的新方法，旨在改善政策梯度估计的质量，减少随机性变化，并提供稳定的系统动力学。PAAC 在 DeepMind Control Suite (DMC) 中的评估结果显示了其在学习成本、鲁棒性、学习速度和成功率方面显著的性能提升，通过与其他相关方法的比较，为这些政策梯度算法提供了统一视角。

Apr, 2024

部分观察多智能体环境下的演员 - 评论家策略优化

本研究讨论了基于梯度上升的策略梯度和演员 - 评论家算法在部分可观测多智能体环境中的角色，并通过对零和不完全信息游戏等模型的建模来优化模型自由多智能体增强学习的表现。

Oct, 2018

离策演员 - 评论家

本研究提出了一种在线的增量式 actor-critic 算法来应对现实生活中的多种问题，在采用 off-policy 学习和最新的 gradient temporal-difference 技术的同时，能够灵活地运用 policy 设计，具有较强的学习潜力和泛化性能，并能收敛至较好的算法性能。

May, 2012

Actor-Critic 方法在强化学习中的样本复杂度问题与函数近似

本研究提出了一种新的 Actor-Critic 算法变体，使用 Monte Carlo 演算法在策略搜索更新期间进行 rollouts 以控制偏差，不论策略评估技术的选择，我们都能提供 Actor-Critic 算法的收敛速度，特别是当值函数采用线性函数近似且为连续状态和动作空间时，这些结果适用于 Temporal Difference, Gradient Temporal Difference 和 Accelerated Gradient Temporal Difference。

Oct, 2019

乐观演员 - 评论家算法实现更好的探索

本论文提出了一种新的强化学习算法 —— 乐观的 Actor-Critic 方法 (OAC)，通过在状态动作值函数上近似上限和下限的置信区间，实现了在探索性上的乐观及方向性采样，从而提高了算法对连续控制任务的采样效率。

Oct, 2019

零阶 Oracle 学习到学习

本文将 learning to learn（L2L）框架扩展到零阶（ZO）优化设置，其中没有明确的梯度信息，并将学习的优化器建模为循环神经网络（RNN），通过 ZO 梯度估算器近似梯度，并利用以前迭代的知识产生参数更新，进一步引入另一个 RNN 来学习高斯采样规则并动态指导查询方向采样。我们的学习优化器在合成和实际 ZO 优化任务中表现出优异的收敛率和最终解决方案，特别是在 Black-box Adversarial Attack 任务中。

Oct, 2019

Actor-Critic 方法在离线强化学习中的可证实益处

提出了一种新的离线演员 - 评论家算法，结合了悲观主义原则，在演员策略的动作价值函数封闭的情况下，具有多个优点，并能够在计算上处理封闭的 Bellman 评估运算符。

Aug, 2021

强化学习的双重稳健离线策略演员 - 评论家算法

本文研究了离策略演员 - 评论家算法的离策略评论家评估问题，并通过将双重稳健估计方法应用于演员 - 评论家算法中，成功提高了连续控制任务的性能。同时，该方法还可以应用于存在高方差和不稳定性等问题的奖励信号，从而提高了强化学习的稳健性与安全性。

Dec, 2019

分布式强化学习应用于分布式线性二次控制：无导数策略优化方法

本文提出了一种名为 ZODPO 的算法，它是一种基于 policy gradient、零阶优化和共识算法的分布式强化学习算法，用于解决分散线性二次控制问题，该算法具有良好的可伸缩性，适用于大规模系统，并可用于多区域 HVAC 系统。

Dec, 2019

单时间尺度演员 - 评论家算法可证明找到全局最优策略

本研究主要研究了强化学习中最受欢迎的 Actor-Critic 算法的全局收敛性和全局最优性。作者在单时间尺度上进行更新，其中演员和评论家同时更新。研究结果表明，均使用线性或深度神经网络时，演员序列以 $O (K^{-1/2})$ 的次线性速率收敛于全局最优策略，尤其是当使用深度神经网络时，该算法首次找到非线性函数逼近情况下的全局最优策略。

Aug, 2020