蒙特卡罗增强演员 - 评论家算法处理来自次优演示的稀疏奖励深度强化学习

Oct, 2022

蒙特卡罗增强演员 - 评论家算法处理来自次优演示的稀疏奖励深度强化学习

Monte Carlo Augmented Actor-Critic for Sparse Reward Deep Reinforcement Learning from Suboptimal Demonstrations

Albert Wilcox, Ashwin Balakrishna, Jules Dedieu, Wyame Benslimane, Daniel S. Brown...

TL;DR提供 RL 算法的稠密形状奖励函数往往非常具有挑战性，因此发展能够从易于指定的稀疏奖励函数中学习的 RL 算法已成为研究动机。为解决因奖励稀疏性而引入的新的探索挑战，我们引入了 Monte Carlo 增强 Actor Critic (MCAC)，发现它可以显著提高学习效率。

Abstract

Providing densely shaped reward functions for rl algorithms is often exceedingly challenging, motivating the development of rl algorithms that can learn from easier-to-specify →

rl algorithms sparse reward functions demonstrations monte carlo augmented actor critic learning efficiency

发现论文，激发创造

来自不完美演示的强化学习

提出了一种名为规范化演员 - 评论家（NAC）的统一增强学习算法，它将从展示中学习的初始化策略网络与环境中推荐的策略网络结合起来，是一种优于现有基线的鲁棒性学习算法，可用于在几个真实驾驶游戏中的表现。

Feb, 2018

均值演员 - 评论家

提出了一种新的算法 Mean Actor-Critic（MAC）用于离散动作连续状态强化学习，该算法使用代理的所有动作值的显式表示来估计策略的梯度，证明这种方法相对于传统的 Actor-Critic 方法减少了策略梯度估计中的方差，并在两个控制域和六个 Atari 游戏上展示了与最先进的策略搜索算法的竞争力。

Sep, 2017

分布式软 actor-critic 算法：用于解决价值估计误差的离策略强化学习

该论文提出了一种分布式软演员 - 评论家算法 (DSAC)，通过学习状态 - 动作回报的分布函数来适应性地调整 Q 值函数的更新步长，进而缓解 Q 值过高导致的策略性能下降。通过将返回分布函数嵌入最大熵 RL 中，开发了一种分布式软政策迭代框架 (DSPI)，并提出了一个名为 DSAC 的深度离线演员 - 评论家算法的变体，以解决梯度爆炸和梯度消失等问题，并在 MuJoCo 连续控制任务套件上取得了最先进的性能。

Jan, 2020

基于虚拟行动演员 - 评论家框架的探索

通过引入虚拟行动演员 - 评论家框架（VAAC），本文提出了一种用于强化学习中有效探索的新型演员 - 评论家框架，其灵感来自人类在不实际采取行动的情况下预想其潜在结果的能力。实验结果表明，VAAC 相比现有算法改善了探索性能。

Nov, 2023

基于函数逼近的稳健强化学习的自然动态演员 - 评论家

我们提出了两种新的不确定性集合形式，一种基于双重采样，另一种基于积分概率度量，以应对训练模拟器和测试环境之间的模型不匹配问题，并通过引入函数近似的鲁棒自然行为者 - 评论者 (RNAC) 方法，为所提出的 RNAC 算法在有限时间内收敛到最优鲁棒策略提供了保证，并在多个 MuJoCo 环境和实际 TurtleBot 导航任务中展示了所学习策略的鲁棒性能。

Jul, 2023

具备函数逼近和理论保证的决策感知演员 - 评论家算法

我们设计了一个决策感知的联合目标来训练演员和评论家，以解决演员的最优目标与评论家的最小化 TD 误差目标不匹配的问题，并提出了一个通用的 Actor-critic 算法来处理任何函数逼近，在一些简单的赌博机示例中，我们证明了提出的评论家目标的好处。最后，我们在简单的 RL 问题上通过实验证明了决策感知的 Actor-critic 框架的好处。

May, 2023

软性演员 - 评论家算法及其应用

本文介绍了一种基于最大熵强化学习框架的离线演员 - 评论家算法 Soft Actor-Critic，其中演员旨在同时最大化期望回报和熵，以在任务中成功执行尽可能随机的动作。作者通过对其进行一系列改进，如约束模型等，提高了模型的稳定性和训练速度，并在基准任务以及四足机器人的运动和灵巧手的机器人操作等现实世界挑战任务中取得了最先进的性能，在样本效率和渐近性能方面优于以往的在线和离线算法。

Dec, 2018

带有阶段演员的演员 - 评论家强化学习

强化学习中的政策梯度方法在解决连续最优控制问题方面具有很大潜力。本研究提出了一种名为 Phased Actor in Actor-Critic (PAAC) 的新方法，旨在改善政策梯度估计的质量，减少随机性变化，并提供稳定的系统动力学。PAAC 在 DeepMind Control Suite (DMC) 中的评估结果显示了其在学习成本、鲁棒性、学习速度和成功率方面显著的性能提升，通过与其他相关方法的比较，为这些政策梯度算法提供了统一视角。

Apr, 2024

软最大熵深度强化学习中的 Stochastic Actor-Critic 算法

本文提出一种基于最大熵强化学习框架的深度离策略演员 - 评论家算法，该算法通过离策略更新和稳定的随机演员 - 评论家公式结合，实现了在一系列连续控制基准任务上的最先进表现。

Jan, 2018

DSAC: 基于分布式的软演员 - 评论家算法用于风险敏感强化学习

DSAC 是一种新的强化学习算法，它通过利用积累奖励的分布信息来获得更好的性能。通过将 SAC 与基本分布式目标观点无缝集成， DSAC 考虑了行动和回报中的随机性，并在几个连续控制基准测试中超越了现有技术基线。除此之外，我们还探讨了三个具体的与风险相关的度量标准：百分位数，均值 - 方差和扭曲期望，通过分布建模实现了 RL 中的风险敏感。

Apr, 2020