增强型软演员 - 评论家算法：强化最近经验，不遗忘过去

Jun, 2019

增强型软演员 - 评论家算法：强化最近经验，不遗忘过去

Boosting Soft Actor-Critic: Emphasizing Recent Experience without Forgetting the Past

Che Wang, Keith Ross

TL;DRSoft Actor-Critic 算法利用最大熵强化学习实现无序策略的演员 - 评论家深度强化学习，结合灵活的离线更新和演员评论家框架，通过实验表明强化学习离线采样技术 Emphasizing Recent Experience (ERE) 能进一步提高 SAC 的效率，在混合 ERE 和 Priority Experience Replay 方法中得到了更好的结果。

Abstract

soft actor-critic (SAC) is an off-policy actor-critic deep reinforcement learning (DRL) algorithm based on maximum entropy reinforcement learning

soft actor-critic off-policy reinforcement learning emphasizing recent experience priority experience replay

发现论文，激发创造

软性演员 - 评论家算法及其应用

本文介绍了一种基于最大熵强化学习框架的离线演员 - 评论家算法 Soft Actor-Critic，其中演员旨在同时最大化期望回报和熵，以在任务中成功执行尽可能随机的动作。作者通过对其进行一系列改进，如约束模型等，提高了模型的稳定性和训练速度，并在基准任务以及四足机器人的运动和灵巧手的机器人操作等现实世界挑战任务中取得了最先进的性能，在样本效率和渐近性能方面优于以往的在线和离线算法。

Dec, 2018

具有真正不等约束的软演员 - 评论算法

本篇论文在软性演员批评的强化学习中加入松弛变量，以适当处理不等式约束，最大化策略熵，从而实现了更高的稳定性和更稳定的学习，适用于真实世界的机器人控制。

Mar, 2023

DSAC-C: 基于约束的最大熵算法用于鲁棒离散软演员评论家

我们提出了一种新颖的 Soft Actor-Critic（SAC）算法扩展。基于最大熵原理，我们认为通过从替代性评论策略中得出的附加统计约束，可以进一步改进离散 SAC 算法。此外，我们的研究结果表明，这些约束对于潜在领域转移提供了额外的稳健性，这对于在现实世界中安全部署强化学习代理至关重要。我们提供了理论分析并展示了对 Atari 2600 游戏的分布内和分布外低数据范例的实证结果。

Oct, 2023

SARC：软性演员回顾评论家

本文提出了软演员回溯评论家（SARC）算法，通过增加回溯损失项来改进 SAC 的评论家学习，从而提高政策梯度估计和实现更好的策略，在基准环境中展示了 SARC 对 SAC 的持续改进表现。

Jun, 2023

软最大熵深度强化学习中的 Stochastic Actor-Critic 算法

本文提出一种基于最大熵强化学习框架的深度离策略演员 - 评论家算法，该算法通过离策略更新和稳定的随机演员 - 评论家公式结合，实现了在一系列连续控制基准任务上的最先进表现。

Jan, 2018

使用规范化流策略改进软演员 - 评论家算法的探索能力

该研究提出了一种基于 Soft Actor Critic 算法的正态流策略分布模型，增加了模型的表达能力以提高稳定性和适应稀疏奖励环境下的探索能力。

Jun, 2019

DSAC: 基于分布式的软演员 - 评论家算法用于风险敏感强化学习

DSAC 是一种新的强化学习算法，它通过利用积累奖励的分布信息来获得更好的性能。通过将 SAC 与基本分布式目标观点无缝集成， DSAC 考虑了行动和回报中的随机性，并在几个连续控制基准测试中超越了现有技术基线。除此之外，我们还探讨了三个具体的与风险相关的度量标准：百分位数，均值 - 方差和扭曲期望，通过分布建模实现了 RL 中的风险敏感。

Apr, 2020

S$^2$AC：基于能量的 Stein Soft Actor Critic 强化学习

学习表达性随机策略而不是确定性策略已经被提出，以实现更好的稳定性、采样复杂度和鲁棒性。我们提出了 Stein Soft Actor-Critic (S^2AC)，这是一种能够高效学习表达性策略的最大熵强化学习算法，通过使用参数化的 Stein 变分梯度下降（SVGD）作为基础策略，并导出了该策略的熵的闭合表达式。实证结果表明，在多目标环境中，S^2AC 相较于 SQL 和 SAC 能够提供更优的最大熵目标解，并在 MuJoCo 基准测试中胜过 SAC 和 SQL。

May, 2024

一种用监督数据提高采样效率的演员 - 评论家强化学习方法在对话管理中的应用

介绍了两种神经网络算法 ——trust region actor-critic with experience replay (TRACER) 和 episodic natural actor-critic with experience replay (eNACER)，以加速深度强化学习，在线学习过程中的效果，并利用演示数据来预先训练深度强化学习模型，以缓解冷启动问题。

Jul, 2017

利用抑制网络的软 AC 框架加速重训练

本文提出了一种受神经科学研究启发的新方法，使用抑制性网络，以允许分离和自适应状态值评估，以及不同的自动熵调整，最终我们的方法允许控制抑制来处理利用较少风险获取的行为和探索新行为之间的冲突，以克服更具挑战性的任务，并通过在 OpenAI Gym 环境中进行实验验证。

Feb, 2022