利用抑制网络的软 AC 框架加速重训练

Feb, 2022

利用抑制网络的软 AC 框架加速重训练

Soft Actor-Critic with Inhibitory Networks for Faster Retraining

Jaime S. Ide, Daria Mićović, Michael J. Guarino, Kevin Alcedo, David Rosenbluth...

TL;DR本文提出了一种受神经科学研究启发的新方法，使用抑制性网络，以允许分离和自适应状态值评估，以及不同的自动熵调整，最终我们的方法允许控制抑制来处理利用较少风险获取的行为和探索新行为之间的冲突，以克服更具挑战性的任务，并通过在 OpenAI Gym 环境中进行实验验证。

Abstract

Reusing previously trained models is critical in deep reinforcement learning to speed up training of new agents. However, it is unclear how to acquire new skills when objectives and constraints are in conflict with previously learned skills. Moreover, when retraining, there is an intri

deep reinforcement learning soft actor-critic methods inhibitory networks adaptive state value evaluations openai gym environments

发现论文，激发创造

Meta-SAC: 通过 Metagradient 自动调整软演员批评家的熵温度

本文提出一种新方法 Meta-SAC，基于 Soft Actor-Critic (SAC) 算法，使用元梯度及元目标来自动调整熵温度，以平衡任务原始奖励与策略熵，从而解决了探索利用困境的问题，并在 Mujoco 基准测试任务中达到了令人满意的性能。

Jul, 2020

软性演员 - 评论家算法及其应用

本文介绍了一种基于最大熵强化学习框架的离线演员 - 评论家算法 Soft Actor-Critic，其中演员旨在同时最大化期望回报和熵，以在任务中成功执行尽可能随机的动作。作者通过对其进行一系列改进，如约束模型等，提高了模型的稳定性和训练速度，并在基准任务以及四足机器人的运动和灵巧手的机器人操作等现实世界挑战任务中取得了最先进的性能，在样本效率和渐近性能方面优于以往的在线和离线算法。

Dec, 2018

具有真正不等约束的软演员 - 评论算法

本篇论文在软性演员批评的强化学习中加入松弛变量，以适当处理不等式约束，最大化策略熵，从而实现了更高的稳定性和更稳定的学习，适用于真实世界的机器人控制。

Mar, 2023

DSAC-C: 基于约束的最大熵算法用于鲁棒离散软演员评论家

我们提出了一种新颖的 Soft Actor-Critic（SAC）算法扩展。基于最大熵原理，我们认为通过从替代性评论策略中得出的附加统计约束，可以进一步改进离散 SAC 算法。此外，我们的研究结果表明，这些约束对于潜在领域转移提供了额外的稳健性，这对于在现实世界中安全部署强化学习代理至关重要。我们提供了理论分析并展示了对 Atari 2600 游戏的分布内和分布外低数据范例的实证结果。

Oct, 2023

基于软 Actor-Critic 的自适应设备 - 边缘联合推理框架

提出了一种基于 Deep Neural Network（DNN）模型的 IoT 设备与边缘协同计算框架，通过多分支结构、智能早停、硬件中间分割与整数量化等技术实现了优秀的通信负载和执行精度平衡，结合基于 Soft Actor Critic（SAC-d）的深度强化学习优化算法实现了动态无线通道和任意 CPU 处理下的适应性支持，并在树莓派 4 和 PC 上进行了实验。

Jan, 2022

使用规范化流策略改进软演员 - 评论家算法的探索能力

该研究提出了一种基于 Soft Actor Critic 算法的正态流策略分布模型，增加了模型的表达能力以提高稳定性和适应稀疏奖励环境下的探索能力。

Jun, 2019

DSAC: 基于分布式的软演员 - 评论家算法用于风险敏感强化学习

DSAC 是一种新的强化学习算法，它通过利用积累奖励的分布信息来获得更好的性能。通过将 SAC 与基本分布式目标观点无缝集成， DSAC 考虑了行动和回报中的随机性，并在几个连续控制基准测试中超越了现有技术基线。除此之外，我们还探讨了三个具体的与风险相关的度量标准：百分位数，均值 - 方差和扭曲期望，通过分布建模实现了 RL 中的风险敏感。

Apr, 2020

SARC：软性演员回顾评论家

本文提出了软演员回溯评论家（SARC）算法，通过增加回溯损失项来改进 SAC 的评论家学习，从而提高政策梯度估计和实现更好的策略，在基准环境中展示了 SARC 对 SAC 的持续改进表现。

Jun, 2023

增强型软演员 - 评论家算法：强化最近经验，不遗忘过去

Soft Actor-Critic 算法利用最大熵强化学习实现无序策略的演员 - 评论家深度强化学习，结合灵活的离线更新和演员评论家框架，通过实验表明强化学习离线采样技术 Emphasizing Recent Experience (ERE) 能进一步提高 SAC 的效率，在混合 ERE 和 Priority Experience Replay 方法中得到了更好的结果。

Jun, 2019

SAAC: 基于扮演者 - 评论者对抗博弈的安全强化学习

本文提出了一种利用最大熵 RL 和安全性对抗指导的 SAAC 框架，能够有效解决在现实世界系统中，风险或安全性是一个约束的问题，同时它也能够满足不同的安全性标准。

Apr, 2022