DSAC: 基于分布式的软演员 - 评论家算法用于风险敏感强化学习

Apr, 2020

DSAC: 基于分布式的软演员 - 评论家算法用于风险敏感强化学习

DSAC: Distributional Soft Actor Critic for Risk-Sensitive Reinforcement Learning

Xiaoteng Ma, Li Xia, Zhengyuan Zhou, Jun Yang, Qianchuan Zhao

TL;DRDSAC 是一种新的强化学习算法，它通过利用积累奖励的分布信息来获得更好的性能。通过将 SAC 与基本分布式目标观点无缝集成， DSAC 考虑了行动和回报中的随机性，并在几个连续控制基准测试中超越了现有技术基线。除此之外，我们还探讨了三个具体的与风险相关的度量标准：百分位数，均值 - 方差和扭曲期望，通过分布建模实现了 RL 中的风险敏感。

Abstract

In this paper, we present a new reinforcement learning (RL) algorithm called distributional soft actor critic (DSAC), which exploits the distributional information of accumulated rewards to achieve better perform

reinforcement learning distributional soft actor critic risk-sensitive learning continuous control benchmarks distribution modeling

发现论文，激发创造

DSAC-T: 具有三个改进的分布式软行动者 - 评论家算法

这篇论文介绍了对标准的 DSAC 算法进行三个重要修正，包括评论家梯度调整、双值分布学习和基于方差的目标回报剪辑，修改后的 RL 算法被称为 DSAC-T 或 DSAC-v2，在各种基准任务中的表现进行了系统评估，结果显示，在所有测试环境中，不需要任何任务特定的超参数调整，DSAC-T 超越了许多主流的无模型 RL 算法，包括 SAC、TD3、DDPG、TRPO 和 PPO，并且与标准版本相比，DSAC-T 确保了高度稳定的学习过程，并在不同的奖励尺度下具有相似的性能。

Oct, 2023

分布式软 actor-critic 算法：用于解决价值估计误差的离策略强化学习

该论文提出了一种分布式软演员 - 评论家算法 (DSAC)，通过学习状态 - 动作回报的分布函数来适应性地调整 Q 值函数的更新步长，进而缓解 Q 值过高导致的策略性能下降。通过将返回分布函数嵌入最大熵 RL 中，开发了一种分布式软政策迭代框架 (DSPI)，并提出了一个名为 DSAC 的深度离线演员 - 评论家算法的变体，以解决梯度爆炸和梯度消失等问题，并在 MuJoCo 连续控制任务套件上取得了最先进的性能。

Jan, 2020

DSAC-C: 基于约束的最大熵算法用于鲁棒离散软演员评论家

我们提出了一种新颖的 Soft Actor-Critic（SAC）算法扩展。基于最大熵原理，我们认为通过从替代性评论策略中得出的附加统计约束，可以进一步改进离散 SAC 算法。此外，我们的研究结果表明，这些约束对于潜在领域转移提供了额外的稳健性，这对于在现实世界中安全部署强化学习代理至关重要。我们提供了理论分析并展示了对 Atari 2600 游戏的分布内和分布外低数据范例的实证结果。

Oct, 2023

面向分布偏移的风险敏感型软演员 - 评论家算法的深度强化学习

我们研究了深度强化学习算法在运营研究领域的上下文多阶段随机组合优化问题中对分布变化的鲁棒性。我们提出了一种新的风险敏感深度强化学习算法，并通过数值实验验证其对现实分布变化的鲁棒性。通过与风险中性算法和两种基准方法进行比较，我们展示了我们的算法在上下文多阶段随机组合优化问题中鲁棒性的优越性。

Feb, 2024

软性演员 - 评论家算法及其应用

本文介绍了一种基于最大熵强化学习框架的离线演员 - 评论家算法 Soft Actor-Critic，其中演员旨在同时最大化期望回报和熵，以在任务中成功执行尽可能随机的动作。作者通过对其进行一系列改进，如约束模型等，提高了模型的稳定性和训练速度，并在基准任务以及四足机器人的运动和灵巧手的机器人操作等现实世界挑战任务中取得了最先进的性能，在样本效率和渐近性能方面优于以往的在线和离线算法。

Dec, 2018

SAAC: 基于扮演者 - 评论者对抗博弈的安全强化学习

本文提出了一种利用最大熵 RL 和安全性对抗指导的 SAAC 框架，能够有效解决在现实世界系统中，风险或安全性是一个约束的问题，同时它也能够满足不同的安全性标准。

Apr, 2022

扩散演员 - 评论者与熵调节器

提出了一种名为 DACER 的在线强化学习算法，通过利用扩散模型的能力来拟合多模态分布，增强策略的表征能力，并提出了一种估算扩散策略熵的方法，在 MuJoCo 基准和多模态任务上实验证明了算法的最先进性能。

May, 2024

保守型离线分布式强化学习

提出了一种适用于风险中性和风险厌恶领域的离线强化学习算法 CODAC，通过对预测收益分位数的度量来适应分布式强化学习，证明 CODAC 学习一个保守收益分布，并在机器人导航任务上成功地学习了风险厌恶策略，表现优于 D4RL MuJoCo 基准测试的方法。

Jul, 2021

多样本目标值用于分布式强化学习的探索

本文介绍了一种基于多样本目标值的分布式强化学习算法 E2DC，能够更加准确地学习状态的回报分布，并能够在 UCB 探索的基础上提高性能。作者在一系列连续控制任务上验证了该算法的有效性，并通过可视化和分析展示了学习过程中回报分布的演化。

Feb, 2022

使用规范化流策略改进软演员 - 评论家算法的探索能力

该研究提出了一种基于 Soft Actor Critic 算法的正态流策略分布模型，增加了模型的表达能力以提高稳定性和适应稀疏奖励环境下的探索能力。

Jun, 2019