重新审视离散化软 Actor-Critic 算法

Sep, 2022

重新审视离散化软 Actor-Critic 算法

Revisiting Discrete Soft Actor-Critic

Haibin Zhou, Zichuan Lin, Junyou Li, Deheng Ye, Qiang Fu...

TL;DR本文研究了将 soft actor-critic (SAC) 从连续动作空间适应到离散动作空间的方法，并提出了熵惩罚和双平均 Q-learning 以解决 Q 值低估和性能不稳定问题，通过在 Atari 游戏和大型多人在线战术竞技游戏上的实验验证了所提出方法的有效性。

Abstract

We study the adaption of soft actor-critic (SAC) from continuous action space to discrete action space. We revisit vanilla SAC and provide an in-depth understanding of its →

soft actor-critic discrete action space q value underestimation entropy penalty double average q-learning

发现论文，激发创造

DSAC-C: 基于约束的最大熵算法用于鲁棒离散软演员评论家

我们提出了一种新颖的 Soft Actor-Critic（SAC）算法扩展。基于最大熵原理，我们认为通过从替代性评论策略中得出的附加统计约束，可以进一步改进离散 SAC 算法。此外，我们的研究结果表明，这些约束对于潜在领域转移提供了额外的稳健性，这对于在现实世界中安全部署强化学习代理至关重要。我们提供了理论分析并展示了对 Atari 2600 游戏的分布内和分布外低数据范例的实证结果。

Oct, 2023

分布式软 actor-critic 算法：用于解决价值估计误差的离策略强化学习

该论文提出了一种分布式软演员 - 评论家算法 (DSAC)，通过学习状态 - 动作回报的分布函数来适应性地调整 Q 值函数的更新步长，进而缓解 Q 值过高导致的策略性能下降。通过将返回分布函数嵌入最大熵 RL 中，开发了一种分布式软政策迭代框架 (DSPI)，并提出了一个名为 DSAC 的深度离线演员 - 评论家算法的变体，以解决梯度爆炸和梯度消失等问题，并在 MuJoCo 连续控制任务套件上取得了最先进的性能。

Jan, 2020

在视频游戏中实用的强化学习的离散和连续动作表示

本研究基于 Soft Actor-Critic 算法提出了一种能够处理离散、连续和参数化动作的强化学习算法 Hybrid SAC，不仅能成功地解决高速驾驶等游戏中的任务，而且在参数化动作基准任务上也能与现有最先进的算法竞争，同时探讨了在最小计算成本下使用正则化流来丰富策略表达能力的影响，发现了 SAC 与正则化流一起使用时可能出现的潜在问题，并提出了优化不同目标的方法。

Dec, 2019

软性演员 - 评论家算法及其应用

本文介绍了一种基于最大熵强化学习框架的离线演员 - 评论家算法 Soft Actor-Critic，其中演员旨在同时最大化期望回报和熵，以在任务中成功执行尽可能随机的动作。作者通过对其进行一系列改进，如约束模型等，提高了模型的稳定性和训练速度，并在基准任务以及四足机器人的运动和灵巧手的机器人操作等现实世界挑战任务中取得了最先进的性能，在样本效率和渐近性能方面优于以往的在线和离线算法。

Dec, 2018

离散动作设置下的软演员 - 批评家算法

该论文介绍了针对连续动作环境的强化学习算法 Soft Actor-Critic，并提出了一种适用于离散动作环境的替代算法。通过与 Atari 游戏套件中的调优模型无关的竞争，在未进行超参数调整的情况下展示了其具有竞争力。

Oct, 2019

使用规范化流策略改进软演员 - 评论家算法的探索能力

该研究提出了一种基于 Soft Actor Critic 算法的正态流策略分布模型，增加了模型的表达能力以提高稳定性和适应稀疏奖励环境下的探索能力。

Jun, 2019

软分解策略评论者：弥合连续控制与离散 RL 的差距

这篇论文介绍了 SDPC 架构，它将软强化学习和演员 - 评论家技术与离散强化学习方法相结合，以克服连续控制问题的挑战，实现了在多个连续控制任务中优于当前最先进的方法的表现。

Aug, 2023

分解 Soft Actor-Critic 方法用于合作多智体强化学习

本文提出了一种新的分解式多智能体软演员 - 批评家（mSAC）方法，在 StarCraft II 微观管理合作式多智能体基准测试中获得高效和优异的性能。

Apr, 2021

DSAC: 基于分布式的软演员 - 评论家算法用于风险敏感强化学习

DSAC 是一种新的强化学习算法，它通过利用积累奖励的分布信息来获得更好的性能。通过将 SAC 与基本分布式目标观点无缝集成， DSAC 考虑了行动和回报中的随机性，并在几个连续控制基准测试中超越了现有技术基线。除此之外，我们还探讨了三个具体的与风险相关的度量标准：百分位数，均值 - 方差和扭曲期望，通过分布建模实现了 RL 中的风险敏感。

Apr, 2020

通过 Q 学习解决连续控制问题

本文提出了一种将单智能体控制转化为多智能体协作学习的方法 —— 将动作离散化并结合价值分解，从而将 Q-learning 方法应用于高维连续动作空间的情况，能够在学习来自特征或像素的信息的情况下与最先进的连续动作优化技术相匹敌，并在多种连续控制任务中表现出强大的性能。

Oct, 2022