推广软演员-评论算法至离散动作空间

Jul, 2024

推广软演员-评论算法至离散动作空间

Generalizing soft actor-critic algorithms to discrete action spaces

Le Zhang, Yong Gu, Xin Zhao, Yanshuo Zhang, Shu Zhao...

TL;DRATARI是一套用于强化学习研究的视频游戏，通过接收像素和游戏得分等信息，代理人学会了开发复杂策略，甚至可媲美专业人类游戏测试员。本文通过提出一种实际的离散型软策略-评论家算法（SAC）的变体，在先进的Rainbow变体BBF中进行离策略学习，从而将国际四分位数均值（IQM）从1.045提高到1.088，仅使用回放比例（RR）为2，训练时间严格为BBF的三分之一。作为IQM大于1表示超人类表现水平的值，SAC-BBF也是唯一仅使用RR 2达到超人类水平的无模型算法。

Abstract

atari is a suite of video games used by reinforcement learning (RL) researchers to test the effectiveness of the learning algorithm. Receiving only the raw pixels and the game score, the agent learns to develop s

发现论文，激发创造

均值演员-评论家

提出了一种新的算法Mean Actor-Critic（MAC）用于离散动作连续状态强化学习，该算法使用代理的所有动作值的显式表示来估计策略的梯度，证明这种方法相对于传统的Actor-Critic方法减少了策略梯度估计中的方差，并在两个控制域和六个Atari游戏上展示了与最先进的策略搜索算法的竞争力。

Sep, 2017

软最大熵深度强化学习中的Stochastic Actor-Critic算法

本文提出一种基于最大熵强化学习框架的深度离策略演员-评论家算法，该算法通过离策略更新和稳定的随机演员-评论家公式结合，实现了在一系列连续控制基准任务上的最先进表现。

Jan, 2018

软性演员-评论家算法及其应用

本文介绍了一种基于最大熵强化学习框架的离线演员-评论家算法 Soft Actor-Critic，其中演员旨在同时最大化期望回报和熵，以在任务中成功执行尽可能随机的动作。作者通过对其进行一系列改进，如约束模型等，提高了模型的稳定性和训练速度，并在基准任务以及四足机器人的运动和灵巧手的机器人操作等现实世界挑战任务中取得了最先进的性能，在样本效率和渐近性能方面优于以往的在线和离线算法。

Dec, 2018

使用规范化流策略改进软演员 - 评论家算法的探索能力

该研究提出了一种基于Soft Actor Critic算法的正态流策略分布模型，增加了模型的表达能力以提高稳定性和适应稀疏奖励环境下的探索能力。

Jun, 2019

增强型软演员-评论家算法：强化最近经验，不遗忘过去

Soft Actor-Critic算法利用最大熵强化学习实现无序策略的演员-评论家深度强化学习，结合灵活的离线更新和演员评论家框架，通过实验表明强化学习离线采样技术Emphasizing Recent Experience (ERE)能进一步提高SAC的效率，在混合ERE和Priority Experience Replay方法中得到了更好的结果。

Jun, 2019

离散动作设置下的软演员-批评家算法

该论文介绍了针对连续动作环境的强化学习算法Soft Actor-Critic，并提出了一种适用于离散动作环境的替代算法。通过与Atari游戏套件中的调优模型无关的竞争，在未进行超参数调整的情况下展示了其具有竞争力。

Oct, 2019

在视频游戏中实用的强化学习的离散和连续动作表示

本研究基于Soft Actor-Critic算法提出了一种能够处理离散、连续和参数化动作的强化学习算法Hybrid SAC，不仅能成功地解决高速驾驶等游戏中的任务，而且在参数化动作基准任务上也能与现有最先进的算法竞争，同时探讨了在最小计算成本下使用正则化流来丰富策略表达能力的影响，发现了SAC与正则化流一起使用时可能出现的潜在问题，并提出了优化不同目标的方法。

Dec, 2019

重新审视离散化软Actor-Critic算法

本文研究了将 soft actor-critic (SAC) 从连续动作空间适应到离散动作空间的方法，并提出了熵惩罚和双平均 Q-learning 以解决 Q 值低估和性能不稳定问题，通过在 Atari 游戏和大型多人在线战术竞技游戏上的实验验证了所提出方法的有效性。

Sep, 2022

软分解策略评论者：弥合连续控制与离散RL的差距

这篇论文介绍了SDPC架构，它将软强化学习和演员-评论家技术与离散强化学习方法相结合，以克服连续控制问题的挑战，实现了在多个连续控制任务中优于当前最先进的方法的表现。

Aug, 2023

DSAC-C: 基于约束的最大熵算法用于鲁棒离散软演员评论家

我们提出了一种新颖的Soft Actor-Critic（SAC）算法扩展。基于最大熵原理，我们认为通过从替代性评论策略中得出的附加统计约束，可以进一步改进离散SAC算法。此外，我们的研究结果表明，这些约束对于潜在领域转移提供了额外的稳健性，这对于在现实世界中安全部署强化学习代理至关重要。我们提供了理论分析并展示了对Atari 2600游戏的分布内和分布外低数据范例的实证结果。

Oct, 2023