ACE: 基于树搜索的连续控制的 Actor 集合算法

AAAINov, 2018

ACE: 基于树搜索的连续控制的 Actor 集合算法

ACE: An Actor Ensemble Algorithm for Continuous Control with Tree Search

Shangtong Zhang, Hao Chen, Hengshuai Yao

TL;DR该论文提出了一种名为 ACE 的演员集成算法，用于连续控制的强化学习中，该算法使用演员集成来搜索评论者的全局最大值，并利用确定性内部选项策略扩展了选项评论家体系结构来将 ACE 在选项框架中加以说明。通过使用这些演员和一个学习到的价值预测模型进行先行搜索，导致其有一个充分的价值评估，ACE 在具有挑战性的物理机器人模拟器中展现出明显的性能提升，超过了 DDPG 及其变体。

Abstract

In this paper, we propose an actor ensemble algorithm, named ACE, for continuous control with a deterministic policy in reinforcement learning

reinforcement learning actor ensemble deterministic policy option framework value estimation

发现论文，激发创造

演员 - 评论家集合学习中的奔跑学习

介绍了一种名为 Actor-Critic Ensemble（ACE）的方法，用于提高 Deep Deterministic Policy Gradient（DDPG）算法的性能，此方法在推理时使用批评家集合从多个并行运行的执行者建议中选择最佳动作，以避免具有灾难性后果的动作，并获得了 NIPS'17 Learning to Run 竞赛的第二名。

Dec, 2017

ACE：具有因果感知熵调整的离策略演员 - 评论家算法

我们提出了 ACE 算法：基于因果关系的策略梯度法，通过引入因果关系熵项和梯度休眠现象引导重置机制，取得了在连续控制任务上显著的性能优势。

Feb, 2024

带有阶段演员的演员 - 评论家强化学习

强化学习中的政策梯度方法在解决连续最优控制问题方面具有很大潜力。本研究提出了一种名为 Phased Actor in Actor-Critic (PAAC) 的新方法，旨在改善政策梯度估计的质量，减少随机性变化，并提供稳定的系统动力学。PAAC 在 DeepMind Control Suite (DMC) 中的评估结果显示了其在学习成本、鲁棒性、学习速度和成功率方面显著的性能提升，通过与其他相关方法的比较，为这些政策梯度算法提供了统一视角。

Apr, 2024

软性演员 - 评论家算法及其应用

本文介绍了一种基于最大熵强化学习框架的离线演员 - 评论家算法 Soft Actor-Critic，其中演员旨在同时最大化期望回报和熵，以在任务中成功执行尽可能随机的动作。作者通过对其进行一系列改进，如约束模型等，提高了模型的稳定性和训练速度，并在基准任务以及四足机器人的运动和灵巧手的机器人操作等现实世界挑战任务中取得了最先进的性能，在样本效率和渐近性能方面优于以往的在线和离线算法。

Dec, 2018

针对大动作空间的对话系统高效样本深度增强学习

本文探究深度强化学习方法解决在口语对话系统的策略优化问题，通过结合多种方法提出 ACER 算法以显著提高训练效率和应用范围。

Feb, 2018

连续控制指导演员 - 评论家

本研究提出了一种新的演员 - 评论家方法，即 GAC，它首先学习本地最大化评论家的指南演员角色，然后通过监督学习来更新策略参数。实验证明，该方法是连续控制的一种有前途的增强学习方法。

May, 2017

均值演员 - 评论家

提出了一种新的算法 Mean Actor-Critic（MAC）用于离散动作连续状态强化学习，该算法使用代理的所有动作值的显式表示来估计策略的梯度，证明这种方法相对于传统的 Actor-Critic 方法减少了策略梯度估计中的方差，并在两个控制域和六个 Atari 游戏上展示了与最先进的策略搜索算法的竞争力。

Sep, 2017

保持多样轨迹：促进连续控制中集合策略的探索

通过使用深度强化学习和集成方法，我们提出了一种新的集成强化学习算法 TEEN，在实验证明 TEEN 相对于仅使用子策略能够增加集成策略的样本多样性，并且在性能上表现更好，平均而言 TEEN 在经过测试的代表性环境中比基线集成强化学习算法的性能提高了 41%。

Oct, 2023

软最大熵深度强化学习中的 Stochastic Actor-Critic 算法

本文提出一种基于最大熵强化学习框架的深度离策略演员 - 评论家算法，该算法通过离策略更新和稳定的随机演员 - 评论家公式结合，实现了在一系列连续控制基准任务上的最先进表现。

Jan, 2018

弹性时间步长的强化学习

传统强化学习算法通常在机器人技术中用于学习具有固定控制频率的控制器。本文提出 Soft Elastic Actor-Critic（SEAC），这是一种新颖的离策略演员 - 评论家算法，旨在解决控制频率选择问题，通过实现弹性时间步长（具有已知可变时长的时间步长），使代理能够根据情况变化其控制频率，从而最大程度地减少计算资源和数据使用，提高能量效率和总体时间管理能力，尤其是在强化学习算法难以收敛的控制频率下，SEAC 表现出更快速和更稳定的训练速度。此外，与类似方法 Continuous-Time Continuous-Options（CTCO）模型相比，SEAC 的任务性能更好，突出了 SEAC 在实际机器人强化学习应用中的潜力。

Feb, 2024