AAAINov, 2018

ACE: 基于树搜索的连续控制的 Actor 集合算法

TL;DR该论文提出了一种名为 ACE 的演员集成算法,用于连续控制的强化学习中,该算法使用演员集成来搜索评论者的全局最大值,并利用确定性内部选项策略扩展了选项评论家体系结构来将 ACE 在选项框架中加以说明。通过使用这些演员和一个学习到的价值预测模型进行先行搜索,导致其有一个充分的价值评估,ACE 在具有挑战性的物理机器人模拟器中展现出明显的性能提升,超过了 DDPG 及其变体。