Jan, 2020

SEERL: 高效率样本集成强化学习

TL;DR本文提出了一种新的训练和模型选择框架,用于模型无关的强化学习算法,使用单次训练的策略集合。这些策略通过定向扰动模型参数在一定时间间隔内进行学习,选择一个足够多样化的策略集合对于得到一个好的集成模型来说是必需的。该框架具有显著的样本效率和低计算成本,且在 Atari 2600 和 Mujoco 中表现优异。