Apr, 2021

通过学习模型进行计划的在线和离线强化学习

TL;DR本文提出了一种称为 Reanalyse 的算法,能够在固定数据集和与环境交互的情况下,使用模型为基础的策略和价值改进算子来计算改进训练目标,并在多个数据预算范围内实现高效学习。此外,结合 MuZero 算法,提出了 MuZero Unplugged,它是一种单一统一算法,能够适用于任何数据预算,包括离线 Reinforcement Learning(RL),并在 RL Unplugged 离线 RL 基准测试和标准 200 万帧的 Atari 在线 RL 基准测试中取得了新的最先进结果。