Apr, 2021

通过学习模型进行计划的在线和离线强化学习

TL;DR本文提出了一种称为Reanalyse的算法,能够在固定数据集和与环境交互的情况下,使用模型为基础的策略和价值改进算子来计算改进训练目标,并在多个数据预算范围内实现高效学习。此外,结合MuZero算法,提出了MuZero Unplugged,它是一种单一统一算法,能够适用于任何数据预算,包括离线Reinforcement Learning(RL),并在RL Unplugged离线RL基准测试和标准200万帧的Atari在线RL基准测试中取得了新的最先进结果。