NIPSOct, 2018

利用过去的在线调整进行快速深度强化学习

TL;DR我们提出了 “短暂价值调整(Ephemeral Value Adjustments,EVA)”:一种允许深度强化学习代理快速适应其回放缓冲区中的经验的方法。EVA 通过估计从当前状态附近的回放缓冲区中的经验组成的价值函数来转移神经网络预测的价值。EVA 结合了围绕将类似于情节记忆结构组合到强化学习代理中的一些最近想法:基于插槽的存储、基于内容的检索和基于记忆的规划。我们展示了在演示任务和 Atari 游戏上 EVA 的执行效果。