May, 2019

序列建模:针对情节强化学习的时间性信用分配

TL;DR本文介绍了一种新的时间信用分配算法,使用深度神经网络将时间步骤分解为每个步骤,并采用 Transformer 语言模型学习轨迹状态的重要性和依赖性,可大幅提高回路强化学习的学习效率。作者在一组具有连续运动控制任务的 MuJoCo 上进行了广泛的实验,并证明了该算法的有效性。