AAAIOct, 2020

Q-Learning 的稳定 Transformer-based 动作序列生成

TL;DR本文提出了一种基于 Transformer 的 Deep Q-Learning 方法,该方法在稳定性和 Atari 基准方面表现良好,并为探究 Transformer 与强化学习之间的关系提供了额外见解。