May, 2017

学习因子策略和动作值函数:因子化动作空间表示在深度强化学习中的应用

TL;DR该论文提出了一种新的学习范式,即分解学习控制策略使其在实现多个动作时只需要执行一个动作,从而取得了显著的性能提升,特别是在 Atari 2600 游戏中媲美或超过了两种 DRL 算法。