Oct, 2017

分位数回归的分布式强化学习

TL;DR本文介绍了一种分布强化学习方法,不仅仅用于估计价值函数的平均值,而是显式地建模返回的分布,通过闭合实验和文献相关得到了一些理论和算法上的结果,最后在 Atari 2600 游戏中,该算法的表现显著优于许多 DQN 的改进方案,包括相关的分布式算法 C51。