Aug, 2017

深度强化学习的信息理论最优性原则

TL;DR本文介绍了一种深度强化学习方法,借鉴信息论的概念,引入一种内在罚信号以鼓励减少Q值估计,为了确保高效且稳健的学习,同时还提出了一种新颖的Lagrange乘子调度方案,并在Atari上的实验结果表明,该算法在游戏表现和样本复杂度方面都优于其他算法(如深度和双深度Q网络),这些结果在最近提出的Dueling架构下仍然有效。