May, 2017

深度强化学习的浅层更新

TL;DR本研究提出了一种名为最小二乘深度 Q 网络 (LS-DQN) 的混合方法,它将由深度强化学习算法学习的丰富特征表示与线性最小二乘方法的稳定性相结合。实验表明,与原始的深度 Q 网络 (DQN) 和 Double-DQN 相比,LS-DQN 在五个 Atari 游戏中均表现出显著的性能提升,此方法优越的性能主要归功于优化最后一层时所使用的大批量线性最小二乘方法。