Nov, 2016

一天内学会玩:通过最优收敛加速深度强化学习

TL;DR论文提出一种新的强化学习算法,将深度 Q-learning 与约束优化方法相结合,以加强最优性并促进更快的奖励传播,并得出了在 Arcade Learning Environment 中的性能评估结果,表明该方法能够显著缩短训练时间并提高准确性。