NIPSDec, 2015

如何折扣深度强化学习:走向新的动态策略

TL;DR本文研究使用深度神经网络作为函数逼近器来解决逼近真实世界复杂度的强化学习问题。同时,我们探讨了折扣因子在深度 Q 网络(DQN)学习过程中所起的作用,实验结果表明在逐渐增加折扣因子值的情况下,可以显著降低 DQN 学习步骤的数量。当与变动的学习率一起使用时,其在多项实验中均优于原始 DQN,并将这一现象与神经网络在近似于动态规划设置中的不稳定性联系起来,同时描述了在学习过程中可能陷入局部最优解的可能性,从而将我们的讨论与探索 / 利用困境联系起来。