May, 2022

时间差分与残差梯度在神经网络逼近中的实验比较

TL;DR我们在深度 Q 学习中比较了 Residual Gradient (RG) 和 Temporal Difference (TD), 结果表明 TD 更优,同时我们还发现了强化学习和监督学习之间的一个关键差异,即小的 Bellman 残差误差可能对应一个不好的策略。我们进一步证明了 TD 中的缺失项是 RG 表现不佳的重要原因。我们的研究表明,深度 Q 学习的性能与训练动态密切相关,如何使用不完全梯度下降方法找到良好策略是未来研究的一个有趣领域。