May, 2022

时间差分与残差梯度在神经网络逼近中的实验比较

TL;DR我们在深度Q学习中比较了Residual Gradient (RG)和Temporal Difference (TD),结果表明TD更优,同时我们还发现了强化学习和监督学习之间的一个关键差异,即小的Bellman残差误差可能对应一个不好的策略。我们进一步证明了TD中的缺失项是RG表现不佳的重要原因。我们的研究表明,深度Q学习的性能与训练动态密切相关,如何使用不完全梯度下降方法找到良好策略是未来研究的一个有趣领域。