May, 2019

神经时序差分和 Q-learning 可以被证明收敛于全局最优解

TL;DR通过超参数化来解决 neural TD 的优化非线性问题,证明了 neural TD 在策略评估中以次线性速率收敛于均方 Bellman 误差的全局最优解,并进一步连接到策略梯度算法的全局收敛。