May, 2019
神经时序差分和 Q-learning 可以被证明收敛于全局最优解
Neural Temporal-Difference and Q-Learning Provably Converge to Global Optima
Qi Cai, Zhuoran Yang, Jason D. Lee, Zhaoran Wang
TL;DR通过超参数化来解决 neural TD 的优化非线性问题,证明了 neural TD 在策略评估中以次线性速率收敛于均方 Bellman 误差的全局最优解,并进一步连接到策略梯度算法的全局收敛。