Jun, 2020
时间差分和 Q 学习能学习表征吗?一种平均场理论
Can Temporal-Difference and Q-Learning Learn Representation? A Mean-Field Theory
Yufeng Zhang, Qi Cai, Zhuoran Yang, Yongxin Chen, Zhaoran Wang
TL;DR利用双层神经网络,采用均场视角证明了时序差分学习和 Q-learning 以次线性的速度全局最小化普通最小二乘 (平方投影) 贝尔曼误差,并存在一种最优解;同时,相应的特征表示收敛于最优解。