Jun, 2020

时间差分和 Q 学习能学习表征吗?一种平均场理论

TL;DR利用双层神经网络,采用均场视角证明了时序差分学习和 Q-learning 以次线性的速度全局最小化普通最小二乘 (平方投影) 贝尔曼误差,并存在一种最优解;同时,相应的特征表示收敛于最优解。