ICLRMay, 2019

非线性 TD 学习收敛性的几何洞见

TL;DR本研究旨在推广理论收敛保证到具有非线性函数逼近的 TD 学习,考虑 TD (0) 算法估计值的预期学习动态,使用具有良好几何形状的函数逼近器的集合,证明了在更可逆的环境下 TD 学习的收敛性,同时进行了非线性的收敛和发散案例的探讨。