Dec, 2017

关于某些基于梯度的时间差分离线学习算法的收敛性

TL;DR本文考虑了有限状态和折扣回报标准下的马尔科夫决策过程策略评估问题中的离策略时间差分 (TD) 学习方法,并针对几个基于梯度的 TD 算法提出了一组收敛性结果。