Aug, 2018

乐观策略迭代在随机最短路径问题上的收敛性

TL;DR本文研究了乐观策略迭代算法在随机最短路径问题中的收敛性,考虑了蒙特卡罗和 $TD (\lambda)$ 方法在策略评估步骤中的应用。