Feb, 2019

具有线性函数逼近的分布式强化学习

TL;DR本文提出了一种完全基于 Cramér 距离的分布式算法,该算法可以与线性函数逼近相结合,针对策略评估提供正式保证,并证明了分布式算法与函数逼近的收敛性,并得出 Cramér 分布方法可能比直接逼近值函数表现更差的结论。