Jun, 2016

安全高效的离线策略强化学习

TL;DR该研究针对基于返回值的离策略学习算法进行重新学习,提出了一种名为 Retrace (lambda) 的新算法,该算法具有低方差、安全、高效等三种性质,并能在无 GLIE 假设的情况下收敛。最终将 Retrace (lambda) 应用于 Atari 2600 游戏数据中并验证了其有效性。