Feb, 2019

多时间跨度的双曲折扣与学习

TL;DR本文研究强化学习的折扣问题,提出一种基于双曲贴现的 RL 代理,该代理简单有效且符合实验结果;同时发现通过学习多个时间跨度的价值函数可以提高价值型 RL 代理的性能。