Feb, 2019
多时间跨度的双曲折扣与学习
Hyperbolic Discounting and Learning over Multiple Horizons
William Fedus, Carles Gelada, Yoshua Bengio, Marc G. Bellemare, Hugo Larochelle
TL;DR本文研究强化学习的折扣问题,提出一种基于双曲贴现的 RL 代理,该代理简单有效且符合实验结果;同时发现通过学习多个时间跨度的价值函数可以提高价值型 RL 代理的性能。