Oct, 2018
继承者不确定性:时间差分学习中的探索与不确定性
Successor Uncertainties: Exploration and Uncertainty in Temporal Difference Learning
David Janz, Jiri Hron, Przemysław Mazur, Katja Hofmann, José Miguel Hernández-Lobato...
TL;DR本文研究了强化学习中平衡探索和利用的后验采样技术,提出了一种简单易实现的基于随机化价值函数的算法 Successor Uncertainties(SU),在 tabular 和 Atari 游戏测试中取得了较好的效果。