Oct, 2018

继承者不确定性:时间差分学习中的探索与不确定性

TL;DR本文研究了强化学习中平衡探索和利用的后验采样技术,提出了一种简单易实现的基于随机化价值函数的算法 Successor Uncertainties(SU),在 tabular 和 Atari 游戏测试中取得了较好的效果。