ICLRAug, 2019

基于奖励的探索方法在 Arcade Learning Environment 上的基准测试

TL;DR在使用 Rainbow 算法的情况下,通过给予不同的激励奖励来比较不同探索算法在《蒙特祖玛的复仇》等难度大的游戏中的性能影响,结果表明这些新算法并没有显著的提高性能,在一些不需要探索的游戏中甚至表现更差。