ICLRAug, 2019
基于奖励的探索方法在 Arcade Learning Environment 上的基准测试
Benchmarking Bonus-Based Exploration Methods on the Arcade Learning Environment
Adrien Ali Taïga, William Fedus, Marlos C. Machado, Aaron Courville, Marc G. Bellemare
TL;DR在使用 Rainbow 算法的情况下,通过给予不同的激励奖励来比较不同探索算法在《蒙特祖玛的复仇》等难度大的游戏中的性能影响,结果表明这些新算法并没有显著的提高性能,在一些不需要探索的游戏中甚至表现更差。