Sep, 2021
关于补贴驱动的 Arcade 学习环境中的探索方法
On Bonus-Based Exploration Methods in the Arcade Learning Environment
TL;DR研究强化学习探索,特别是在 Atari 2600 游戏中探索 Montezuma's Revenge 等困难问题中,通过探索奖励增强等方法,评估其性能表现,其在 Montezuma's Revenge 游戏方面表现出更高的得分,但在简单探索 Atari 2600 游戏方面表现不出色,而最近关于 Montezuma's Revenge 的进展可能更多地归因于架构变化,而不是更好的探索计划。