- 面向意图的层次强化学习
研究使用基于眼动的意图来自动生成子目标,从而提高深度强化学习代理的样本效率。该方法在 Atari 2600 游戏套件中的 Montezuma's Revenge 等长视程罕见奖励任务中得到了验证。
- 免细胞潜在探索
该论文利用学习到的潜在表示,引入了基于 “Go-Explore” 范例的 “潜在 Go-Explore”(LGE) 方法,该方法将普适应用于强化学习探索任务中,并在多个具有遥远探索难度的环境中展现比当下最佳算法更具鲁棒性和优异性能,例如 M - 关于补贴驱动的 Arcade 学习环境中的探索方法
研究强化学习探索,特别是在 Atari 2600 游戏中探索 Montezuma's Revenge 等困难问题中,通过探索奖励增强等方法,评估其性能表现,其在 Montezuma's Revenge 游戏方面表现出更高的得分,但在简单探索 - AAAIDeepSynth:深度强化学习中任务自动划分的自动机合成
DeepSynth 是一种有效训练深度强化学习代理的方法,可在奖励稀疏和非 Markovian 的情况下实现,同时也需要实现未知的高级目标序列。该方法利用合成紧凑自动机的新算法自动发现这种序列结构,并使用环境的跟踪数据合成一个可解释的自动机 - ICLR基于奖励的探索方法在 Arcade Learning Environment 上的基准测试
在使用 Rainbow 算法的情况下,通过给予不同的激励奖励来比较不同探索算法在《蒙特祖玛的复仇》等难度大的游戏中的性能影响,结果表明这些新算法并没有显著的提高性能,在一些不需要探索的游戏中甚至表现更差。
- Go-Explore:一种解决困难探索问题的新方法
采用记忆、回归与模拟学习等技术结合的算法 Go-Explore 在复杂探索问题上有了显著提高,打破了 Montezuma's Revenge 甚至超越了 Pitfall 的人类高分纪录,为强化学习领域提供了新思路。
- 从单次演示中学习 Montezuma's Revenge
提出了一种新的利用单一示范来学习解决 Montezuma's Revenge 等复杂探索任务的方法,该方法通过最大化奖励来训练代理,缩短了学习时间,降低了任务复杂度。
- 随机网络提炼的探索
通过引入基于神经网络的探索奖励机制并将内在和外在奖励进行灵活结合,该研究在探索性 Atari 游戏中显著提高了性能,特别是在 Montezuma 的复仇游戏中实现了优于平均人类水平的表现,并有时完成第一级别。
- 深度抽象 Q 网络
我们结合深度强化学习和现有的模型基础方法,使用由专家提供的状态抽象来解决长视野、稀疏奖励和高维输入的问题。我们的抽象方法在 Montezuma's Revenge 等领域比深度 Q 网络表现更好,并呈现出在以前方法中不存在的回溯行为。
- 层次强化学习中的特征控制作为内在动机
本文介绍了一种通用的子目标类别,应用于端到端层次强化学习系统中,可用于处理含有稀疏奖励的 Montezuma 的复仇等 Atari 游戏。该方法引入了一组时间扩展行动,或选项,以及对应的子目标。