采用记忆、回归与模拟学习等技术结合的算法 Go-Explore 在复杂探索问题上有了显著提高,打破了 Montezuma's Revenge 甚至超越了 Pitfall 的人类高分纪录,为强化学习领域提供了新思路。
Jan, 2019
研究强化学习探索,特别是在 Atari 2600 游戏中探索 Montezuma's Revenge 等困难问题中,通过探索奖励增强等方法,评估其性能表现,其在 Montezuma's Revenge 游戏方面表现出更高的得分,但在简单探索 Atari 2600 游戏方面表现不出色,而最近关于 Montezuma's Revenge 的进展可能更多地归因于架构变化,而不是更好的探索计划。
Sep, 2021
使用回放数据引导的深度强化学习在稀疏奖励任务中往往表现不佳,本研究提出一种使用不同来源的杂乱视频进行一次性模仿学习的方法,在多个著名游戏中实现真人游戏水平以上的表现。
May, 2018
在使用 Rainbow 算法的情况下,通过给予不同的激励奖励来比较不同探索算法在《蒙特祖玛的复仇》等难度大的游戏中的性能影响,结果表明这些新算法并没有显著的提高性能,在一些不需要探索的游戏中甚至表现更差。
Aug, 2019
这篇文章提出了一种使用深度强化学习来学习玩最困难的 Atari 2600 游戏的新方法,即基于人类游戏经验的检查点回放,并使用卷积神经网络作为模型,其结果显著优于先前的学习方法和随机玩家,同时提出了一种使用人类游戏经验来训练深度强化学习智能体的方法。
Jul, 2016
本篇论文提出了一种基于强化学习和 UVFA 框架的方法,通过学习一系列定向的探索策略来解决难以探索的游戏,并使用轨迹存储和 kNN 算法来构造一种内在奖励信号,以影响策略的学习方式,并在 Atari-57 游戏套件中得到了很好的表现结果。
Feb, 2020
本研究利用示范来解决强化学习中稀疏奖励的探索问题,成功地学习了长期、多步骤的机器人任务,方法使用了 DDPG 和 HER 算法,提供了一种在仿真机器人任务上比以往 RL 算法快一个数量级的加速,方法易于实现,能够解决在行为克隆和 RL 算法中 都无法解决的任务,并且往往表现优于示范策略。
Sep, 2017
我们结合深度强化学习和现有的模型基础方法,使用由专家提供的状态抽象来解决长视野、稀疏奖励和高维输入的问题。我们的抽象方法在 Montezuma's Revenge 等领域比深度 Q 网络表现更好,并呈现出在以前方法中不存在的回溯行为。
Oct, 2017
该研究介绍了第一个深度强化学习代理,利用自然语言指令学习打败 Ataria 游戏。代理人利用环境观察和自然语言之间的多模态嵌入来自我监控进度,并通过完成自然语言指令来获得奖励。该代理人在 Montezuma's Revenge 环境上显著优于其他代理人。
Apr, 2017
在本文中,我们提出了一个算法,它能够解决深度强化学习在 Atari 游戏集上遇到的三个关键难题,包括处理不同密度和规模的奖励分布、思考长时间序列以及有效地探索,该算法超过了人类在 40 个游戏上的表现,其中包括 Montezuma's Revenge 的第一关。