从单次演示中学习 Montezuma's Revenge
本文介绍了一种通用的子目标类别,应用于端到端层次强化学习系统中,可用于处理含有稀疏奖励的Montezuma的复仇等Atari游戏。该方法引入了一组时间扩展行动,或选项,以及对应的子目标。
May, 2017
使用回放数据引导的深度强化学习在稀疏奖励任务中往往表现不佳,本研究提出一种使用不同来源的杂乱视频进行一次性模仿学习的方法,在多个著名游戏中实现真人游戏水平以上的表现。
May, 2018
在本文中,我们提出了一个算法,它能够解决深度强化学习在Atari游戏集上遇到的三个关键难题,包括处理不同密度和规模的奖励分布、思考长时间序列以及有效地探索,该算法超过了人类在40个游戏上的表现,其中包括 Montezuma's Revenge 的第一关。
May, 2018
提高样本效率是模型自由强化学习中的一个挑战,本文提出了一种名为Backplay的方法,利用单个演示构建任务的课程并以该演示的末端为起点进行训练,最终在可竞争方法中优化训练速度。
Jul, 2018
本文提出了一种基于最近的经验的无模型子目标发现方法和内在动机学习机制相结合的层次强化学习方法,可以应用于大规模的问题,实现了对环境模型的无需获取,用于解决强化学习面临的巨大状态空间和稀疏奖励反馈的问题。
Oct, 2018
采用记忆、回归与模拟学习等技术结合的算法Go-Explore在复杂探索问题上有了显著提高,打破了Montezuma's Revenge甚至超越了Pitfall的人类高分纪录,为强化学习领域提供了新思路。
Jan, 2019
本文提出了一种基于轨迹条件的策略学习方法,通过从内存缓冲区中展开多种多样的过去轨迹,可帮助策略创造者更好地探索状态空间,并在各种复杂任务中显著提高模型性能。(本方法可以不用专家演示或将模型重置为任意状态,在 Atari 游戏Montezuma's Revenge和Pitfall的五十亿帧内取得了最先进的得分)
Jul, 2019
在使用Rainbow算法的情况下,通过给予不同的激励奖励来比较不同探索算法在《蒙特祖玛的复仇》等难度大的游戏中的性能影响,结果表明这些新算法并没有显著的提高性能,在一些不需要探索的游戏中甚至表现更差。
Aug, 2019
本篇论文提出了一种基于强化学习和UVFA框架的方法,通过学习一系列定向的探索策略来解决难以探索的游戏,并使用轨迹存储和kNN算法来构造一种内在奖励信号,以影响策略的学习方式,并在Atari-57游戏套件中得到了很好的表现结果。
Feb, 2020
研究强化学习探索,特别是在 Atari 2600 游戏中探索 Montezuma's Revenge 等困难问题中,通过探索奖励增强等方法,评估其性能表现,其在 Montezuma's Revenge 游戏方面表现出更高的得分,但在简单探索 Atari 2600 游戏方面表现不出色,而最近关于 Montezuma's Revenge 的进展可能更多地归因于架构变化,而不是更好的探索计划。
Sep, 2021