通过观看YouTube玩耐心考验类游戏
这篇文章提出了一种使用深度强化学习来学习玩最困难的Atari 2600游戏的新方法,即基于人类游戏经验的检查点回放,并使用卷积神经网络作为模型,其结果显著优于先前的学习方法和随机玩家,同时提出了一种使用人类游戏经验来训练深度强化学习智能体的方法。
Jul, 2016
在本文中,我们提出了一个算法,它能够解决深度强化学习在Atari游戏集上遇到的三个关键难题,包括处理不同密度和规模的奖励分布、思考长时间序列以及有效地探索,该算法超过了人类在40个游戏上的表现,其中包括 Montezuma's Revenge 的第一关。
May, 2018
提出了一种新的利用单一示范来学习解决Montezuma's Revenge等复杂探索任务的方法,该方法通过最大化奖励来训练代理,缩短了学习时间,降低了任务复杂度。
Dec, 2018
采用记忆、回归与模拟学习等技术结合的算法Go-Explore在复杂探索问题上有了显著提高,打破了Montezuma's Revenge甚至超越了Pitfall的人类高分纪录,为强化学习领域提供了新思路。
Jan, 2019
本文提出了一种基于轨迹条件的策略学习方法,通过从内存缓冲区中展开多种多样的过去轨迹,可帮助策略创造者更好地探索状态空间,并在各种复杂任务中显著提高模型性能。(本方法可以不用专家演示或将模型重置为任意状态,在 Atari 游戏Montezuma's Revenge和Pitfall的五十亿帧内取得了最先进的得分)
Jul, 2019
本篇论文提出了一种基于强化学习和UVFA框架的方法,通过学习一系列定向的探索策略来解决难以探索的游戏,并使用轨迹存储和kNN算法来构造一种内在奖励信号,以影响策略的学习方式,并在Atari-57游戏套件中得到了很好的表现结果。
Feb, 2020
研究强化学习探索,特别是在 Atari 2600 游戏中探索 Montezuma's Revenge 等困难问题中,通过探索奖励增强等方法,评估其性能表现,其在 Montezuma's Revenge 游戏方面表现出更高的得分,但在简单探索 Atari 2600 游戏方面表现不出色,而最近关于 Montezuma's Revenge 的进展可能更多地归因于架构变化,而不是更好的探索计划。
Sep, 2021
BYOL-Explore通过优化单一预测损失,在潜在空间中学习世界表示、世界动态和探索策略,实现在视觉复杂环境下的好奇心驱动探索。此方法可有效解决部分可观察连续行动的具有挑战性的难度探索基准和Atari游戏等任务。
Jun, 2022
本文提出将内在动机与模仿学习相结合来优化探索行为,以解决在广泛应用的问题中由于奖励信号过于稀疏所带来的挑战,同时证明了在过程生成环境中,该方法可以取得优异的性能和更好的泛化能力,效率同等或更高。
Nov, 2022