本研究介绍了一个全面、大规模、与模拟器配对并包含人类示范的数据集 MineRL,该数据集涵盖了 Minecraft 中多个相关任务,其中有超过 6000 万个由自动注释的状态动作对,证明了该数据集的层次性、多样性和规模。该数据集有助于开展解决 Minecraft 研究挑战的技术研究。
Jul, 2019
本研究使用深度神经网络进行强化学习,将人工反馈的目标作为奖励函数输入,并结合了专家演示与轨迹优先学习两种方法。实验在 9 个 Atari 游戏中超越了模仿学习的基线,并在其中 2 个游戏中获得了超人的表现,同时研究了奖励模型拟合度、奖励篡改问题和人类标签噪声的影响。
Nov, 2018
这篇文章提出了一种使用深度强化学习来学习玩最困难的 Atari 2600 游戏的新方法,即基于人类游戏经验的检查点回放,并使用卷积神经网络作为模型,其结果显著优于先前的学习方法和随机玩家,同时提出了一种使用人类游戏经验来训练深度强化学习智能体的方法。
Jul, 2016
在本文中,我们提出了一个算法,它能够解决深度强化学习在 Atari 游戏集上遇到的三个关键难题,包括处理不同密度和规模的奖励分布、思考长时间序列以及有效地探索,该算法超过了人类在 40 个游戏上的表现,其中包括 Montezuma's Revenge 的第一关。
May, 2018
本文研究了使用非专家人类偏好来定义复杂目标的强化学习系统的方法,并且证明此方法可实现许多复杂的强化学习任务,包括 Atari 游戏和模拟机器人,同时也大幅降低了人类监督成本,以及展示了本方法的灵活性,并可成功使用较短时间完成复杂的新颖行为的训练,同时也采用了前人的人类反馈信息和环境。
Jun, 2017
利用 GPU 模拟技术和模仿学习指导策略搜索以使强化学习培训可在高维机器人手表现复杂控制问题的领域中成为可能,最终演示了并行强化学习和模仿学习的互补优势和优秀的验证结果。
Dec, 2022
通过使用小规模的人类演示来完成深度强化学习网络的预训练,可以更好地发现特征,并且可以使训练时间显著缩短,并可在 Atari 2600 游戏中实现。
Sep, 2017
本文提出了 Agent57,这是第一个在 57 个 Atari 游戏中超越人类水平的深度强化学习智能体,该智能体通过训练一个神经网络来参数化从探索性到完全利用性的一系列策略,并提出了一种自适应机制来选择优先考虑哪种策略。此外,我们还利用一种新颖的架构参数化形式,使得学习更加一致和稳定。
Mar, 2020
收集了 20 种不同 Atari 视频游戏中 117 小时的人类行为与眼动同时记录的大规模高质量数据集,引入了一种新形式的游戏玩法,演示了预测人类注视和模仿人类表现动作的应用,并证明指导学习中加入人类注视行为可以提高游戏性能,这凸显了在决策制定过程中加入人类视觉注意力的重要性与本数据集对视觉注意力、模仿学习和强化学习研究领域的价值。
Mar, 2019
本文介绍一种在高维视觉状态空间下学习动态系统和奖励函数的方法,将视觉帧预测的深度神经网络扩展为同时预测奖励,利用联合优化问题最小化奖励和视觉帧的重构误差,并在五个 Atari 游戏上经过实证评估,取得了高达 200 帧的准确累计奖励预测结果。
Nov, 2016