MinAtar: 一个基于Atari的测试平台,用于进行彻底和可重现的强化学习实验
该论文介绍了Arcade Learning Environment(ALE),这是一个既是挑战问题又是平台和方法论,用于评估通用、域无关的人工智能技术的发展。ALE提供了与数百种Atari 2600游戏环境的接口,每个环境都不同、有趣且旨在挑战人类玩家。ALE为强化学习、模型学习、基于模型的规划、仿真学习、迁移学习和内在动机提供了重大的研究挑战,并提供了一个严格的测试平台,用于评估和比较这些问题的方法。
Jul, 2012
本文介绍了一种使用卷积神经网络和增强学习从高维感知输入中直接学习控制策略的深度学习模型,并将其应用于七个 Atari 2600 游戏中,发现在 6 个游戏上优于以往的方法,在其中三个游戏中超过了人类专家。
Dec, 2013
这篇文章提出了一种使用深度强化学习来学习玩最困难的Atari 2600游戏的新方法,即基于人类游戏经验的检查点回放,并使用卷积神经网络作为模型,其结果显著优于先前的学习方法和随机玩家,同时提出了一种使用人类游戏经验来训练深度强化学习智能体的方法。
Jul, 2016
该文章探讨了 Arcade Learning Environment(ALE) 作为评估平台对研究社区的影响,并重点说明在该平台中评估代理时的一些核心问题。此外,该文章还提出了一些研究方法的最佳实践,并介绍了一个支持多种游戏模式的新版本 ALE,提供了一种被称为粘性操作的随机性。
Sep, 2017
在本文中,我们提出了一个算法,它能够解决深度强化学习在Atari游戏集上遇到的三个关键难题,包括处理不同密度和规模的奖励分布、思考长时间序列以及有效地探索,该算法超过了人类在40个游戏上的表现,其中包括 Montezuma's Revenge 的第一关。
May, 2018
这篇文章介绍了基于视频预测模型的 Simulated Policy Learning 方法,该方法通过在仅与环境交互 100k 次(两小时实时游戏)的情况下,在多个 Atari 游戏中实现比现有的基于模型无关的方法更好的表现。
Mar, 2019
DreamerV2是一种基于world models且在离线的训练集上通过reinforcement learning进行策略(即行为)学习的智能体,用于通过对compact latent space进行预测,实现从Atari游戏或连续动作任务的图像输入中进行行为学习的高效模型,实现了在55个任务中的human-level的性能,获得了与IQN和Rainbow类似的结果。
Oct, 2020
本研究提出一种选择典型游戏子集的方法,将该方法应用于Arcade Learning Environment并成功地从57个游戏中选出一个仅包含5个游戏的子集(称为Atari-5),该子集产生的分数估计准确率高并能很好地充分代表所有游戏的性能表现。同时,该研究还发现ALE中很多游戏之间存在高度相关性。
Oct, 2022
基于模型的增强学习代理利用变换器已经显示出更好的样本效率,因为它们能够对扩展的上下文进行建模,从而得到更准确的世界模型。然而,对于复杂的推理和规划任务,这些方法主要依赖于连续表示,这使得对实际世界的离散属性,例如不可插值的不相交对象类的建模变得复杂。在这项工作中,我们引入了基于变换器学习的离散抽象表示(DART),一种利用离散表示对世界和学习行为进行建模的样本高效方法。我们通过包含变换器-解码器进行自回归世界建模,并通过注意到世界模型的离散表示中与任务相关的线索进行学习行为的变换器编码器。为了处理部分可观测性,我们将过去时刻的信息作为记忆令牌进行聚合。DART在Atari 100k样本效率基准测试中表现优于先前的最先进方法,具有0.790的中位人类标准化分数,并在26个游戏中击败了人类。我们在此https URL上发布我们的代码。
Jun, 2024
通过引入可控的新奇性,我们在Atari Learning Environment这一最常见的强化学习基准中提出了HackAtari框架,以增强强化学习算法的鲁棒性和行为一致性。
Jun, 2024