仔细观察：在Atari上实现一致的性能表现

May, 2018

仔细观察：在Atari上实现一致的性能表现

Observe and Look Further: Achieving Consistent Performance on Atari

Tobias Pohlen, Bilal Piot, Todd Hester, Mohammad Gheshlaghi Azar, Dan Horgan...

TL;DR在本文中，我们提出了一个算法，它能够解决深度强化学习在Atari游戏集上遇到的三个关键难题，包括处理不同密度和规模的奖励分布、思考长时间序列以及有效地探索，该算法超过了人类在40个游戏上的表现，其中包括 Montezuma's Revenge 的第一关。

Abstract

Despite significant advances in the field of deep reinforcement learning (RL), today's algorithms still fail to learn human-level policies consistently over a set of diverse tasks such as Atari 2600 games. We identify three key challenges that any algorithm needs to master in order to

发现论文，激发创造

使用深度强化学习玩Atari游戏

本文介绍了一种使用卷积神经网络和增强学习从高维感知输入中直接学习控制策略的深度学习模型，并将其应用于七个 Atari 2600 游戏中，发现在 6 个游戏上优于以往的方法，在其中三个游戏中超过了人类专家。

Dec, 2013

使用深度强化学习和人类检查点重现玩雅达利游戏

这篇文章提出了一种使用深度强化学习来学习玩最困难的Atari 2600游戏的新方法，即基于人类游戏经验的检查点回放，并使用卷积神经网络作为模型，其结果显著优于先前的学习方法和随机玩家，同时提出了一种使用人类游戏经验来训练深度强化学习智能体的方法。

Jul, 2016

Atari大挑战数据集

本文提出了一种减少数据使用量的方法，即利用人类示范数据对强化学习模型进行训练，在此基础上，作者基于Atari 2600回放数据集，发现示范数据的质量和模型的模仿学习性能之间有着密切关联，为进一步拓展该方法提供了研究方向。

May, 2017

在Atari中从人类偏好和演示中进行奖励学习

本研究使用深度神经网络进行强化学习，将人工反馈的目标作为奖励函数输入，并结合了专家演示与轨迹优先学习两种方法。实验在 9 个 Atari 游戏中超越了模仿学习的基线，并在其中 2 个游戏中获得了超人的表现，同时研究了奖励模型拟合度、奖励篡改问题和人类标签噪声的影响。

Nov, 2018

从单次演示中学习 Montezuma's Revenge

提出了一种新的利用单一示范来学习解决Montezuma's Revenge等复杂探索任务的方法，该方法通过最大化奖励来训练代理，缩短了学习时间，降低了任务复杂度。

Dec, 2018

基于模型的Atari强化学习

这篇文章介绍了基于视频预测模型的 Simulated Policy Learning 方法，该方法通过在仅与环境交互 100k 次（两小时实时游戏）的情况下，在多个 Atari 游戏中实现比现有的基于模型无关的方法更好的表现。

Mar, 2019

MinAtar: 一个基于Atari的测试平台，用于进行彻底和可重现的强化学习实验

MinAtar是一个类Atari的环境，用于研究强化学习智能体中涉及行为挑战的问题，其简化了表示学习的问题并提供了更少的计算，以便研究人员能够更细致地研究行为挑战。

Mar, 2019

深度强化学习在Atari上真的超越人类了吗？平衡竞技场

介绍了 SABER 工具以及 human world records baseline, 通过 SABER 对当前最先进的 Rainbow 项目进行了评估，通过将 Implicit Quantile Networks 添加到 Rainbow 中提出了 Rainbow-IQN 算法用于提高性能。

Aug, 2019

Agent57：超越 Atari 人类基准

本文提出了Agent57，这是第一个在57个Atari游戏中超越人类水平的深度强化学习智能体，该智能体通过训练一个神经网络来参数化从探索性到完全利用性的一系列策略，并提出了一种自适应机制来选择优先考虑哪种策略。此外，我们还利用一种新颖的架构参数化形式，使得学习更加一致和稳定。

Mar, 2020

关于补贴驱动的 Arcade 学习环境中的探索方法

研究强化学习探索，特别是在 Atari 2600 游戏中探索 Montezuma's Revenge 等困难问题中，通过探索奖励增强等方法，评估其性能表现，其在 Montezuma's Revenge 游戏方面表现出更高的得分，但在简单探索 Atari 2600 游戏方面表现不出色，而最近关于 Montezuma's Revenge 的进展可能更多地归因于架构变化，而不是更好的探索计划。

Sep, 2021