学习解读 Atari 代理

Dec, 2018

Learn to Interpret Atari Agents

Zhao Yang, Song Bai, Li Zhang, Philip H.S. Torr

TL;DR本文提出了使用区域感知注意力机制的深度强化学习模型，其能够利用注意力模块学习输入域中的重要区域。在推理过程中，通过反向传播梯度可视化决策最为重要的区域。该模型不仅提高了模型的可解释性，而且也带来了性能的改进。在 Atari 2600 游戏测试中，取得了良好的实验结果。

Abstract

deep reinforcement learning (DeepRL) agents surpass human-level performance in many tasks. However, the direct mapping from states to actions makes it hard to interpret the rationale behind the decision-making of the agents. In contrast to previous a-posteriori methods for visualizing

deep reinforcement learning visualization attention module interpretability performance improvement

发现论文，激发创造

重新审视 Rainbow：促进更具启示性和包容性的深度强化学习研究

本文讨论在计算资源不足的情况下，重点研究小规模环境对于强化学习的科学洞见和降低贫困社区进入门槛的重要性，并通过更深入的研究 Rainbow 算法来证实此论点。

Nov, 2020

可视化及理解雅达利智能体

本文针对 Atari 2600 游戏环境的深度强化学习智能体，通过生成显著图以及对其进行分析，揭示了强化学习智能体学习和执行策略的方式，并且在测试了普通人的行为决策时，证明了该方法的有效性。

Oct, 2017

PG-Rainbow：在策略梯度方法中应用分布式强化学习

利用 PG-Rainbow 算法，在分布式强化学习框架中整合策略梯度算法，通过使用含有奖励分布信息的隐式分位网络，使策略代理能够全面评估给定状态下潜在动作的后果，提升决策能力。在 Atari-2600 游戏套件（通过 Arcade Learning Environment 模拟）中评估了该算法的性能。

Jul, 2024

深度强化学习在 Atari 上真的超越人类了吗？平衡竞技场

介绍了 SABER 工具以及 human world records baseline, 通过 SABER 对当前最先进的 Rainbow 项目进行了评估，通过将 Implicit Quantile Networks 添加到 Rainbow 中提出了 Rainbow-IQN 算法用于提高性能。

Aug, 2019

推广软演员 - 评论算法至离散动作空间

ATARI 是一套用于强化学习研究的视频游戏，通过接收像素和游戏得分等信息，代理人学会了开发复杂策略，甚至可媲美专业人类游戏测试员。本文通过提出一种实际的离散型软策略 - 评论家算法（SAC）的变体，在先进的 Rainbow 变体 BBF 中进行离策略学习，从而将国际四分位数均值（IQM）从 1.045 提高到 1.088，仅使用回放比例（RR）为 2，训练时间严格为 BBF 的三分之一。作为 IQM 大于 1 表示超人类表现水平的值，SAC-BBF 也是唯一仅使用 RR 2 达到超人类水平的无模型算法。

Jul, 2024

深度无模型强化学习中的感知学习

本文提出了一个用于强化学习（RL）的新型无模型代理人，从视觉关注和主动感知的概念中受到启发，将人类注意力机制应用于代理人，创建了一种硬式关注机制，结合了 RAM 模型和 PPO 算法，在两个 Atari 游戏中比较其性能，结果表明我们的模型能够匹配 PPO+LSTM 的表现。

Jan, 2023

关系深度强化学习

通过结构化感知和关系推理的方法，使用自我注意力来进行实体之间关系的迭代推理以及指导无模型策略的建立，提高了强化学习的效率、泛化能力和可解释性，并在 Box-World 任务和 StarCraft II Learning Environment 等方面取得了一定的进展。

Jun, 2018

使用深度强化学习玩 Atari 游戏

本文介绍了一种使用卷积神经网络和增强学习从高维感知输入中直接学习控制策略的深度学习模型，并将其应用于七个 Atari 2600 游戏中，发现在 6 个游戏上优于以往的方法，在其中三个游戏中超过了人类专家。

Dec, 2013

使用深度强化学习玩射击游戏

本研究提出了一种融合游戏特征信息的深度强化学习神经网络模型，其能够在处理 3D FPS 游戏的部分可观察状态下显著提高训练效率和性能。

Sep, 2016

深度关注递归 Q 网络

通过深度强化学习方法，利用软、硬注意力机制的扩展 DQN 算法，以 Atari 游戏为测试模型，表明其性能优于 DQN，并且内置的注意机制使得可以直接监控训练过程。

Dec, 2015