Action Q-Transformer：使用动作查询的编码器 - 解码器模型进行深度强化学习的视觉解释

Jun, 2023

Action Q-Transformer：使用动作查询的编码器 - 解码器模型进行深度强化学习的视觉解释

Action Q-Transformer: Visual Explanation in Deep Reinforcement Learning with Encoder-Decoder Model using Action Query

Hidenori Itaya, Tsubasa Hirakawa, Takayoshi Yamashita, Hironobu Fujiyoshi, Komei Sugiura

TL;DR本文提出了一种基于 Q-learning 的深度强化学习方法 ——Action Q-Transformer (AQT)，它引入了一个 Transformer 编码器 - 解码器结构来实现对代理决策的高度可解释性。我们利用 AQT 在 Atari 游戏任务中实现了代理的决策详细分析，并通过实验结果证明了该方法在某些游戏中可以实现比基线更高的性能。

Abstract

The excellent performance of transformer in supervised learning has led to growing interest in its potential application to deep reinforcement learning (DRL) to achieve high performance on a wide variety of probl

transformer deep reinforcement learning action q-transformer attentions interpretability

发现论文，激发创造

用深度 Transformer Q 网络进行部分可观察强化学习

本文提出了一种基于 Transformer 和自注意力机制的全新架构 Deep Transformer Q-Networks（DTQN），可用于处理强化学习中的局部可见性、记忆和训练困难等问题，实验结果表明该模型相较于传统的循环神经网络方式在处理局部可视化任务时更加快速和稳定。

Jun, 2022

决策变压器：通过序列建模的强化学习

本文基于序列建模思路，提出一种将强化学习抽象为序列建模问题的框架，使用 Transformer 架构和相关的语言建模技术（如 GPT-x 和 BERT）来解决增强学习任务，其中提出的 Decision Transformer 模型可以通过自回归模型来输出未来的动作并获得预期回报，其性能在 Atari、OpenAI Gym 和 Key-to-Door 等实验中达到了业界领先水平。

Jun, 2021

对话行为感知 Transformer 用于对话策略学习

利用预训练语言模型的纯文本知识，加速强化学习代理的学习速度，并通过探索对话行为空间最大化长期累积奖励，提出了一种对话行为感知的变压器编码器（DaTrans）。该模型通过在模拟器和人类评估中的验证展示了其有效性和高效性。

Sep, 2023

Q-Learning 的稳定 Transformer-based 动作序列生成

本文提出了一种基于 Transformer 的 Deep Q-Learning 方法，该方法在稳定性和 Atari 基准方面表现良好，并为探究 Transformer 与强化学习之间的关系提供了额外见解。

Oct, 2020

Q-Transformer: 基于自回归 Q 函数的可扩展离线强化学习

本文介绍了一种用于训练多任务策略的可扩展强化学习方法，该方法可以利用人类示范和自主收集的数据。通过使用 Transformer 作为 Q 函数的可扩展表示方法，并应用于离线时间差分备份的训练中，我们称之为 Q-Transformer。通过将每个动作维度离散化并将每个动作维度的 Q 值表示为单独的标记，我们可以应用有效的高容量序列建模技术进行 Q 学习。我们还提出了几个设计决策，使得 Q-Transformer 在离线强化学习训练中表现出良好性能，并且在大型多样的真实世界机器人操纵任务套件上，Q-Transformer 优于先前的离线强化学习算法和模仿学习技术。项目的网站和视频可在此 URL 找到。

Sep, 2023

深度强化学习生成文本

提出了一种基于深度强化学习（Deep Q-Network, DQN）的序列到序列学习中，通过迭代的方式对输出序列进行解码的新型模式，旨在使解码器优先处理较为容易的序列部分，然后再处理较为困难的部分。

Oct, 2015

在令牌世界中学习玩 Atari 游戏

基于模型的增强学习代理利用变换器已经显示出更好的样本效率，因为它们能够对扩展的上下文进行建模，从而得到更准确的世界模型。然而，对于复杂的推理和规划任务，这些方法主要依赖于连续表示，这使得对实际世界的离散属性，例如不可插值的不相交对象类的建模变得复杂。在这项工作中，我们引入了基于变换器学习的离散抽象表示（DART），一种利用离散表示对世界和学习行为进行建模的样本高效方法。我们通过包含变换器 - 解码器进行自回归世界建模，并通过注意到世界模型的离散表示中与任务相关的线索进行学习行为的变换器编码器。为了处理部分可观测性，我们将过去时刻的信息作为记忆令牌进行聚合。DART 在 Atari 100k 样本效率基准测试中表现优于先前的最先进方法，具有 0.790 的中位人类标准化分数，并在 26 个游戏中击败了人类。我们在此 https URL 上发布我们的代码。

Jun, 2024

离线强化学习的多目标决策 Transformer

离线强化学习以多目标优化问题的形式重新定义为序列建模任务，引入动作空间区域以解决变换模型的关注机制在输入上分配变化注意权重的潜在问题。实验证明这些提议使得变换模型更有效地利用关注机制，达到或超过当前最先进方法的性能。

Aug, 2023

深度关注递归 Q 网络

通过深度强化学习方法，利用软、硬注意力机制的扩展 DQN 算法，以 Atari 游戏为测试模型，表明其性能优于 DQN，并且内置的注意机制使得可以直接监控训练过程。

Dec, 2015

通过层次强化学习重新思考决策 Transformer

决策 Transformer 是一种创新算法，利用了转换器架构在强化学习中的最新进展；我们提出一个序列建模框架来研究通过分层强化学习进行顺序决策的方法，并展示了 DT 作为该框架的一个特例，同时讨论了潜在的失败选择；受到这些观察的启发，我们研究了如何联合优化高层和低层策略以实现拼接能力，从而进一步发展了新的离线强化学习算法；我们的实证结果清楚地表明，所提出的算法在多个控制和导航基准测试中明显优于 DT；我们希望我们的贡献可以在强化学习领域中推动转换器架构的整合。

Nov, 2023