Transformers 在强化学习任务中的优势：将记忆与信用分配解耦

Jul, 2023

Transformers 在强化学习任务中的优势：将记忆与信用分配解耦

When Do Transformers Shine in RL? Decoupling Memory from Credit Assignment

Tianwei Ni, Michel Ma, Benjamin Eysenbach, Pierre-Luc Bacon

TL;DR通过对记忆长度和信用分配长度的定义，并设计简单可配置的任务来衡量这些不同的量，我们的实证结果揭示了 Transformers 可以增强 RL 算法的记忆能力，可以扩展到需要记住 1500 个步骤之前观察的任务，但 Transformers 并不改善长期信用分配。总之，我们的结果解释了 Transformers 在 RL 中的成功原因，同时也凸显了未来研究和基准设计的重要领域。

Abstract

reinforcement learning (RL) algorithms face two distinct challenges: learning effective representations of past and present observations, and determining how actions influence future returns. Both challenges involve modeling long-term dependencies. The →

reinforcement learning transformer architecture memory capacity credit assignment long-term dependencies

发现论文，激发创造

变形金刚是元强化学习算法

本文介绍了 TrMRL，这是一种运用 Transformer 架构的基于元强化学习的代理（Meta-Reinforcement Learning Algorithm），它结合了最近的工作内存以递归方式构建情境记忆，并利用 self-attention 机制计算和提供有意义的特征以执行最佳任务。研究表明，在高维连续控制环境下，TrMRL 相对于基线模型表现出了相当或优异的收敛性能、采样效率和超出分布范围的概况。

Jun, 2022

强化学习中的 Transformers：综述

本文介绍了 transformers 在 reinforcement learning 中的应用，包括表示学习、转移和奖励函数建模，策略优化等多个方面，并讨论了可视化技术和高效训练策略的应用，以提高 transformers 的解释性和效率。同时，讨论了 transformers 在不同领域的应用以及在 reinforcement learning 中的局限性和潜在突破。

Jul, 2023

强化学习中的 Transformer 稳定化

在自然语言处理领域得到了突破性的成功后，本文提出一种修改后的” 转换器” 架构，即门控 Transformer-XL (GTrXL)，在部分可观察的强化学习 RL 领域中实现了与竞争性 LSTM 基线相媲美的稳定性和性能，超过了 LSTM 并在多任务 DMLab-30 基准套件上取得了最新的成果。

Oct, 2019

Transformer 是否需要深度长程记忆

通过一系列干预措施，研究表明使用更少的长时记忆和限制网络低层的注意力范围，可以实现与 Transformer-XL 相当的性能，并且可以获得更好的性能。

Jul, 2020

强化学习中 Transformer 的调研

本文系统回顾了使用 Transformer 在强化学习领域的动机和进展，提供了现有工作的分类，讨论了每个子领域，并总结了未来的发展前景。

Jan, 2023

Q-Learning 的稳定 Transformer-based 动作序列生成

本文提出了一种基于 Transformer 的 Deep Q-Learning 方法，该方法在稳定性和 Atari 基准方面表现良好，并为探究 Transformer 与强化学习之间的关系提供了额外见解。

Oct, 2020

循环线性变换

通过引入循环替代方案以解决 transformer 自注意机制中的两个局限，本文提出了一种能够以较低成本进行推理并有效利用长程依赖的 transformer 自注意机制替代方法，在强化学习问题中实现了性能的提升。

Oct, 2023

决策变压器：通过序列建模的强化学习

本文基于序列建模思路，提出一种将强化学习抽象为序列建模问题的框架，使用 Transformer 架构和相关的语言建模技术（如 GPT-x 和 BERT）来解决增强学习任务，其中提出的 Decision Transformer 模型可以通过自回归模型来输出未来的动作并获得预期回报，其性能在 Atari、OpenAI Gym 和 Key-to-Door 等实验中达到了业界领先水平。

Jun, 2021

关于 Transformer 模型的长程能力

通过对 Transformer 架构进行最小的修改，引入长距离任务的归纳偏差、位置性等重要特性以提升性能，并为成功捕捉长距离依赖关系确定了关键属性。

Nov, 2023

通过传输价值优化长时间尺度下的代理行为

本文提出一种新的强化学习范式，利用记忆回忆特定事件来赋予过去行动以荣誉，解决了过去人工智能方法无法解决的问题，将为神经科学、心理学和行为经济学等领域提供计算机模型的机制解释。

Oct, 2018