强化学习中的 Transformer 稳定化

Oct, 2019

Stabilizing Transformers for Reinforcement Learning

Emilio Parisotto, H. Francis Song, Jack W. Rae, Razvan Pascanu, Caglar Gulcehre...

TL;DR在自然语言处理领域得到了突破性的成功后，本文提出一种修改后的” 转换器” 架构，即门控 Transformer-XL (GTrXL)，在部分可观察的强化学习 RL 领域中实现了与竞争性 LSTM 基线相媲美的稳定性和性能，超过了 LSTM 并在多任务 DMLab-30 基准套件上取得了最新的成果。

Abstract

Owing to their ability to both effectively integrate information over long time horizons and scale to massive amounts of data, self-attention architectures have recently shown breakthrough success in natural language processing (NLP), achieving state-of-the-art results in domains such as language modeling and machine translation. Harnessing the transformer's

self-attention architectures natural language processing partially observable reinforcement learning gated transformer-xl lstms

发现论文，激发创造

循环线性变换

通过引入循环替代方案以解决 transformer 自注意机制中的两个局限，本文提出了一种能够以较低成本进行推理并有效利用长程依赖的 transformer 自注意机制替代方法，在强化学习问题中实现了性能的提升。

Oct, 2023

Q-Learning 的稳定 Transformer-based 动作序列生成

本文提出了一种基于 Transformer 的 Deep Q-Learning 方法，该方法在稳定性和 Atari 基准方面表现良好，并为探究 Transformer 与强化学习之间的关系提供了额外见解。

Oct, 2020

变形金刚是元强化学习算法

本文介绍了 TrMRL，这是一种运用 Transformer 架构的基于元强化学习的代理（Meta-Reinforcement Learning Algorithm），它结合了最近的工作内存以递归方式构建情境记忆，并利用 self-attention 机制计算和提供有意义的特征以执行最佳任务。研究表明，在高维连续控制环境下，TrMRL 相对于基线模型表现出了相当或优异的收敛性能、采样效率和超出分布范围的概况。

Jun, 2022

强化学习中 Transformer 的调研

本文系统回顾了使用 Transformer 在强化学习领域的动机和进展，提供了现有工作的分类，讨论了每个子领域，并总结了未来的发展前景。

Jan, 2023

强化学习中的 Transformers：综述

本文介绍了 transformers 在 reinforcement learning 中的应用，包括表示学习、转移和奖励函数建模，策略优化等多个方面，并讨论了可视化技术和高效训练策略的应用，以提高 transformers 的解释性和效率。同时，讨论了 transformers 在不同领域的应用以及在 reinforcement learning 中的局限性和潜在突破。

Jul, 2023

Transformer 是否需要深度长程记忆

通过一系列干预措施，研究表明使用更少的长时记忆和限制网络低层的注意力范围，可以实现与 Transformer-XL 相当的性能，并且可以获得更好的性能。

Jul, 2020

关注多层感知器

本文提出了一种基于 MLP 的简单网络架构 gMLP，与 Transformer 一样，在关键的自然语言处理和计算机视觉应用中表现不亚于 Transformer。同时，作者进行比较表明，自注意力（self-attention）不是视觉 Transformer 的关键，因为 gMLP 可以实现相同的准确性。}

May, 2021

Transformer-XL: 超越固定长度上下文的关注式语言模型

提出了一种名为 Transformer-XL 的神经架构，它能够在语言模型的设定中超越固定长度的依赖关系，并且不会破坏时间上的一致性。通过分段级别的循环机制和一种新颖的位置编码方案，Transformer-XL 不仅能够捕捉更长期的依赖关系，而且还解决了上下文破碎问题。在评估期间，它的速度比普通的 Transformers 要快 1,800 多倍，并且在短序列和长序列上表现更好。实验结果显示，在多个语料库上，Transformer-XL 都比目前的最先进结果表现要好。

Jan, 2019

基于 Transformer 的世界模型需要 100k 次交互

使用变换器对真实世界情节进行自回归处理，生成有意义、新的经历，进而训练超越之前强化学习算法的策略。

Mar, 2023

硬件高效训练的门控线性注意力变换器

通过引入数据依赖的门控机制，我们开发了一种硬件高效的并行形式，使得门控线性注意力（GLA）Transformers 在适度规模的语言建模中表现竞争力，并在训练速度上与基于 CUDA 优化的 FlashAttention-2 相媲美。

Dec, 2023