关于 Transformer 模型的长程能力

Nov, 2023

On the Long Range Abilities of Transformers

Itamar Zimerman, Lior Wolf

TL;DR通过对 Transformer 架构进行最小的修改，引入长距离任务的归纳偏差、位置性等重要特性以提升性能，并为成功捕捉长距离依赖关系确定了关键属性。

Abstract

Despite their dominance in modern DL and, especially, NLP domains, transformer architectures exhibit sub-optimal performance on long-range tasks compared to recent layers that are specifically designed for this p

transformer architectures long-range tasks performance enhancement inductive bias attention mechanism

发现论文，激发创造

长程变压器的自然语言处理任务效率

比较研究了多种 Transformer 模型的性能，发现长序列的改进版本在内容选择和查询引导解码方面有优势，但在处理远距离的信息和近似误差上有欠缺的地方。

Feb, 2022

长距竞技场：一个高效 Transformer 算法的基准测试

本论文提出了一个系统和统一的基准测试，名为 LRA，专门评估长上下文下的模型质量，其中系统地评估了十个成熟的长范围 Transformer 模型，为更好地理解高效 Transformer 模型铺平了道路，并提出了新的具有挑战性的任务。

Nov, 2020

Transformer 是否需要深度长程记忆

通过一系列干预措施，研究表明使用更少的长时记忆和限制网络低层的注意力范围，可以实现与 Transformer-XL 相当的性能，并且可以获得更好的性能。

Jul, 2020

带长短范围注意力的轻量 Transformer

本文提供了一种高效的移动 NLP 架构 —— Lite Transformer，它通过使用 Long-Short Range Attention 来进行本地上下文建模与长距离关系建模的特化，从而在机器翻译、摘要生成和语言建模三个方面均优于 vanilla transformer，并且在受到硬件资源限制的条件下，Lite Transformer 在 WMT'14 英法任务上均优于 Transformer。此外，对该模型进行修剪与量化等操作可以将模型体积进一步压缩 18.2 倍，而在 500M MACs 的计算量下，Lite Transformer 的困惑度比 Transformer 低 1.8。

Apr, 2020

长程语言模型是否实际上使用了长程上下文？

该研究分析了两个能够接受高达 8K Token 的长文本转换器语言模型，发现将长距离上下文提供给这些模型只会在少数 Token 上提高其预测能力（例如可以从远处文本中复制的 Token），对于句子级别的预测任务没有任何帮助；并且长范围上下文对文学小说的帮助最大。

Sep, 2021

高效远程 Transformer：你需要参与更多，但不一定是每一层

提出了一种名为 MASFormer 的变种 Transformer 模型，它通过混合的注意力机制在处理长序列数据时既能捕捉到长距离依赖关系，又能在其余层使用稀疏注意力提高计算效率。实验结果表明，该模型在自然语言建模和生成任务中能够达到与全注意力的 Transformer 模型相媲美的性能，同时显著降低计算成本（多达 75%），并对长序列数据的持续训练和序列长度对下游生成任务的影响进行了研究。

Oct, 2023

循环线性变换

通过引入循环替代方案以解决 transformer 自注意机制中的两个局限，本文提出了一种能够以较低成本进行推理并有效利用长程依赖的 transformer 自注意机制替代方法，在强化学习问题中实现了性能的提升。

Oct, 2023

双向长程解析器用于顺序数据理解

本研究提出了 BLRP（双向长距离解析器），这是一种新颖且多功能的注意机制，旨在增强长序列任务的性能和效率，并通过在视觉和语言领域展示了竞争性结果来展示我们方法的优点和多功能性。

Apr, 2024

强化学习中的 Transformer 稳定化

在自然语言处理领域得到了突破性的成功后，本文提出一种修改后的” 转换器” 架构，即门控 Transformer-XL (GTrXL)，在部分可观察的强化学习 RL 领域中实现了与竞争性 LSTM 基线相媲美的稳定性和性能，超过了 LSTM 并在多任务 DMLab-30 基准套件上取得了最新的成果。

Oct, 2019

XNOR-FORMER: 长语音 Transformer 准确近似学习

本研究开发出一种新型的线性变压器，通过检验自我关注中关键查询产品的特性，发现其在语音识别和语音摘要方面优于现有的方法。

Oct, 2022