可长度推广的 Transformer

Dec, 2022

A Length-Extrapolatable Transformer

Yutao Sun, Li Dong, Barun Patra, Shuming Ma, Shaohan Huang...

TL;DR本文探讨了 Transformers 中的位置建模以及如何提高其对于长文本的预测能力，通过引入相对位置编码和块状因果注意力机制，可以有效提高模型的预测性能。

Abstract

position modeling plays a critical role in transformers. In this paper, we focus on length extrapolation, i.e., training on short texts while evaluating longer sequences. We define →

position modeling transformers attention resolution relative position embedding blockwise causal attention

发现论文，激发创造

注意力对齐和灵活位置嵌入改进了 Transformer 长度外推

提出两种通过温度缩放实现的注意力对齐策略，改善了 T5 在语言建模、检索和多文档问答中对长篇文本的应用能力，无需进行微调。

Nov, 2023

Transformer 长度外推：以位置编码为视角的调查

该研究论文对基于 Transformer 的预训练语言模型和长度外推问题进行了系统性的回顾，聚焦于可外推位置编码方法，旨在帮助读者深入理解已有方法并为未来研究提供启示。

Dec, 2023

使用带线性偏置的注意力机制实现输入长度的外推：训练时短、测试时长

本文提出 Attention with Linear Biases (ALiBi) 方法，拟合模型课以推广到更长的序列，并比多种其他方法在 WikiText-103 基准测试上表现更好。

Aug, 2021

感受野对齐实现 Transformer 长度外推

研究了相对位置嵌入在语言模型上的应用，提出了基于对齐假设的自注意力机制，在训练过程中对齐输入，在测试过程中保证了相对位置嵌入的性质。提出的 Sandwich positional embedding 将比训练序列更长的信息融入模型之中，且由于隐式窗口化的自注意力机制，其可实现高效的推断。

Dec, 2022

Transformer 外推的探索

通过数学和经验分析研究，本文发现某些类型的相对位置编码（RPE）允许长度外推，并从中得出两种实践方法用于语言建模任务，同时提出了一种新的理论接收域（TRF）用于测量 RPE 的接收域，并在多个数据集上进行了广泛实验以验证这些发现的有效性。

Jul, 2023

从插值到外推：算术 Transformer 的完全长度概括

通过实验和注意力分析，我们研究了 transformer 模型在学习算术算法（如加法和乘法）方面的固有能力，并确定了几个实现最佳长度泛化的关键因素。我们展示了 transformer 模型能够借助有针对性的注意力偏置来推广到长长度，并引入了注意力偏置校准（ABC）阶段，使模型能够自动学习适当的注意力偏置，我们将其与相对位置编码中的机制联系起来。我们证明使用 ABC，transformer 模型能够在某些算术任务上达到前所未有的完美长度广义。

Oct, 2023

Transformer 模型可以实现长度概括，但不具备鲁棒性

使用适当的数据格式和位置编码的组合，本研究首次展示了标准 Transformers 在能够外推到输入长度 2.5 倍的序列长度方面的成功，然而与内分布泛化不同，长度泛化仍然是脆弱的，受到随机权重初始化和训练数据顺序等因素的显著影响，导致不同随机种子之间存在较大差异。

Feb, 2024

随机位置编码增强 Transformer 的长度泛化

本研究发现，Transformers 在固定上下文长度的任务中表现出快速泛化的特性。但是，它们不能在任意长度序列上泛化，即使是像复制字符串这样的简单任务也不行。本文介绍了一种新的位置编码方案，可以解决长序列位置编码失效的问题，并通过大规模实验，证明该方案可提高分类精度。

May, 2023

考虑位置注意力用于长序列的外推

本文讨论神经网络的外推问题，提出针对自然语言处理中对比训练集更长序列的泛化能力的注意力机制，并在 Lookup Table 任务的变体上验证了此假设，证明此种模型能更好地处理序列问题。

Nov, 2019

使用更好的相对位置嵌入改进 Transformer 模型

本文提出基于自我关注机制的绝对位置嵌入和相对位置嵌入方法，通过增加查询、键和相对位置嵌入之间的交互，进一步优化了位置信息的利用。其最有前途的一种方法是将绝对位置嵌入泛化，相比之前的位置嵌入方法，在 SQuAD1.1 上有更好的表现。本文还通过实验证明了相对位置嵌入方法具有合理的泛化性和鲁棒性。最后，还展示了这种新方法可以用于在小的计算预算下提高大型模型的准确性。

Sep, 2020