无位置编码的因果 Transformer 的长度概化

Apr, 2024

无位置编码的因果 Transformer 的长度概化

Length Generalization of Causal Transformers without Position Encoding

Jie Wang, Tao Ji, Yuanbin Wu, Hang Yan, Tao Gui...

TL;DR通过对无位置编码（NoPE）的长度泛化属性进行研究，我们发现虽然 NoPE 可以处理比常用的明确位置编码更长的序列，但其上下文长度仍然有限。我们确定了 NoPE 泛化失败与注意力分布分散的联系，并提出了一种参数高效的调整方法，通过搜索注意力头的最佳温度超参数，极大地扩展了 NoPE 的上下文大小。长序列语言建模、合成通行证检索任务和真实世界的长上下文任务的实验证明 NoPE 能够达到与最先进的长度泛化算法竞争的性能水平。源代码可公开访问。

Abstract

Generalizing to longer sentences is important for recent Transformer-based language models. Besides algorithms manipulating explicit position features, the success of Transformers without position encodings (NoPE) provides a new way to overcome the challenge. In this paper, we study th

transformer-based language models position encodings length generalization attention distributions context size

发现论文，激发创造

位置编码对 Transformer 中长度推广的影响

本文研究了基于解码器的 Transformer 模型在用不同的位置编码方式时对长度泛化的影响，发现在一系列的推理和数学任务中，NoPE 的表现比其它方法更为优秀，而且无需额外计算。理论上，NoPE 能够代表绝对和相对位置嵌入，但在使用 SGD 训练时，它主要呈现 T5 相对位置嵌入的注意力模式。同时，scratchpad 并不总是有助于解决长度泛化问题，其格式对模型的性能有很大的影响。总之，本文的工作表明解码器 - only 的 Transformer 不一定需要显式的位置嵌入以在更长的序列上泛化良好。

May, 2023

随机位置编码增强 Transformer 的长度泛化

本研究发现，Transformers 在固定上下文长度的任务中表现出快速泛化的特性。但是，它们不能在任意长度序列上泛化，即使是像复制字符串这样的简单任务也不行。本文介绍了一种新的位置编码方案，可以解决长序列位置编码失效的问题，并通过大规模实验，证明该方案可提高分类精度。

May, 2023

Transformer 长度外推：以位置编码为视角的调查

该研究论文对基于 Transformer 的预训练语言模型和长度外推问题进行了系统性的回顾，聚焦于可外推位置编码方法，旨在帮助读者深入理解已有方法并为未来研究提供启示。

Dec, 2023

Transformer 模型可以实现长度概括，但不具备鲁棒性

使用适当的数据格式和位置编码的组合，本研究首次展示了标准 Transformers 在能够外推到输入长度 2.5 倍的序列长度方面的成功，然而与内分布泛化不同，长度泛化仍然是脆弱的，受到随机权重初始化和训练数据顺序等因素的显著影响，导致不同随机种子之间存在较大差异。

Feb, 2024

注意力对齐和灵活位置嵌入改进了 Transformer 长度外推

提出两种通过温度缩放实现的注意力对齐策略，改善了 T5 在语言建模、检索和多文档问答中对长篇文本的应用能力，无需进行微调。

Nov, 2023

大型语言模型中的长度泛化探究

该研究探讨了基于 transformer 的语言模型的长度推广能力，发现预训练大语言模型的上下文学习能力与记事本提示相结合能大大改善长度推广，并鉴别了错误的共同来源，为赋予语言模型推广到更长问题的能力提供了新的机会。

Jul, 2022

CAPE：用于长度推断的上下文自适应位置编码

提出了一种动态根据输入语境调整的上下文自适应位置编码方法，通过实验验证在真实世界数据集上改善了模型性能，提升了训练长度和长度泛化能力，同时保留了局部和反局部信息。

May, 2024

仍可学习位置信息的 Transformer 语言模型无需位置编码

本研究探讨了基于因果变换的语言模型（LMs），例如 GPT-3，需要某种形式的位置编码，例如位置嵌入。然而，我们发现在没有任何显式位置编码的情况下，这样的 LM 与标准模型仍然具有竞争力，这一现象在不同的数据集、模型大小和序列长度中是鲁棒的。进一步实验表明，这种模型通过网络获取隐含的绝对位置概念，从而有效弥补了缺失的信息。我们推测，因果注意力使模型能够推断每个令牌可以关注的前任数，从而近似其绝对位置。我们的发现表明，因果 LMs 除了显式的定位机制外，还可以从因果掩码的影响中推导出位置意识。

Mar, 2022

位于中间：通过即插即用位置编码，语言模型更好地使用长上下文

本文介绍了一种名为多尺度位置编码（Ms-PoE）的简单而有效的插件式方法，用于增强大型语言模型（LLMs）处理位于上下文中部的相关信息的能力，并通过广泛的实验证明了该方法的有效性。

Mar, 2024

相对位置编码在线性复杂度 Transformer 中的应用

本研究提出了随机位置编码的方法来生成代替传统加性（正弦）位置编码的 PE，并证明其类似于 RPE，建立了位置编码与相关高斯过程的交叉协方差结构之间的联系。这种方法能够弥补针对最近的线性 Transformer 变量不可用于 RPE 的问题，并展示了其在 Long-Range Arena 基准测试和音乐生成方面的性能表现。

May, 2021