位置插值改进 ALiBi 外推

Oct, 2023

Position Interpolation Improves ALiBi Extrapolation

Faisal Al-Khateeb, Nolan Dey, Daria Soboleva, Joel Hestness

TL;DR使用线性位置插值来扩展采用线性偏差注意力 (ALiBi) 的模型的外推范围，研究表明，位置插值显著提高了上游语言建模和下游摘要和检索任务的外推能力。

Abstract

linear position interpolation helps pre-trained models using rotary position embeddings (RoPE) to extrapolate to longer sequence lengths. We propose using →

linear position interpolation pre-trained models rotary position embeddings extrapolation range attention with linear biases (alibi)

发现论文，激发创造

使用带线性偏置的注意力机制实现输入长度的外推：训练时短、测试时长

本文提出 Attention with Linear Biases (ALiBi) 方法，拟合模型课以推广到更长的序列，并比多种其他方法在 WikiText-103 基准测试上表现更好。

Aug, 2021

通过位置插值扩展大型语言模型的上下文窗口

本文介绍了一种名为 Position Interpolation 的方法，它扩展了 RoPE-based pretrained LLMs 的上下文窗口大小，可以达到 32768，而且只需要最小限度的微调，同时在需要长上下文的各种任务中（包括密码检索、语言建模和长文档摘要等）展示了强大的实证结果。

Jun, 2023

可长度推广的 Transformer

本文探讨了 Transformers 中的位置建模以及如何提高其对于长文本的预测能力，通过引入相对位置编码和块状因果注意力机制，可以有效提高模型的预测性能。

Dec, 2022

感受野对齐实现 Transformer 长度外推

研究了相对位置嵌入在语言模型上的应用，提出了基于对齐假设的自注意力机制，在训练过程中对齐输入，在测试过程中保证了相对位置嵌入的性质。提出的 Sandwich positional embedding 将比训练序列更长的信息融入模型之中，且由于隐式窗口化的自注意力机制，其可实现高效的推断。

Dec, 2022

相对位置的功能内插改进长上下文 Transformer

使用功能性相对位置编码与渐进插值方法 (FIRE) 对 Transformers 进行训练，在处理更长的上下文时具有更好的泛化性能。

Oct, 2023

注意力对齐和灵活位置嵌入改进了 Transformer 长度外推

提出两种通过温度缩放实现的注意力对齐策略，改善了 T5 在语言建模、检索和多文档问答中对长篇文本的应用能力，无需进行微调。

Nov, 2023

相对位置编码在线性复杂度 Transformer 中的应用

本研究提出了随机位置编码的方法来生成代替传统加性（正弦）位置编码的 PE，并证明其类似于 RPE，建立了位置编码与相关高斯过程的交叉协方差结构之间的联系。这种方法能够弥补针对最近的线性 Transformer 变量不可用于 RPE 的问题，并展示了其在 Long-Range Arena 基准测试和音乐生成方面的性能表现。

May, 2021

双石击鸟：双层位置编码实现更好的长度外推

利用自然语言序列的内在分割，设计了一种名为 Bilevel Positional Encoding（BiPE）的新的位置编码方法。每个位置的 BiPE 结合了分段内编码和分段间编码，从而能够捕捉语义信息，并通过相对位置编码来改善外推能力。理论分析表明，位置信息的解缠可以使学习更加有效。实证结果还表明，BiPE 在不同文本模态任务的广泛范围内具有出色的长度外推能力。

Jan, 2024

RoFormer: 带旋转位置嵌入的增强 Transformer

本篇论文研究了在语言模型中如何整合位置信息，并提出了一种名为 RoPE 的方法，它可以将位置信息编码为旋转矩阵，并同时将显式的相对位置依赖性结合到自注意力公式中。实验结果表明，RoPE 使 transformer 在处理长文本分类问题时表现出优越的性能。

Apr, 2021

参数空间中的线性插值已足够用于微调语言模型

本文探讨 fine-tuned 模型参数的线性插值，为可控文本生成提供了可能。

Nov, 2022