位置插值改进 ALiBi 外推
本文提出 Attention with Linear Biases (ALiBi) 方法,拟合模型课以推广到更长的序列,并比多种其他方法在 WikiText-103 基准测试上表现更好。
Aug, 2021
本文介绍了一种名为 Position Interpolation 的方法,它扩展了 RoPE-based pretrained LLMs 的上下文窗口大小,可以达到 32768,而且只需要最小限度的微调,同时在需要长上下文的各种任务中(包括密码检索、语言建模和长文档摘要等)展示了强大的实证结果。
Jun, 2023
本文探讨了 Transformers 中的位置建模以及如何提高其对于长文本的预测能力,通过引入相对位置编码和块状因果注意力机制,可以有效提高模型的预测性能。
Dec, 2022
研究了相对位置嵌入在语言模型上的应用,提出了基于对齐假设的自注意力机制,在训练过程中对齐输入,在测试过程中保证了相对位置嵌入的性质。提出的 Sandwich positional embedding 将比训练序列更长的信息融入模型之中,且由于隐式窗口化的自注意力机制,其可实现高效的推断。
Dec, 2022
使用功能性相对位置编码与渐进插值方法 (FIRE) 对 Transformers 进行训练,在处理更长的上下文时具有更好的泛化性能。
Oct, 2023
提出两种通过温度缩放实现的注意力对齐策略,改善了 T5 在语言建模、检索和多文档问答中对长篇文本的应用能力,无需进行微调。
Nov, 2023
本研究提出了随机位置编码的方法来生成代替传统加性(正弦)位置编码的 PE,并证明其类似于 RPE,建立了位置编码与相关高斯过程的交叉协方差结构之间的联系。这种方法能够弥补针对最近的线性 Transformer 变量不可用于 RPE 的问题,并展示了其在 Long-Range Arena 基准测试和音乐生成方面的性能表现。
May, 2021
利用自然语言序列的内在分割,设计了一种名为 Bilevel Positional Encoding(BiPE)的新的位置编码方法。每个位置的 BiPE 结合了分段内编码和分段间编码,从而能够捕捉语义信息,并通过相对位置编码来改善外推能力。理论分析表明,位置信息的解缠可以使学习更加有效。实证结果还表明,BiPE 在不同文本模态任务的广泛范围内具有出色的长度外推能力。
Jan, 2024
本篇论文研究了在语言模型中如何整合位置信息,并提出了一种名为 RoPE 的方法,它可以将位置信息编码为旋转矩阵,并同时将显式的相对位置依赖性结合到自注意力公式中。实验结果表明,RoPE 使 transformer 在处理长文本分类问题时表现出优越的性能。
Apr, 2021