可长度推广的 Transformer
提出两种通过温度缩放实现的注意力对齐策略,改善了 T5 在语言建模、检索和多文档问答中对长篇文本的应用能力,无需进行微调。
Nov, 2023
该研究论文对基于 Transformer 的预训练语言模型和长度外推问题进行了系统性的回顾,聚焦于可外推位置编码方法,旨在帮助读者深入理解已有方法并为未来研究提供启示。
Dec, 2023
本文提出 Attention with Linear Biases (ALiBi) 方法,拟合模型课以推广到更长的序列,并比多种其他方法在 WikiText-103 基准测试上表现更好。
Aug, 2021
研究了相对位置嵌入在语言模型上的应用,提出了基于对齐假设的自注意力机制,在训练过程中对齐输入,在测试过程中保证了相对位置嵌入的性质。提出的 Sandwich positional embedding 将比训练序列更长的信息融入模型之中,且由于隐式窗口化的自注意力机制,其可实现高效的推断。
Dec, 2022
通过数学和经验分析研究,本文发现某些类型的相对位置编码(RPE)允许长度外推,并从中得出两种实践方法用于语言建模任务,同时提出了一种新的理论接收域(TRF)用于测量 RPE 的接收域,并在多个数据集上进行了广泛实验以验证这些发现的有效性。
Jul, 2023
通过实验和注意力分析,我们研究了 transformer 模型在学习算术算法(如加法和乘法)方面的固有能力,并确定了几个实现最佳长度泛化的关键因素。我们展示了 transformer 模型能够借助有针对性的注意力偏置来推广到长长度,并引入了注意力偏置校准(ABC)阶段,使模型能够自动学习适当的注意力偏置,我们将其与相对位置编码中的机制联系起来。我们证明使用 ABC,transformer 模型能够在某些算术任务上达到前所未有的完美长度广义。
Oct, 2023
使用适当的数据格式和位置编码的组合,本研究首次展示了标准 Transformers 在能够外推到输入长度 2.5 倍的序列长度方面的成功,然而与内分布泛化不同,长度泛化仍然是脆弱的,受到随机权重初始化和训练数据顺序等因素的显著影响,导致不同随机种子之间存在较大差异。
Feb, 2024
本研究发现,Transformers 在固定上下文长度的任务中表现出快速泛化的特性。但是,它们不能在任意长度序列上泛化,即使是像复制字符串这样的简单任务也不行。本文介绍了一种新的位置编码方案,可以解决长序列位置编码失效的问题,并通过大规模实验,证明该方案可提高分类精度。
May, 2023
本文讨论神经网络的外推问题,提出针对自然语言处理中对比训练集更长序列的泛化能力的注意力机制,并在 Lookup Table 任务的变体上验证了此假设,证明此种模型能更好地处理序列问题。
Nov, 2019
本文提出基于自我关注机制的绝对位置嵌入和相对位置嵌入方法,通过增加查询、键和相对位置嵌入之间的交互,进一步优化了位置信息的利用。其最有前途的一种方法是将绝对位置嵌入泛化,相比之前的位置嵌入方法,在 SQuAD1.1 上有更好的表现。本文还通过实验证明了相对位置嵌入方法具有合理的泛化性和鲁棒性。最后,还展示了这种新方法可以用于在小的计算预算下提高大型模型的准确性。
Sep, 2020