重新思考语言预训练中的位置编码
本文介绍了一种新的机制 ——Decoupled Positional Attention,将位置和段信息编码为 Transformer 模型,提高了训练和推理效率,在 GLUE、XTREME 和 WMT 基准测试中实现了竞争性表现,并进一步将该方法推广到远程的 transformers,显示了性能提升。
Apr, 2021
使用 Transformer 语言模型中的绝对位置嵌入会导致对相对位置信息的过度依赖,从而使得模型在句子位置信息被移位时性能显著下降,这表明了使用绝对位置嵌入所建模 “相对位置信息” 的功效需要重新审视。
Oct, 2022
本研究提出了一种新的动态位置编码(DPE)方法,通过新的位置嵌入来纠正目标单词的位置信息,相较于传统 Transformers 在英德法意四种翻译任务中取得了显著的性能提升。
Apr, 2022
本文研究了基于解码器的 Transformer 模型在用不同的位置编码方式时对长度泛化的影响,发现在一系列的推理和数学任务中,NoPE 的表现比其它方法更为优秀,而且无需额外计算。理论上,NoPE 能够代表绝对和相对位置嵌入,但在使用 SGD 训练时,它主要呈现 T5 相对位置嵌入的注意力模式。同时,scratchpad 并不总是有助于解决长度泛化问题,其格式对模型的性能有很大的影响。总之,本文的工作表明解码器 - only 的 Transformer 不一定需要显式的位置嵌入以在更长的序列上泛化良好。
May, 2023
研究了 transformers 在时间序列数据中应用时所需的位置编码方法,提出了一种新的绝对位置编码方法,称为时间绝对位置编码(tAPE);提出了一种高效的相对位置编码实现方法(eRPE),并将 tAPE/eRPE 与卷积输入编码相结合,提出了一种新的多元时间序列分类(MTSC)模型 ConvTran。此模型在 32 个多元时间序列数据集上进行的广泛实验表明,优于最先进的卷积和 transformer-based 模型。
May, 2023
本文提出基于自我关注机制的绝对位置嵌入和相对位置嵌入方法,通过增加查询、键和相对位置嵌入之间的交互,进一步优化了位置信息的利用。其最有前途的一种方法是将绝对位置嵌入泛化,相比之前的位置嵌入方法,在 SQuAD1.1 上有更好的表现。本文还通过实验证明了相对位置嵌入方法具有合理的泛化性和鲁棒性。最后,还展示了这种新方法可以用于在小的计算预算下提高大型模型的准确性。
Sep, 2020
本文通过特征级别分析和大量实证研究主流预训练位置嵌入对 Transformer 的影响,从而为特定任务选择适当的位置编码函数提供新的见解。
Oct, 2020
本文重新研究了基于转换器的预训练语言模型,并找出了位置编码和模型表示中的两种不同类型的信息混淆,提出了 DDRP 编码和 MTH 预训练目标来改进预训练语言模型,并通过对 GLUE 基准测试的大量实验和消融研究表明了这种改进方法的有效性。
Oct, 2022
这篇论文提出了一种增强型绝对位置嵌入 (CAPE) 的方法,使得 Transformer 神经网络在保持绝对位置嵌入简单和快速的同时,能够更好地推广到训练时未曾出现的更长序列,并在机器翻译等领域中获得更好的性能。
Jun, 2021
本研究探讨了基于因果变换的语言模型(LMs),例如 GPT-3,需要某种形式的位置编码,例如位置嵌入。然而,我们发现在没有任何显式位置编码的情况下,这样的 LM 与标准模型仍然具有竞争力,这一现象在不同的数据集、模型大小和序列长度中是鲁棒的。进一步实验表明,这种模型通过网络获取隐含的绝对位置概念,从而有效弥补了缺失的信息。我们推测,因果注意力使模型能够推断每个令牌可以关注的前任数,从而近似其绝对位置。我们的发现表明,因果 LMs 除了显式的定位机制外,还可以从因果掩码的影响中推导出位置意识。
Mar, 2022