文本编码器预训练的相对位置预测
本文重新研究了基于转换器的预训练语言模型,并找出了位置编码和模型表示中的两种不同类型的信息混淆,提出了 DDRP 编码和 MTH 预训练目标来改进预训练语言模型,并通过对 GLUE 基准测试的大量实验和消融研究表明了这种改进方法的有效性。
Oct, 2022
本文提出了一种新颖的、简单的、基于位置预测的 Transformer 自监督预训练策略,可以提高 NLP、语音和视觉领域的性能,并使不使用位置嵌入的 Transformers 超越使用完整位置信息的 Transformers。
Jul, 2022
通过在自注意力网络中采用相对位置编码方案,我们成功地让 Transformer 模型适应了语音数据的分散分布特点,并在 Switchboard 基准测试中获得了最佳识别结果,也在 MuST-C 语音翻译基准测试中获得了最佳出版结果,并且我们的模型能够更好地利用合成数据,并适应语音翻译的变量句子分割质量。
May, 2020
本文通过特征级别分析和大量实证研究主流预训练位置嵌入对 Transformer 的影响,从而为特定任务选择适当的位置编码函数提供新的见解。
Oct, 2020
通过单元转换,在现有线性相对位置编码方法的基础上,提出了家族化的线性相对位置编码算法,实现了保持线性空间 - 时间复杂性的新相对位置编码方法框架,并在语言建模、文本分类和图像分类等各种应用中表现出了最先进的性能,强调了一个用于设计线性变压器相关位置编码方法的普适范例。
Jul, 2023
本文提出如何在关系抽取任务中使用自注意力和相对位置编码。使用一个位置感知的注意力层,利用相对位置编码使每个单词考虑其左右上下文,仅使用注意力机制,在 TACRED 数据集上表现显著提升。
Jul, 2018
本文提出基于自我关注机制的绝对位置嵌入和相对位置嵌入方法,通过增加查询、键和相对位置嵌入之间的交互,进一步优化了位置信息的利用。其最有前途的一种方法是将绝对位置嵌入泛化,相比之前的位置嵌入方法,在 SQuAD1.1 上有更好的表现。本文还通过实验证明了相对位置嵌入方法具有合理的泛化性和鲁棒性。最后,还展示了这种新方法可以用于在小的计算预算下提高大型模型的准确性。
Sep, 2020
提出一种新的位置编码方法 TUPE,该方法通过将词的上下文相关性和位置相关性分开并采用不同的投影矩阵进行计算,并将它们相加来消除混杂和杂乱的关联。在广泛的实验和离线研究中,我们证明了该方法的有效性。
Jun, 2020
本文综述了如何将位置信息整合到 Transformer 模型中,以比较不同方法在重要模型维度上的优劣,以及指出在选择位置编码时应考虑的应用特性,并为未来的研究提供刺激。
Feb, 2021
提出了一种新的位置编码方法:上下文位置编码 (CoPE),使得位置可以被上下文条件化,可以实现更一般的位置指定,例如参考第 $i$ 个特定词、名词或句子。该方法能够解决选择性复制、计数和翻转任务,并提高语言建模和编码任务的困惑度。
May, 2024