本文提出基于自我关注机制的绝对位置嵌入和相对位置嵌入方法,通过增加查询、键和相对位置嵌入之间的交互,进一步优化了位置信息的利用。其最有前途的一种方法是将绝对位置嵌入泛化,相比之前的位置嵌入方法,在 SQuAD1.1 上有更好的表现。本文还通过实验证明了相对位置嵌入方法具有合理的泛化性和鲁棒性。最后,还展示了这种新方法可以用于在小的计算预算下提高大型模型的准确性。
Sep, 2020
通过在自注意力网络中采用相对位置编码方案,我们成功地让 Transformer 模型适应了语音数据的分散分布特点,并在 Switchboard 基准测试中获得了最佳识别结果,也在 MuST-C 语音翻译基准测试中获得了最佳出版结果,并且我们的模型能够更好地利用合成数据,并适应语音翻译的变量句子分割质量。
May, 2020
该研究探讨了卷积和自注意力在自然语言任务中的关系,提出了一种将卷积融合到自注意力中的方法,并使用 BERT 在多个下游任务上验证了卷积相对于绝对位置嵌入的性能优势。
Jun, 2021
本文提出如何在关系抽取任务中使用自注意力和相对位置编码。使用一个位置感知的注意力层,利用相对位置编码使每个单词考虑其左右上下文,仅使用注意力机制,在 TACRED 数据集上表现显著提升。
Jul, 2018
本文分析了现有语言模型的位置嵌入,发现其对于自注意力有着强烈的翻译不变性,并提出了一种解决方案 —— 翻译不变的自注意力模型(TISA),它可以以一种可解释的方式考虑标记之间的相对位置,而无需传统的位置嵌入,实验表明它在 GLUE 任务上的性能优于 ALBERT 模型。
本文提出了广义注意力机制 (GAM),揭示了 Vaswani 等人的自注意力机制的新解释,提供了不同变体注意力机制和 GAM 框架中的新相对位置表示,并可简单应用于不同数据集中元素的不同位置的情况。
Jul, 2022
本文提出将依赖树结构位置表示与传统的序列位置编码相结合,以更好地模拟输入句子的潜在结构,在中文到英文和英文到德语的翻译任务中,分别针对绝对和相对位置编码方式,实验证明提出的方法能够稳定提高自我注意力网络在各种自然语言处理任务上的表现。
Sep, 2019
本文研究了将句法知识纳入 Transformer 模型的不同方法,并提出一种新的、无需参数的依赖感知自注意机制,能够提高其翻译质量,特别是在长句子和低资源情况下。作者在 WMT 英德、英土和 WAT 英日翻译任务中展示了每种方法的有效性。
本篇论文提出基于注意力机制的神经机器翻译新架构,采用自注意力和前馈神经网络层来避免递归和卷积,但是需要大量的参数和训练才能收敛。同时又提出了加权 Transformer 模型,通过修改注意力层架构,更快地提高 BLEU 得分表现,同时在英译德和英译法机器翻译任务中表现最优。
Nov, 2017
本论文提出了一种基于 transformer 模型的新型神经机器翻译架构,采用自注意力机制加局部约束对 attention 接受场进行改进,实现了在多个翻译基准数据集上的最新 BLEU 最优结果。
May, 2019