本研究通过在自我关注机制中引入对序列元素相对位置或距离的表示,比绝对位置表示获得了更好的机器翻译结果。同时,将相对位置表示和绝对位置表示相结合并不能进一步提高翻译质量。
Mar, 2018
本文提出基于自我关注机制的绝对位置嵌入和相对位置嵌入方法,通过增加查询、键和相对位置嵌入之间的交互,进一步优化了位置信息的利用。其最有前途的一种方法是将绝对位置嵌入泛化,相比之前的位置嵌入方法,在 SQuAD1.1 上有更好的表现。本文还通过实验证明了相对位置嵌入方法具有合理的泛化性和鲁棒性。最后,还展示了这种新方法可以用于在小的计算预算下提高大型模型的准确性。
Sep, 2020
该研究探讨了卷积和自注意力在自然语言任务中的关系,提出了一种将卷积融合到自注意力中的方法,并使用 BERT 在多个下游任务上验证了卷积相对于绝对位置嵌入的性能优势。
Jun, 2021
通过在自注意力网络中采用相对位置编码方案,我们成功地让 Transformer 模型适应了语音数据的分散分布特点,并在 Switchboard 基准测试中获得了最佳识别结果,也在 MuST-C 语音翻译基准测试中获得了最佳出版结果,并且我们的模型能够更好地利用合成数据,并适应语音翻译的变量句子分割质量。
May, 2020
提出了一种新的关注模式,将异构图的推理知识集成到变压器架构中,用于解决复杂推理任务。
Jul, 2023
本文提出将依赖树结构位置表示与传统的序列位置编码相结合,以更好地模拟输入句子的潜在结构,在中文到英文和英文到德语的翻译任务中,分别针对绝对和相对位置编码方式,实验证明提出的方法能够稳定提高自我注意力网络在各种自然语言处理任务上的表现。
Sep, 2019
本文提出了一种新颖的知识 - 注意力编码器,并介绍了三种将知识 - 注意力与自注意力相结合的有效方法。提出的关系提取系统是端到端和完全基于注意力的,实验证明知识 - 注意力机制与自注意力相互补充,在 TACRED 上实现了最先进的性能,并且胜过了现有的 CNN、RNN 和自注意力模型。
Oct, 2019
本文提出了一种基于自注意力机制的句子嵌入模型,通过使用二维矩阵表示嵌入,并让每行矩阵分别关注句子中不同的部分,提高了可解释性。并在作者分析、情感分类和文本蕴含等三个任务中进行了模型评估,在所有任务中与其它句子嵌入方法相比表现出了显著的性能提升。
Mar, 2017
本文介绍了一种新的机制 ——Decoupled Positional Attention,将位置和段信息编码为 Transformer 模型,提高了训练和推理效率,在 GLUE、XTREME 和 WMT 基准测试中实现了竞争性表现,并进一步将该方法推广到远程的 transformers,显示了性能提升。
Apr, 2021
本文分析了现有语言模型的位置嵌入,发现其对于自注意力有着强烈的翻译不变性,并提出了一种解决方案 —— 翻译不变的自注意力模型(TISA),它可以以一种可解释的方式考虑标记之间的相对位置,而无需传统的位置嵌入,实验表明它在 GLUE 任务上的性能优于 ALBERT 模型。