定位感知的自注意力与相对位置编码在槽填充中的应用

Jul, 2018

定位感知的自注意力与相对位置编码在槽填充中的应用

Position-aware Self-attention with Relative Positional Encodings for Slot Filling

Ivan Bilan, Benjamin Roth

TL;DR本文提出如何在关系抽取任务中使用自注意力和相对位置编码。使用一个位置感知的注意力层，利用相对位置编码使每个单词考虑其左右上下文，仅使用注意力机制，在 TACRED 数据集上表现显著提升。

Abstract

This paper describes how to apply self-attention with relative positional encodings to the task of relation extraction. We propose to use the sel

self-attention positional encodings relation extraction attention layer tacred dataset

发现论文，激发创造

相对位置表示的自注意力

本研究通过在自我关注机制中引入对序列元素相对位置或距离的表示，比绝对位置表示获得了更好的机器翻译结果。同时，将相对位置表示和绝对位置表示相结合并不能进一步提高翻译质量。

Mar, 2018

使用更好的相对位置嵌入改进 Transformer 模型

本文提出基于自我关注机制的绝对位置嵌入和相对位置嵌入方法，通过增加查询、键和相对位置嵌入之间的交互，进一步优化了位置信息的利用。其最有前途的一种方法是将绝对位置嵌入泛化，相比之前的位置嵌入方法，在 SQuAD1.1 上有更好的表现。本文还通过实验证明了相对位置嵌入方法具有合理的泛化性和鲁棒性。最后，还展示了这种新方法可以用于在小的计算预算下提高大型模型的准确性。

Sep, 2020

卷积与自注意力：重新解释预训练语言模型中的相对位置

该研究探讨了卷积和自注意力在自然语言任务中的关系，提出了一种将卷积融合到自注意力中的方法，并使用 BERT 在多个下游任务上验证了卷积相对于绝对位置嵌入的性能优势。

Jun, 2021

语音识别和直接翻译的相对位置编码

通过在自注意力网络中采用相对位置编码方案，我们成功地让 Transformer 模型适应了语音数据的分散分布特点，并在 Switchboard 基准测试中获得了最佳识别结果，也在 MuST-C 语音翻译基准测试中获得了最佳出版结果，并且我们的模型能够更好地利用合成数据，并适应语音翻译的变量句子分割质量。

May, 2020

使用相对位置标签将异构图与实体感知自注意力集成到阅读理解模型中

提出了一种新的关注模式，将异构图的推理知识集成到变压器架构中，用于解决复杂推理任务。

Jul, 2023

带有结构位置表示的自注意力机制

本文提出将依赖树结构位置表示与传统的序列位置编码相结合，以更好地模拟输入句子的潜在结构，在中文到英文和英文到德语的翻译任务中，分别针对绝对和相对位置编码方式，实验证明提出的方法能够稳定提高自我注意力网络在各种自然语言处理任务上的表现。

Sep, 2019

利用知识关注力提高关系提取

本文提出了一种新颖的知识 - 注意力编码器，并介绍了三种将知识 - 注意力与自注意力相结合的有效方法。提出的关系提取系统是端到端和完全基于注意力的，实验证明知识 - 注意力机制与自注意力相互补充，在 TACRED 上实现了最先进的性能，并且胜过了现有的 CNN、RNN 和自注意力模型。

Oct, 2019

一种结构化的自注意句子嵌入

本文提出了一种基于自注意力机制的句子嵌入模型，通过使用二维矩阵表示嵌入，并让每行矩阵分别关注句子中不同的部分，提高了可解释性。并在作者分析、情感分类和文本蕴含等三个任务中进行了模型评估，在所有任务中与其它句子嵌入方法相比表现出了显著的性能提升。

Mar, 2017

Transformer 的简单有效位置编码

本文介绍了一种新的机制 ——Decoupled Positional Attention，将位置和段信息编码为 Transformer 模型，提高了训练和推理效率，在 GLUE、XTREME 和 WMT 基准测试中实现了竞争性表现，并进一步将该方法推广到远程的 transformers，显示了性能提升。

Apr, 2021

基于 Transformer 的语言模型中的平移无关自注意力论证

本文分析了现有语言模型的位置嵌入，发现其对于自注意力有着强烈的翻译不变性，并提出了一种解决方案 —— 翻译不变的自注意力模型（TISA），它可以以一种可解释的方式考虑标记之间的相对位置，而无需传统的位置嵌入，实验表明它在 GLUE 任务上的性能优于 ALBERT 模型。

Jun, 2021