基于 Transformer 的语言模型中的平移无关自注意力论证

ACLJun, 2021

基于 Transformer 的语言模型中的平移无关自注意力论证

The Case for Translation-Invariant Self-Attention in Transformer-Based Language Models

Ulme Wennberg, Gustav Eje Henter

TL;DR本文分析了现有语言模型的位置嵌入，发现其对于自注意力有着强烈的翻译不变性，并提出了一种解决方案 —— 翻译不变的自注意力模型（TISA），它可以以一种可解释的方式考虑标记之间的相对位置，而无需传统的位置嵌入，实验表明它在 GLUE 任务上的性能优于 ALBERT 模型。

Abstract

Mechanisms for encoding positional information are central for transformer-based language models. In this paper, we analyze the position embeddings of existing language models, finding strong evidence of translation invariance, both for the embeddings themselves and for their effect on

transformer-based language models position embeddings translation invariance self-attention tisa

发现论文，激发创造

无需位置嵌入，自注意力变化中潜在位置信息的转换语言模型

本研究论述了传统 Transformer 语言模型中位置嵌入的必要性，提出随机初始化且去除位置嵌入的模型仍具备显著的位置信息，可以舍弃位置嵌入以提高预训练模型的效率。

May, 2023

相对位置表示的自注意力

本研究通过在自我关注机制中引入对序列元素相对位置或距离的表示，比绝对位置表示获得了更好的机器翻译结果。同时，将相对位置表示和绝对位置表示相结合并不能进一步提高翻译质量。

Mar, 2018

基于 Transformer 的机器翻译中固定编码器自注意力模式

使用简单固定的关注模式替换 Transformer 中编码器层的大多数注意力头对神经机器翻译的质量没有影响，并且在资源匮乏的情况下，甚至可以将 BLEU 评分提高 3 个点。

Feb, 2020

卷积与自注意力：重新解释预训练语言模型中的相对位置

该研究探讨了卷积和自注意力在自然语言任务中的关系，提出了一种将卷积融合到自注意力中的方法，并使用 BERT 在多个下游任务上验证了卷积相对于绝对位置嵌入的性能优势。

Jun, 2021

直接语言翻译中注意力的局部性

本文讨论了自我注意力（self-attention）在直接语音翻译中的应用。通过分析编码器中自我注意力的逐层令牌贡献，发现了局部对角线模式，并提出用局部高效的自我注意力替代标准自我注意力，通过跳过标准自我注意力废弃的权重来提高模型的效率，但仍保持与基线性能相同。

Apr, 2022

语音识别和直接翻译的相对位置编码

通过在自注意力网络中采用相对位置编码方案，我们成功地让 Transformer 模型适应了语音数据的分散分布特点，并在 Switchboard 基准测试中获得了最佳识别结果，也在 MuST-C 语音翻译基准测试中获得了最佳出版结果，并且我们的模型能够更好地利用合成数据，并适应语音翻译的变量句子分割质量。

May, 2020

Transformer 的简单有效位置编码

本文介绍了一种新的机制 ——Decoupled Positional Attention，将位置和段信息编码为 Transformer 模型，提高了训练和推理效率，在 GLUE、XTREME 和 WMT 基准测试中实现了竞争性表现，并进一步将该方法推广到远程的 transformers，显示了性能提升。

Apr, 2021

使用 Transformer 引导自监督学习的注意力机制

该文提出了一种利用双向 Transformer 实现高效自监督学习的简单而有效的技术，该方法利用辅助损失函数引导注意力头符合自注意力特征，并可以适用于不同的预训练目标，实验证明该方法相对于基线模型更快收敛同时在下游任务中性能更好，在低资源环境中取得了业界领先结果。

Oct, 2020

基于依赖感知自注意力机制的机器翻译增强

本文研究了将句法知识纳入 Transformer 模型的不同方法，并提出一种新的、无需参数的依赖感知自注意机制，能够提高其翻译质量，特别是在长句子和低资源情况下。作者在 WMT 英德、英土和 WAT 英日翻译任务中展示了每种方法的有效性。

Sep, 2019

重新思考语言预训练中的位置编码

提出一种新的位置编码方法 TUPE，该方法通过将词的上下文相关性和位置相关性分开并采用不同的投影矩阵进行计算，并将它们相加来消除混杂和杂乱的关联。在广泛的实验和离线研究中，我们证明了该方法的有效性。

Jun, 2020