使用 Transformer 引导自监督学习的注意力机制

EMNLPOct, 2020

使用 Transformer 引导自监督学习的注意力机制

Guiding Attention for Self-Supervised Learning with Transformers

Ameet Deshpande, Karthik Narasimhan

TL;DR该文提出了一种利用双向 Transformer 实现高效自监督学习的简单而有效的技术，该方法利用辅助损失函数引导注意力头符合自注意力特征，并可以适用于不同的预训练目标，实验证明该方法相对于基线模型更快收敛同时在下游任务中性能更好，在低资源环境中取得了业界领先结果。

Abstract

In this paper, we propose a simple and effective technique to allow for efficient self-supervised learning with bi-directional transformers. Our approach is motivated by recent studies demonstrating that self-att

self-supervised learning bi-directional transformers self-attention patterns auxiliary loss function low-resource settings

发现论文，激发创造

人类引导下解释性注意力模式在摘要和主题分割中的应用

该论文介绍了一种结合人机交互的流程来发现重要的任务特定的注意力模式，然后注入到原始模型和较小的模型来提高模型的准确性与效率，取得了在提取式摘要和主题分割方面显著提高的结果。

Dec, 2021

直接语言翻译中注意力的局部性

本文讨论了自我注意力（self-attention）在直接语音翻译中的应用。通过分析编码器中自我注意力的逐层令牌贡献，发现了局部对角线模式，并提出用局部高效的自我注意力替代标准自我注意力，通过跳过标准自我注意力废弃的权重来提高模型的效率，但仍保持与基线性能相同。

Apr, 2022

自注意力归因：解释 Transformer 内部的信息交互

本文提出了一种自我注意力归因方法，通过对 BERT 等模型进行广泛的研究，发现这种方法能够用于识别重要的注意力头，构建注意力树，揭示变压器内的分层交互，以及可用作敌对模式实现非定向攻击。

Apr, 2020

基于 Transformer 的机器翻译中固定编码器自注意力模式

使用简单固定的关注模式替换 Transformer 中编码器层的大多数注意力头对神经机器翻译的质量没有影响，并且在资源匮乏的情况下，甚至可以将 BLEU 评分提高 3 个点。

Feb, 2020

神经序列模型中自注意力的理论限制

本文研究了自注意力在建模形式语言方面的计算能力，发现其在处理分层结构时存在强烈的理论限制，但在自然语言处理方面表现卓越。

Jun, 2019

Transformer 模型是否显示出与任务特定的人类凝视类似的注意力模式？

通过比较两个任务特定的阅读数据集，研究表明，大规模预训练自注意力模型对于人类注意力的预测能力依赖于罕见语境的句法性质，而任务特定的微调不增加与人类阅读的相关性，并且通过输入减少实验给出了互补信息，表明低熵的注意向量更为可靠。

Apr, 2022

对抗式自注意力用于语言理解

本研究通过提出对 Transformer 模型的自注意力机制进行改进，提出了 Adversarial Self-Attention（ASA）机制，旨在抑制模型对部分特征的依赖以及探索更广泛的语义，实现更好的泛化性能和鲁棒性。实验结果表明，在预训练和微调阶段中，使用 ASA 的模型相较于普通训练在长远步骤上获得了显著的性能提升，这些模型也能够在泛化性能和鲁棒性方面胜过普通模型。

Jun, 2022

关注实体以获得更好的文本理解

在自然语言处理中，通过将共指信息作为辅助监督注入到目前现有的预训练模型中，能够提升模型在需要进行复杂和长距离推理的任务中的表现，从而超过目前最大的 GPT-2 模型，同时仅含有一小部分的参数。

Nov, 2019

基于注意力机制的对比学习在 Winograd Schema 上的应用

本文研究了将对比学习扩展到 Transformer attention 来解决 Winograd Schema Challenge 的能力，并提出了一种新的自监督框架，直接在自注意力层级上利用对比损失，最终在多个数据集上展现了优越的常识推理能力，该方法胜过所有可比的无监督方法，有时甚至超越有监督学习。

Sep, 2021

超越自学习的注意力：使用注意力指导减轻基于 Transformer 的模型中的注意偏差

基于 Transformer 的模型在软件工程中的源代码建模任务中展示了相当大的潜力，但其仅依赖于自动自注意权重学习机制的限制。我们引入了 SyntaGuid，一种新颖的方法，利用细调的语言模型中注意权重倾向于特定源代码语法标记和抽象语法树元素的观察，以改进模型在各种软件工程任务中的性能。我们评估了 SyntaGuid 的有效性，并证明其在整体性能上优于现有的最先进模型，而无需额外的数据。实验结果显示，SyntaGuid 可以提高整体性能最多 3.25%，并纠正最多 28.3% 的错误预测。我们的工作是第一次尝试在细调过程中引导基于 Transformer 的模型注意关键的源代码标记，突显了提升软件工程中基于 Transformer 的模型的潜力。

Feb, 2024