合成器：重新思考 Transformer 模型中的自注意力

ICMLMay, 2020

合成器：重新思考 Transformer 模型中的自注意力

Synthesizer: Rethinking Self-Attention in Transformer Models

Yi Tay, Dara Bahri, Donald Metzler, Da-Cheng Juan, Zhe Zhao...

TL;DR通过大量实验，本文研究了基于点积的自注意力机制对 Transformer 模型性能的实际重要性和贡献，并提出了一种无需 token 交互的学习合成注意力权重的模型 Synthesizer，并在多个任务中取得了竞争性的表现，证明了该模型的有效性。同时，与动态卷积和 Linformers 相比较，Synthesizer 不但更快，而且还提高了 perplexity。

Abstract

The dot product self-attention is known to be central and indispensable to state-of-the-art transformer models. But is it really required? This paper investigates the true importance and contribution of the dot product-based →

self-attention mechanism synthesizer transformer models token-token interactions dynamic convolutions

发现论文，激发创造

对称点积注意力用于 BERT 语言模型的高效训练

提出了一种与 Transformer 架构的自注意力机制兼容的替代性兼容函数，并在类似 BERT 模型的预训练中实现了对称的注意力机制，在 GLUE 基准测试中得分 79.36，减少了可训练参数数量的 6％，并将收敛前所需的训练步骤减少了一半。

Jun, 2024

查询和关键字总是相关的吗？Transformer 波函数的案例研究

我们通过比较标准注意力机制和仅依赖于位置的简化版本（而不涉及查询和键）在参数化变分波函数领域的性能，在减少计算成本和参数使用的同时取得了竞争性结果。此外，通过分析标准注意力机制生成的注意力图，我们证明了在优化结束时，注意力权重变得有效地与输入无关。我们通过分析计算结果支持了这一结论，并提供了在研究大系统时为何应该从注意力机制中排除查询和键的物理洞见。有趣的是，在输入句子较长的情况下，相同的论点可以推广到自然语言处理领域。

May, 2024

超越自学习的注意力：使用注意力指导减轻基于 Transformer 的模型中的注意偏差

基于 Transformer 的模型在软件工程中的源代码建模任务中展示了相当大的潜力，但其仅依赖于自动自注意权重学习机制的限制。我们引入了 SyntaGuid，一种新颖的方法，利用细调的语言模型中注意权重倾向于特定源代码语法标记和抽象语法树元素的观察，以改进模型在各种软件工程任务中的性能。我们评估了 SyntaGuid 的有效性，并证明其在整体性能上优于现有的最先进模型，而无需额外的数据。实验结果显示，SyntaGuid 可以提高整体性能最多 3.25%，并纠正最多 28.3% 的错误预测。我们的工作是第一次尝试在细调过程中引导基于 Transformer 的模型注意关键的源代码标记，突显了提升软件工程中基于 Transformer 的模型的潜力。

Feb, 2024

椭圆形注意力

应用 Mahalanobis 距离计算注意力权重，将模型的特征空间在高上下文相关性方向进行拉伸，从而达到减少特征塌缩和提升模型鲁棒性的效果，验证了在多个实际任务中 Elliptical Attention 相对于基线 dot-product attention 和最先进的方法的优越性。

Jun, 2024

使用自我关注实现可解释的音乐标记

提出了一种基于自注意力机制的深度序列模型，用于解决音乐信息检索问题，并且相比于传统的卷积和递归神经网络方法，该模型更具可解释性且具有竞争力的结果。

Jun, 2019

Transformer 神经网络架构中注意力机制的缩放点积的替代方法

通过除以键值长度之和而非平方根，我们提出了一种替代方法来缩放点积，以避免在应用 softmax 时导致梯度消失的区域。我们使用模拟的键和查询显示，这种方法在许多情况下更有效。

Nov, 2023

自注意力层的拟态初始化

通过模仿预训练 Transformer 的权重，使用模拟初始化方案沿用这些权重，能在视觉任务中提高 Vanilla Transformers 的最终准确度，并使训练速度更快。

May, 2023

易用注意力：Transformer 模型的简易自注意机制

提出一种名为 easy attention 的新型注意机制，用于改进用于预测混沌系统时间动态的 Transformer 神经网络，通过自注意力机制直接将注意力得分作为可学习参数，具有更强的鲁棒性和较低的复杂性，适用于重建和预测混沌系统的时间动态。

Aug, 2023

透过凸优化解释注意力：关于视觉 Transformer 的分析和解读

本文通过凸对偶性的视角分析了自我注意力及其替代方案的基础归纳偏差问题，并为非线性点积自我注意力和替代机制提出了有解释性且可全局最优求解的等效有限维凸问题。通过实验证明，与现有的 MLP 或线性 heuads 相比，自我注意网络的偏差对于 CIFAR-100 分类任务具有吸引力。

May, 2022

音乐变形器

提出了一种使用修改后的相对注意力机制来设计变形金刚神经网络的算法，用于音乐作曲、演奏和生成任务，并在 JSB Chorales 和 Piano-e-Competition 数据集上获得了最先进的结果。

Sep, 2018