Transformer 神经网络架构中注意力机制的缩放点积的替代方法

Nov, 2023

Transformer 神经网络架构中注意力机制的缩放点积的替代方法

Alternatives to the Scaled Dot Product for Attention in the Transformer Neural Network Architecture

James Bernhard

TL;DR通过除以键值长度之和而非平方根，我们提出了一种替代方法来缩放点积，以避免在应用 softmax 时导致梯度消失的区域。我们使用模拟的键和查询显示，这种方法在许多情况下更有效。

Abstract

The transformer neural network architecture uses a form of attention in which the dot product of query and key is divided by the square ro

transformer neural network attention dot product scaling vanishing gradients

发现论文，激发创造

对称点积注意力用于 BERT 语言模型的高效训练

提出了一种与 Transformer 架构的自注意力机制兼容的替代性兼容函数，并在类似 BERT 模型的预训练中实现了对称的注意力机制，在 GLUE 基准测试中得分 79.36，减少了可训练参数数量的 6％，并将收敛前所需的训练步骤减少了一半。

Jun, 2024

椭圆形注意力

应用 Mahalanobis 距离计算注意力权重，将模型的特征空间在高上下文相关性方向进行拉伸，从而达到减少特征塌缩和提升模型鲁棒性的效果，验证了在多个实际任务中 Elliptical Attention 相对于基线 dot-product attention 和最先进的方法的优越性。

Jun, 2024

查询和关键字总是相关的吗？Transformer 波函数的案例研究

我们通过比较标准注意力机制和仅依赖于位置的简化版本（而不涉及查询和键）在参数化变分波函数领域的性能，在减少计算成本和参数使用的同时取得了竞争性结果。此外，通过分析标准注意力机制生成的注意力图，我们证明了在优化结束时，注意力权重变得有效地与输入无关。我们通过分析计算结果支持了这一结论，并提供了在研究大系统时为何应该从注意力机制中排除查询和键的物理洞见。有趣的是，在输入句子较长的情况下，相同的论点可以推广到自然语言处理领域。

May, 2024

具有恒定标记成本的 Softmax 注意力

我们对传统的 Transformer 模型中的注意力机制进行了简单修改，通过对指数函数的缩放点积取对数来量化查询 - 键的相似性，将注意力表达为一系列对数求和的指数函数，该方法的优势在于其线性化性质，具有恒定大小的潜在空间，每个标记的顺序应用具有恒定的时间和空间复杂度。我们实现了该修改，验证其在实践中的有效性，并得出结论，即它是传统注意力的一个有前途的替代方法。

Apr, 2024

抑制因子：ReLU 和基于加法的注意力用于高效 Transformer

通过替代点积和基于 Softmax 的注意力机制，将其替换为仅包含加法和 ReLU 激活的替代机制，以提高量化 Transformer 的计算效率，并支持在资源受限的硬件或同态加密等替代算术系统上运行更大规模的量化 Transformer 模型。

Oct, 2023

给我你的关注：考虑对抗性补丁鲁棒性时应避免使用点乘注意力

基于注意力机制的神经结构如视觉变换器正在革新图像识别，但该研究发现当其面临对抗补丁攻击时，全局性推理会成为一个重大漏洞，并提供了新的对抗目标，针对该漏洞制造对抗补丁，并在多个模型上验证了其有效性。

Mar, 2022

选择变换方法：傅里叶或伽辽金

本文介绍了一种基于 Transformers 的 Galarkin 变换学习器，能够在解决偏微分方程方面，显著提高训练成本和评估准确性。

May, 2021

易用注意力：Transformer 模型的简易自注意机制

提出一种名为 easy attention 的新型注意机制，用于改进用于预测混沌系统时间动态的 Transformer 神经网络，通过自注意力机制直接将注意力得分作为可学习参数，具有更强的鲁棒性和较低的复杂性，适用于重建和预测混沌系统的时间动态。

Aug, 2023

无概率笼的标准化注意力

本文介绍了 softmax-attention 在几何上的局限性，并提出采用归一化代替 softmax 实现自我注意力，从而获得超参数和数据推断鲁棒性较强的通用结构。

May, 2020

线性变换中的魔鬼

本文提出了一种新的线性变压器模型，称为 transNormer，以解决现有线性变压器的性能问题，通过稳定梯度和改善注意力的方式，在文本分类和语言建模任务以及 Long-Range Arena 基准测试中表现出更优异的性能，同时更加高效。

Oct, 2022