无概率笼的标准化注意力

May, 2020

Normalized Attention Without Probability Cage

Oliver Richter, Roger Wattenhofer

TL;DR本文介绍了 softmax-attention 在几何上的局限性，并提出采用归一化代替 softmax 实现自我注意力，从而获得超参数和数据推断鲁棒性较强的通用结构。

Abstract

attention architectures are widely used; they recently gained renewed popularity with transformers yielding a streak of state of the art results. Yet, the geometrical implications of →

attention architectures transformers softmax-attention self-attention data-bias

发现论文，激发创造

透过凸优化解释注意力：关于视觉 Transformer 的分析和解读

本文通过凸对偶性的视角分析了自我注意力及其替代方案的基础归纳偏差问题，并为非线性点积自我注意力和替代机制提出了有解释性且可全局最优求解的等效有限维凸问题。通过实验证明，与现有的 MLP 或线性 heuads 相比，自我注意网络的偏差对于 CIFAR-100 分类任务具有吸引力。

May, 2022

Softmax 的优势：揭示其在线性注意力上的性能优势

通过对 softmax 和线性注意机制进行全面的比较分析，我们揭示了 softmax 注意在大多数情况下优于线性注意的潜在原因。

Oct, 2023

注意力不是唯一的解决方案：仅仅使用注意力机制会随着深度呈双倍指数级别的降低

本研究提出了一种新的方法来理解自我注意网络：我们展示了它们的输出可以分解为若干关注头跨层序列的操作所涉及的小项相加，通过这种分解，我们证明了自我注意具有强烈的归纳偏差，具体表现为 “令牌均匀性”；实验证明，不同变体的标准转换器体系结构存在收敛现象。

Mar, 2021

变压器作为支持向量机

自注意力机制和 SVM 问题之间存在形式上的等价性及其对训练方向和全局优化的影响。

Aug, 2023

凸化 Transformer：改进 Transformer 网络的优化和理解

论文研究了 Transformer 网络模型训练的问题，并提出了一种新的凸分析方法来解决这个问题，进而提供了这些网络模型的理论解释以及性能优化方法。

Nov, 2022

一层自注意力变压器使用低秩权重矩阵是通用逼近器吗？

通过澄清 softmax 函数与 Boltzmann 算子之间的联系，我们证明具有低秩权重矩阵的自注意力单层具备完美捕获整个输入序列上下文的能力，从而表明单层 Transformer 具有有限样本的记忆能力，并且由一个自注意力层和两个前馈神经网络组成的 Transformer 是紧致域上连续函数的通用逼近器。

Jul, 2023

具有无需 Softmax 的高效计算医学图像分类的 Transformers 和序列归一化

本文介绍了一种解决 Transformer 模型二次计算复杂度的简单有效方法，并采用序列标准化技术和矩阵乘法重新排序，使得该方法能够在处理更长序列时降低内存和计算复杂度，从而与传统 Transformer 模型具有可比较的性能。

Jun, 2024

少即是多：优化语言翻译的精简架构

研究使用 KgV 提出了一种结合了 sigmoid 门控机制和 softmax 注意力机制的模型框架，同时采用张量链来减少嵌入层的超参数，并引入了 H-SoftPOS 当作嵌入层，相较于现有技术在性能和内存成本方面都有显著提高，并命名该体系结构为 Anthe。

May, 2023

一种用于稀疏和结构化神经注意力的正则化框架

提出了一种基于平滑的最大值算子的新的稀疏和结构化的注意力机制，它不仅包括 softmax 和稀疏 max 作为特例，还可以融合现代结构惩罚，可以应用于神经网络中，在文本蕴含、机器翻译和句子摘要等任务中表现良好，提高了可解释性并保持性能优越。

May, 2017

注意力机制中的边缘最大化

本研究探讨了注意力机制作为令牌分离机制的形式，并论证了运行梯度下降收敛于最大边缘解，同时提出了广泛的正则化路径分析。

Jun, 2023