无概率笼的标准化注意力
本文通过凸对偶性的视角分析了自我注意力及其替代方案的基础归纳偏差问题,并为非线性点积自我注意力和替代机制提出了有解释性且可全局最优求解的等效有限维凸问题。通过实验证明,与现有的 MLP 或线性 heuads 相比,自我注意网络的偏差对于 CIFAR-100 分类任务具有吸引力。
May, 2022
通过对 softmax 和线性注意机制进行全面的比较分析,我们揭示了 softmax 注意在大多数情况下优于线性注意的潜在原因。
Oct, 2023
本研究提出了一种新的方法来理解自我注意网络:我们展示了它们的输出可以分解为若干关注头跨层序列的操作所涉及的小项相加,通过这种分解,我们证明了自我注意具有强烈的归纳偏差,具体表现为 “令牌均匀性”;实验证明,不同变体的标准转换器体系结构存在收敛现象。
Mar, 2021
论文研究了 Transformer 网络模型训练的问题,并提出了一种新的凸分析方法来解决这个问题,进而提供了这些网络模型的理论解释以及性能优化方法。
Nov, 2022
通过澄清 softmax 函数与 Boltzmann 算子之间的联系,我们证明具有低秩权重矩阵的自注意力单层具备完美捕获整个输入序列上下文的能力,从而表明单层 Transformer 具有有限样本的记忆能力,并且由一个自注意力层和两个前馈神经网络组成的 Transformer 是紧致域上连续函数的通用逼近器。
Jul, 2023
本文介绍了一种解决 Transformer 模型二次计算复杂度的简单有效方法,并采用序列标准化技术和矩阵乘法重新排序,使得该方法能够在处理更长序列时降低内存和计算复杂度,从而与传统 Transformer 模型具有可比较的性能。
Jun, 2024
研究使用 KgV 提出了一种结合了 sigmoid 门控机制和 softmax 注意力机制的模型框架,同时采用张量链来减少嵌入层的超参数,并引入了 H-SoftPOS 当作嵌入层,相较于现有技术在性能和内存成本方面都有显著提高,并命名该体系结构为 Anthe。
May, 2023
提出了一种基于平滑的最大值算子的新的稀疏和结构化的注意力机制,它不仅包括 softmax 和稀疏 max 作为特例,还可以融合现代结构惩罚,可以应用于神经网络中,在文本蕴含、机器翻译和句子摘要等任务中表现良好,提高了可解释性并保持性能优越。
May, 2017