ConSmax：硬件友好的可学习参数替代 Softmax

Jan, 2024

ConSmax：硬件友好的可学习参数替代 Softmax

ConSmax: Hardware-Friendly Alternative Softmax with Learnable Parameters

Shiwei Liu, Guanchen Tao, Yifei Zou, Derek Chow, Zichen Fan...

TL;DR提出了一种有效的自注意机制替代方案 ConSmax，通过可扩展硬件和可微分参数实现大规模并行计算，以实现基于 Transformer 的大型语言模型的实时推理，并取得比现有方案更好的能源和面积性能。

Abstract

The self-attention mechanism sets transformer-based large language model (LLM) apart from the convolutional and recurrent neural networks. Despite the performance improvement, achieving →

self-attention mechanism transformer-based large language model real-time llm inference constant softmax (consmax)scalable consmax hardware

发现论文，激发创造

从 Softmax 到 Sparsemax：一种注意力和多标签分类的稀疏模型

本文提出了稀疏最大函数，一种类似传统 softmax 的激活函数，但能够输出稀疏概率，并给出了其特性及其雅可比矩阵的高效计算方法，并提出了一个新的平滑且凸函数作为逻辑损失的稀疏最大函数的对应，同时也发现它与 Huber 分类损失之间的意外联系，本文得到的实验结果表明，在多标签分类和自然语言推断的基于注意力机制的神经网络中，与传统 softmax 相比，采用稀疏最大函数可以获得类似的性能，但具有更精细、更紧凑的注意力焦点。

Feb, 2016

具有恒定标记成本的 Softmax 注意力

我们对传统的 Transformer 模型中的注意力机制进行了简单修改，通过对指数函数的缩放点积取对数来量化查询 - 键的相似性，将注意力表达为一系列对数求和的指数函数，该方法的优势在于其线性化性质，具有恒定大小的潜在空间，每个标记的顺序应用具有恒定的时间和空间复杂度。我们实现了该修改，验证其在实践中的有效性，并得出结论，即它是传统注意力的一个有前途的替代方法。

Apr, 2024

cosFormer: 重新思考注意力机制中的 Softmax

本文提出了一种线性可替换 softmax attention 的转换器 ——cosFormer，通过线性操作和余弦基础距离重新加权机制，保证了注意矩阵非负性和分布可以集中，并在语言建模和文本理解任务中取得了很好的效果。

Feb, 2022

MultiMax：稀疏和多模态的注意力学习

通过提出 MultiMax 这种分段可微凸函数，根据输入条目范围自适应调节输出分布，我们解决了 SoftMax 及其变体在多模态和稀疏性之间的权衡问题，成功产生了抑制无关条目而保留多模态的分布，对图像分类、语言建模和机器翻译产生了有益的影响。

Jun, 2024

Softmax 的优势：揭示其在线性注意力上的性能优势

通过对 softmax 和线性注意机制进行全面的比较分析，我们揭示了 softmax 注意在大多数情况下优于线性注意的潜在原因。

Oct, 2023

无 Softmax 的线性变换器

提出 SOftmax-Free Transformer (SOFT)，其采用高斯核函数替代点积相似度，从而能够通过低秩矩阵分解逼近完整的自注意力矩阵，该模型能够明显提高现有 ViT 变体的计算效率，同时具有线性复杂度，且能够容纳更长的令牌序列，优化了准确率和复杂度之间的权衡。

Jul, 2022

SOFT: 线性复杂度的无 Softmax Transformer

提出了一种 softmax-free transformer 或 SOFT 方法，通过使用高斯内核函数替换点积相似性，而不需要标准化以消除 softmax，在计算复杂度上具有线性复杂度，并显著提高了已有 ViT 变种的计算效率。

Oct, 2021

无概率笼的标准化注意力

本文介绍了 softmax-attention 在几何上的局限性，并提出采用归一化代替 softmax 实现自我注意力，从而获得超参数和数据推断鲁棒性较强的通用结构。

May, 2020

非线性单元的两层回归的收敛性

大语言模型中的注意力计算结构，以及利用 Hessian 矩阵找到近似最优解的算法。

Aug, 2023

上下文学习与权重移动对 softmax 回归的紧密性

本文针对 Transformer 注意机制进行研究，基于 softmax 回归建模，研究了单个自注意力层诱导数据转换的上限，并通过梯度下降训练 self-attention-only Transformers 来学习基本回归任务，发现梯度下降和 Transformers 所学的模型具有很大的相似性。

Apr, 2023