ConSmax:硬件友好的可学习参数替代 Softmax
本文提出了稀疏最大函数,一种类似传统 softmax 的激活函数,但能够输出稀疏概率,并给出了其特性及其雅可比矩阵的高效计算方法,并提出了一个新的平滑且凸函数作为逻辑损失的稀疏最大函数的对应,同时也发现它与 Huber 分类损失之间的意外联系,本文得到的实验结果表明,在多标签分类和自然语言推断的基于注意力机制的神经网络中,与传统 softmax 相比,采用稀疏最大函数可以获得类似的性能,但具有更精细、更紧凑的注意力焦点。
Feb, 2016
我们对传统的 Transformer 模型中的注意力机制进行了简单修改,通过对指数函数的缩放点积取对数来量化查询 - 键的相似性,将注意力表达为一系列对数求和的指数函数,该方法的优势在于其线性化性质,具有恒定大小的潜在空间,每个标记的顺序应用具有恒定的时间和空间复杂度。我们实现了该修改,验证其在实践中的有效性,并得出结论,即它是传统注意力的一个有前途的替代方法。
Apr, 2024
本文提出了一种线性可替换 softmax attention 的转换器 ——cosFormer,通过线性操作和余弦基础距离重新加权机制,保证了注意矩阵非负性和分布可以集中,并在语言建模和文本理解任务中取得了很好的效果。
Feb, 2022
通过提出 MultiMax 这种分段可微凸函数,根据输入条目范围自适应调节输出分布,我们解决了 SoftMax 及其变体在多模态和稀疏性之间的权衡问题,成功产生了抑制无关条目而保留多模态的分布,对图像分类、语言建模和机器翻译产生了有益的影响。
Jun, 2024
通过对 softmax 和线性注意机制进行全面的比较分析,我们揭示了 softmax 注意在大多数情况下优于线性注意的潜在原因。
Oct, 2023
提出 SOftmax-Free Transformer (SOFT),其采用高斯核函数替代点积相似度,从而能够通过低秩矩阵分解逼近完整的自注意力矩阵,该模型能够明显提高现有 ViT 变体的计算效率,同时具有线性复杂度,且能够容纳更长的令牌序列,优化了准确率和复杂度之间的权衡。
Jul, 2022
提出了一种 softmax-free transformer 或 SOFT 方法,通过使用高斯内核函数替换点积相似性,而不需要标准化以消除 softmax,在计算复杂度上具有线性复杂度,并显著提高了已有 ViT 变种的计算效率。
Oct, 2021
本文介绍了 softmax-attention 在几何上的局限性,并提出采用归一化代替 softmax 实现自我注意力,从而获得超参数和数据推断鲁棒性较强的通用结构。
May, 2020
本文针对 Transformer 注意机制进行研究,基于 softmax 回归建模,研究了单个自注意力层诱导数据转换的上限,并通过梯度下降训练 self-attention-only Transformers 来学习基本回归任务,发现梯度下降和 Transformers 所学的模型具有很大的相似性。
Apr, 2023