从 Softmax 到 Sparsemax：一种注意力和多标签分类的稀疏模型

Feb, 2016

从 Softmax 到 Sparsemax：一种注意力和多标签分类的稀疏模型

From Softmax to Sparsemax: A Sparse Model of Attention and Multi-Label Classification

André F. T. Martins, Ramón Fernandez Astudillo

TL;DR本文提出了稀疏最大函数，一种类似传统 softmax 的激活函数，但能够输出稀疏概率，并给出了其特性及其雅可比矩阵的高效计算方法，并提出了一个新的平滑且凸函数作为逻辑损失的稀疏最大函数的对应，同时也发现它与 Huber 分类损失之间的意外联系，本文得到的实验结果表明，在多标签分类和自然语言推断的基于注意力机制的神经网络中，与传统 softmax 相比，采用稀疏最大函数可以获得类似的性能，但具有更精细、更紧凑的注意力焦点。

Abstract

We propose sparsemax, a new activation function similar to the traditional softmax, but able to output sparse probabilities. After deriving its properties, we show how its Jacobian can be efficiently computed, en

sparsemax activation function backpropagation logistic loss multi-label classification

发现论文，激发创造

MultiMax：稀疏和多模态的注意力学习

通过提出 MultiMax 这种分段可微凸函数，根据输入条目范围自适应调节输出分布，我们解决了 SoftMax 及其变体在多模态和稀疏性之间的权衡问题，成功产生了抑制无关条目而保留多模态的分布，对图像分类、语言建模和机器翻译产生了有益的影响。

Jun, 2024

一种用于稀疏和结构化神经注意力的正则化框架

提出了一种基于平滑的最大值算子的新的稀疏和结构化的注意力机制，它不仅包括 softmax 和稀疏 max 作为特例，还可以融合现代结构惩罚，可以应用于神经网络中，在文本蕴含、机器翻译和句子摘要等任务中表现良好，提高了可解释性并保持性能优越。

May, 2017

可控稀疏 Softmax 替代方案

研究基于概率分布的机器学习任务中，提出了几种概率映射函数，为了控制稀疏度，开发出了一个统一框架并提出了两种新的 sparse formulations，并在多标签分类场景中开发了新的凸损失函数，用于计算注意力权重，从而在类似神经机器翻译和抽象摘要等标准 seq2seq 任务上获得更好的性能。

Oct, 2018

稀疏序列到序列模型

提出了基于 alpha-entmax 变换的稀疏序列到序列模型，能产生稀疏的对齐和分配概率到一组合理的输出，这在形态学变化和机器翻译的实验中展现了比密集模型更好的表现。

May, 2019

Softmax 的优势：揭示其在线性注意力上的性能优势

通过对 softmax 和线性注意机制进行全面的比较分析，我们揭示了 softmax 注意在大多数情况下优于线性注意的潜在原因。

Oct, 2023

自适应稀疏变压器

介绍了自适应稀疏转换器，使用 α-entmax 代替 softmax，可以适应性地学习头部偏爱的结构，并改善了 softmax 转换器在机器翻译数据集上的可解释性和头部多样性。

Aug, 2019

ConSmax：硬件友好的可学习参数替代 Softmax

提出了一种有效的自注意机制替代方案 ConSmax，通过可扩展硬件和可微分参数实现大规模并行计算，以实现基于 Transformer 的大型语言模型的实时推理，并取得比现有方案更好的能源和面积性能。

Jan, 2024

神经机器翻译的稀疏和约束注意力

本文提出了一种新颖的方法来解决 NMT 中的 “coverage problem”，通过给源语言单词分配 “fertilities” 来限制每个单词可以接收的注意力，同时提出了一种新的稀疏的注意力变换方式 “sparsemax”，并在三种语言对上进行实证评估。

May, 2018

r-softmax：具有可控稀疏率的广义 Softmax

本篇论文提出了 r-softmax，一种可以控制稀疏度率的 softmax 修改方案，不同于其他现有的稀疏概率映射函数，我们提供了一种直观的机制来控制输出的稀疏程度。我们在多个多标签数据集上展示了 r-softmax 的优异表现，并证明了在预训练变压器语言模型的自我注意模块中使用 r-softmax 可以提高在不同自然语言处理任务上的性能。

Apr, 2023

注意力机制中的边缘最大化

本研究探讨了注意力机制作为令牌分离机制的形式，并论证了运行梯度下降收敛于最大边缘解，同时提出了广泛的正则化路径分析。

Jun, 2023