可控稀疏 Softmax 替代方案

NIPSOct, 2018

On Controllable Sparse Alternatives to Softmax

Anirban Laha, Saneem A. Chemmengath, Priyanka Agrawal, Mitesh M. Khapra, Karthik Sankaranarayanan...

TL;DR研究基于概率分布的机器学习任务中，提出了几种概率映射函数，为了控制稀疏度，开发出了一个统一框架并提出了两种新的 sparse formulations，并在多标签分类场景中开发了新的凸损失函数，用于计算注意力权重，从而在类似神经机器翻译和抽象摘要等标准 seq2seq 任务上获得更好的性能。

Abstract

Converting an n-dimensional vector to a probability distribution over n objects is a commonly used component in many machine learning tasks like multiclass classification, →

probability distribution machine learning multilabel classification sparse formulations attention mechanisms

发现论文，激发创造

从 Softmax 到 Sparsemax：一种注意力和多标签分类的稀疏模型

本文提出了稀疏最大函数，一种类似传统 softmax 的激活函数，但能够输出稀疏概率，并给出了其特性及其雅可比矩阵的高效计算方法，并提出了一个新的平滑且凸函数作为逻辑损失的稀疏最大函数的对应，同时也发现它与 Huber 分类损失之间的意外联系，本文得到的实验结果表明，在多标签分类和自然语言推断的基于注意力机制的神经网络中，与传统 softmax 相比，采用稀疏最大函数可以获得类似的性能，但具有更精细、更紧凑的注意力焦点。

Feb, 2016

r-softmax：具有可控稀疏率的广义 Softmax

本篇论文提出了 r-softmax，一种可以控制稀疏度率的 softmax 修改方案，不同于其他现有的稀疏概率映射函数，我们提供了一种直观的机制来控制输出的稀疏程度。我们在多个多标签数据集上展示了 r-softmax 的优异表现，并证明了在预训练变压器语言模型的自我注意模块中使用 r-softmax 可以提高在不同自然语言处理任务上的性能。

Apr, 2023

MultiMax：稀疏和多模态的注意力学习

通过提出 MultiMax 这种分段可微凸函数，根据输入条目范围自适应调节输出分布，我们解决了 SoftMax 及其变体在多模态和稀疏性之间的权衡问题，成功产生了抑制无关条目而保留多模态的分布，对图像分类、语言建模和机器翻译产生了有益的影响。

Jun, 2024

稀疏序列到序列模型

提出了基于 alpha-entmax 变换的稀疏序列到序列模型，能产生稀疏的对齐和分配概率到一组合理的输出，这在形态学变化和机器翻译的实验中展现了比密集模型更好的表现。

May, 2019

一种用于稀疏和结构化神经注意力的正则化框架

提出了一种基于平滑的最大值算子的新的稀疏和结构化的注意力机制，它不仅包括 softmax 和稀疏 max 作为特例，还可以融合现代结构惩罚，可以应用于神经网络中，在文本蕴含、机器翻译和句子摘要等任务中表现良好，提高了可解释性并保持性能优越。

May, 2017

混合分布的稀疏通信

本文介绍一种新的 “直和” 基础度量方法用于概率简单形式下的混合随机变量，并对混合离散变量模型的表示与采样提出两种策略，通过基于混合随机变量的自动编码器的实现和表现，验证该方法的有效性。

Aug, 2021

通过稀疏性高效消除离散和结构化潜变量的影响

本文介绍了一种利用可微稀疏映射的参数化离散分布的训练策略，可在离散（分类或结构化）潜变量的情况下进行精确的边际化，避免了噪声梯度估计器或连续弛豫的需要，并在三个不同的潜变量建模应用场景取得了成功的结果。

Jul, 2020

属于球面损失家族的 Softmax 替代方案探究

该论文研究了一些来自球形家族的损失函数，探讨它们是否可以替代传统的 log-softmax 损失函数，并发现这些替代方案在 MNIST 和 CIFAR-10 上的表现优于传统的损失函数。

Nov, 2015

子模函数引导的结构稀疏惩罚范数

本文研究了一种新的稀疏学习方法，提出了一种新的凸优化方法，利用一些子模函数的拓展得到了一类较通用的多面规范，并提供算法工具和理论结果。

Aug, 2010

基于注意力机制的 Softmax 回归

本文探讨了大型语言模型（LLMs）的 softmax 单元，在 LLMs 中的重要性与在具有凸优化问题的中心路径法等其他应用中的使用，同时提出并证明了一种基于贪心算法的 softmax 回归方法，为了在实践中使用此方法提供了理论支持。

Apr, 2023