Sigsoftmax：Softmax Engpass 的重新分析

May, 2018

Sigsoftmax：Softmax Engpass 的重新分析

Sigsoftmax: Reanalysis of the Softmax Bottleneck

Sekitoshi Kanai, Yasuhiro Fujiwara, Yuki Yamanaka, Shuichi Adachi

TL;DR该论文提出了一种输出激活函数 sigsoftmax 用于解决神经网络语言建模中的 softmax 瓶颈问题，它由指数函数和 sigmoid 函数的乘积构成，相对于 softmax 和混合 softmax，在语言建模实验中表现更好。

Abstract

softmax is an output activation function for modeling categorical probability distributions in many applications of deep learning. However, a recent study revealed that →

softmax neural networks language modeling sigsoftmax activation function

发现论文，激发创造

通过可学习的单调逐点非线性性消除 Softmax 瓶颈

提出一种在 softmax 函数之上学习参数单调函数的方法，理论上和实验上都优于传统的 line-softmax 方法，在自然语言模型的应用方面具有潜在的可拓展性。

Feb, 2019

打破 Softmax 瓶颈：高级 RNN 语言模型

本文将语言模型制定为矩阵分解问题，证明了基于 Softmax 的模型（包括大多数神经语言模型）的表达能力受到 Softmax 瓶颈的限制，指出在实践中，带有分布式单词嵌入的 Softmax 模型并没有足够的能力来对自然语言进行建模。作者提出了一种简单而有效的方法来解决这个问题，并在 Penn Treebank 和 WikiText-2 上改善了现有的最佳结果，分别达到了 47.69 和 40.68 的困惑度。而且，该方法也在大规模的 1B Word 数据集上表现出色，在困惑度上优于基线 5.6 个点以上。

Nov, 2017

小型语言模型性能下降的原因：通过 Softmax Engular 点探究语言模型饱和现象

在语言建模中，研究人员发现较小的模型在训练后期可能会出现饱和现象，其原因是较小模型的隐藏维度与目标上下文概率分布的高秩之间存在不匹配，由此导致线性预测头的性能下降。实验结果表明，隐藏维度小于 1000 的模型在预训练后期会采用退化的潜在表示，从而导致评估性能降低。

Apr, 2024

驯服 Sigmoid 瓶颈：可证明的稀疏多标签分类算法

在多标签分类任务中，sigmoid 输出层广泛应用；本文展示了类似 sigmoid 的瓶颈会导致指数级别的无法预测的标签组合；我们提出了一种离散傅立叶变换输出层，可以防止这种情况的发生，并且相较于 sigmoid 输出层，训练速度更快、参数利用更高效，能够在使用更少的可调参数的同时与 sigmoid 输出层达到相似的 F1 度量指标。

Oct, 2023

探索 Softmax 的前沿：可证明的优化、扩散模型应用与更多

通过理论研究两层 softmax 神经网络的优化和泛化性质，揭示了 softmax 函数的归一化效应对所引起的神经核矩阵的扰动性能具有利于构建良好的损失函数曲面凸区域，从而 softmax 神经网络可以在超参数多于样本数量的情况下学习目标函数。

May, 2024

混合专家模型中，Sigmoid 门控比 Softmax 门控的样本效率更高

通过理论验证，本文发现 sigmoid 门函数对于专家估计统计任务的样本效率比 softmax 门函数更高，而且在两个不同的门控制度下使用前馈网络作为专家模型的收敛速度更快。

May, 2024

弱监督语义分割中信息瓶颈的降低

本文通过对深度神经网络中信息瓶颈原理的分析，提出了一种处理像素级别的弱监督语义分割任务的新方法，该方法去除最后一层的激活函数并引入新的池化策略以弥补信息缺失，实验表明此方法在准确性和性能方面具有明显优势。

Oct, 2021

神经网络中 ReLU 激活函数和 Softmax 输出层的逼近性能研究

该研究论文扩展了通用近似理论，说明了使用 ReLU 激活函数和非线性 softmax 输出层的神经网络能够以任意精度逼近任何在 L1 空间中的函数，并且可用于解决实际的多类别模式分类问题中。此外，这是 softmax 输出层在神经网络中用于模式分类的第一个理论证明。

Feb, 2020

基于注意力机制的 Softmax 回归

本文探讨了大型语言模型（LLMs）的 softmax 单元，在 LLMs 中的重要性与在具有凸优化问题的中心路径法等其他应用中的使用，同时提出并证明了一种基于贪心算法的 softmax 回归方法，为了在实践中使用此方法提供了理论支持。

Apr, 2023

可扩展概率估计的一对多 Softmax 逼近

介绍了一种对 softmax 概率的有效逼近方法，该方法基于一种严格的下界概率，可通过随机优化进行可扩展的估计，并演示了其在分类问题中的应用。

Sep, 2016