通过可学习的单调逐点非线性性消除 Softmax 瓶颈

Feb, 2019

通过可学习的单调逐点非线性性消除 Softmax 瓶颈

Breaking the Softmax Bottleneck via Learnable Monotonic Pointwise Non-linearities

Octavian-Eugen Ganea, Sylvain Gelly, Gary Bécigneul, Aliaksei Severyn

TL;DR提出一种在 softmax 函数之上学习参数单调函数的方法，理论上和实验上都优于传统的 line-softmax 方法，在自然语言模型的应用方面具有潜在的可拓展性。

Abstract

The softmax function on top of a final linear layer is the de facto method to output probability distributions in neural networks. In many applications such as →

softmax function neural networks monotonic functions rank bottleneck language models

发现论文，激发创造

打破 Softmax 瓶颈：高级 RNN 语言模型

本文将语言模型制定为矩阵分解问题，证明了基于 Softmax 的模型（包括大多数神经语言模型）的表达能力受到 Softmax 瓶颈的限制，指出在实践中，带有分布式单词嵌入的 Softmax 模型并没有足够的能力来对自然语言进行建模。作者提出了一种简单而有效的方法来解决这个问题，并在 Penn Treebank 和 WikiText-2 上改善了现有的最佳结果，分别达到了 47.69 和 40.68 的困惑度。而且，该方法也在大规模的 1B Word 数据集上表现出色，在困惑度上优于基线 5.6 个点以上。

Nov, 2017

Sigsoftmax：Softmax Engpass 的重新分析

该论文提出了一种输出激活函数 sigsoftmax 用于解决神经网络语言建模中的 softmax 瓶颈问题，它由指数函数和 sigmoid 函数的乘积构成，相对于 softmax 和混合 softmax，在语言建模实验中表现更好。

May, 2018

连续输出序列到序列模型的 von Mises-Fisher 损失训练

本研究提出了一种用连续嵌入层替代 Softmax 层的技术，使得生成的语言模型具有较大的词汇表并且具有比传统模型更高效的训练速度，在神经机器翻译任务上的表现也保持在业界领先水平。

Dec, 2018

小型语言模型性能下降的原因：通过 Softmax Engular 点探究语言模型饱和现象

在语言建模中，研究人员发现较小的模型在训练后期可能会出现饱和现象，其原因是较小模型的隐藏维度与目标上下文概率分布的高秩之间存在不匹配，由此导致线性预测头的性能下降。实验结果表明，隐藏维度小于 1000 的模型在预训练后期会采用退化的潜在表示，从而导致评估性能降低。

Apr, 2024

如何在保持灵活性的同时在深度网络中融入单调性？

本研究提出了一种基于梯度的点损失函数，用于加强深度神经网络的学习过程， enforcing partial monotonicity，其结果显示该方法在 AUC 和单调度方面具有可比性（有时表现更好），并能够学习不同的个体趋势并产生更平滑的条件曲线，同时保留深度网络的灵活性，强调了领域知识在增强模型性能和实现可靠预测中的重要性。

Sep, 2019

Softmax 函数的特性及其在博弈论和强化学习中的应用

本文利用凸分析和单调算子理论来推导 softmax 函数的其他性质，揭示其与对数 - 求和 - 指数函数之间的单调梯度映射关系，同时利用这种联系表明了其反温度参数决定了 softmax 函数的 Lipschitz 和共同强制性质，并通过一个游戏理论强化学习的应用展示了这些性质的有用性。

Apr, 2017

探索 Softmax 的前沿：可证明的优化、扩散模型应用与更多

通过理论研究两层 softmax 神经网络的优化和泛化性质，揭示了 softmax 函数的归一化效应对所引起的神经核矩阵的扰动性能具有利于构建良好的损失函数曲面凸区域，从而 softmax 神经网络可以在超参数多于样本数量的情况下学习目标函数。

May, 2024

约束单调神经网络

本文采用原始激活函数和其点反射组合建立单调深度神经网络，实现最少参数，无需修改学习流程或后续步骤，在精度方面表现优异。

May, 2022

深层格网络和局部单调函数

通过交替使用线性嵌入层、格子集合和校准器（分段线性函数）构建具有单调性的深度模型，使用 TensorFlow 实现，并使用 ADAM 优化器和随机梯度下降方法，实验结果表明，六层的单调深度格子网络在分类和回归问题上的性能都达到了最先进的水平。

Sep, 2017

单调校准插值查找表

通过学习灵活的、单调的函数以及解决凸问题的方法进行单调查找表的训练，同时积极处理连续性特征，处理分类或缺失数据，并通过并行化和小批量处理等方法实现大规模的学习，使得在实际问题上提供更高的准确性与用户可解释性。

May, 2015