Sigsoftmax:Softmax Engpass 的重新分析
提出一种在 softmax 函数之上学习参数单调函数的方法,理论上和实验上都优于传统的 line-softmax 方法,在自然语言模型的应用方面具有潜在的可拓展性。
Feb, 2019
本文将语言模型制定为矩阵分解问题,证明了基于 Softmax 的模型(包括大多数神经语言模型)的表达能力受到 Softmax 瓶颈的限制,指出在实践中,带有分布式单词嵌入的 Softmax 模型并没有足够的能力来对自然语言进行建模。作者提出了一种简单而有效的方法来解决这个问题,并在 Penn Treebank 和 WikiText-2 上改善了现有的最佳结果,分别达到了 47.69 和 40.68 的困惑度。而且,该方法也在大规模的 1B Word 数据集上表现出色,在困惑度上优于基线 5.6 个点以上。
Nov, 2017
在语言建模中,研究人员发现较小的模型在训练后期可能会出现饱和现象,其原因是较小模型的隐藏维度与目标上下文概率分布的高秩之间存在不匹配,由此导致线性预测头的性能下降。实验结果表明,隐藏维度小于 1000 的模型在预训练后期会采用退化的潜在表示,从而导致评估性能降低。
Apr, 2024
在多标签分类任务中,sigmoid 输出层广泛应用;本文展示了类似 sigmoid 的瓶颈会导致指数级别的无法预测的标签组合;我们提出了一种离散傅立叶变换输出层,可以防止这种情况的发生,并且相较于 sigmoid 输出层,训练速度更快、参数利用更高效,能够在使用更少的可调参数的同时与 sigmoid 输出层达到相似的 F1 度量指标。
Oct, 2023
通过理论研究两层 softmax 神经网络的优化和泛化性质,揭示了 softmax 函数的归一化效应对所引起的神经核矩阵的扰动性能具有利于构建良好的损失函数曲面凸区域,从而 softmax 神经网络可以在超参数多于样本数量的情况下学习目标函数。
May, 2024
通过理论验证,本文发现 sigmoid 门函数对于专家估计统计任务的样本效率比 softmax 门函数更高,而且在两个不同的门控制度下使用前馈网络作为专家模型的收敛速度更快。
May, 2024
本文通过对深度神经网络中信息瓶颈原理的分析,提出了一种处理像素级别的弱监督语义分割任务的新方法,该方法去除最后一层的激活函数并引入新的池化策略以弥补信息缺失,实验表明此方法在准确性和性能方面具有明显优势。
Oct, 2021
该研究论文扩展了通用近似理论,说明了使用 ReLU 激活函数和非线性 softmax 输出层的神经网络能够以任意精度逼近任何在 L1 空间中的函数,并且可用于解决实际的多类别模式分类问题中。此外,这是 softmax 输出层在神经网络中用于模式分类的第一个理论证明。
Feb, 2020
本文探讨了大型语言模型(LLMs)的 softmax 单元,在 LLMs 中的重要性与在具有凸优化问题的中心路径法等其他应用中的使用,同时提出并证明了一种基于贪心算法的 softmax 回归方法,为了在实践中使用此方法提供了理论支持。
Apr, 2023
介绍了一种对 softmax 概率的有效逼近方法,该方法基于一种严格的下界概率,可通过随机优化进行可扩展的估计,并演示了其在分类问题中的应用。
Sep, 2016