通过可学习的单调逐点非线性性消除 Softmax 瓶颈
本文将语言模型制定为矩阵分解问题,证明了基于 Softmax 的模型(包括大多数神经语言模型)的表达能力受到 Softmax 瓶颈的限制,指出在实践中,带有分布式单词嵌入的 Softmax 模型并没有足够的能力来对自然语言进行建模。作者提出了一种简单而有效的方法来解决这个问题,并在 Penn Treebank 和 WikiText-2 上改善了现有的最佳结果,分别达到了 47.69 和 40.68 的困惑度。而且,该方法也在大规模的 1B Word 数据集上表现出色,在困惑度上优于基线 5.6 个点以上。
Nov, 2017
该论文提出了一种输出激活函数 sigsoftmax 用于解决神经网络语言建模中的 softmax 瓶颈问题,它由指数函数和 sigmoid 函数的乘积构成,相对于 softmax 和混合 softmax,在语言建模实验中表现更好。
May, 2018
本研究提出了一种用连续嵌入层替代 Softmax 层的技术,使得生成的语言模型具有较大的词汇表并且具有比传统模型更高效的训练速度,在神经机器翻译任务上的表现也保持在业界领先水平。
Dec, 2018
在语言建模中,研究人员发现较小的模型在训练后期可能会出现饱和现象,其原因是较小模型的隐藏维度与目标上下文概率分布的高秩之间存在不匹配,由此导致线性预测头的性能下降。实验结果表明,隐藏维度小于 1000 的模型在预训练后期会采用退化的潜在表示,从而导致评估性能降低。
Apr, 2024
本研究提出了一种基于梯度的点损失函数,用于加强深度神经网络的学习过程, enforcing partial monotonicity,其结果显示该方法在 AUC 和单调度方面具有可比性(有时表现更好),并能够学习不同的个体趋势并产生更平滑的条件曲线,同时保留深度网络的灵活性,强调了领域知识在增强模型性能和实现可靠预测中的重要性。
Sep, 2019
本文利用凸分析和单调算子理论来推导 softmax 函数的其他性质,揭示其与对数 - 求和 - 指数函数之间的单调梯度映射关系,同时利用这种联系表明了其反温度参数决定了 softmax 函数的 Lipschitz 和共同强制性质,并通过一个游戏理论强化学习的应用展示了这些性质的有用性。
Apr, 2017
通过理论研究两层 softmax 神经网络的优化和泛化性质,揭示了 softmax 函数的归一化效应对所引起的神经核矩阵的扰动性能具有利于构建良好的损失函数曲面凸区域,从而 softmax 神经网络可以在超参数多于样本数量的情况下学习目标函数。
May, 2024
通过交替使用线性嵌入层、格子集合和校准器(分段线性函数)构建具有单调性的深度模型,使用 TensorFlow 实现,并使用 ADAM 优化器和随机梯度下降方法,实验结果表明,六层的单调深度格子网络在分类和回归问题上的性能都达到了最先进的水平。
Sep, 2017
通过学习灵活的、单调的函数以及解决凸问题的方法进行单调查找表的训练,同时积极处理连续性特征,处理分类或缺失数据,并通过并行化和小批量处理等方法实现大规模的学习,使得在实际问题上提供更高的准确性与用户可解释性。
May, 2015