连续输出序列到序列模型的 von Mises-Fisher 损失训练
研究了 embedding geometry 对 softmax losses 在分类和图像检索任务中的影响,并提出了一个基于 von Mises-Fisher 分布的概率分类器,在产生改进的 out-of-the-box 校准的同时,与现有技术方法相比具有竞争力。
Mar, 2021
提出一种在 softmax 函数之上学习参数单调函数的方法,理论上和实验上都优于传统的 line-softmax 方法,在自然语言模型的应用方面具有潜在的可拓展性。
Feb, 2019
提出了基于 alpha-entmax 变换的稀疏序列到序列模型,能产生稀疏的对齐和分配概率到一组合理的输出,这在形态学变化和机器翻译的实验中展现了比密集模型更好的表现。
May, 2019
本研究发现基于 entmax 的模型具有很好的解决翻译中的 “cat got your tongue” 问题的能力,同时该模型也可以处理诸如跨语言形态学和机器翻译等任务,并且引入了一种更广泛的正则化技术 Fenchel-Young losses。
Mar, 2021
本文介绍的是使用基于递归神经网络和 Gumbel-softmax 输出分布的生成敌对网络来生成离散元素序列时的表现评估。
Nov, 2016
在本文中,我们介绍了一种利用上下文向量的聚类结构的软最大似然层逼近算法,在移动设备上比传统方法具有更快的推理速度。我们使用 Gumbel softmax 对筛选模型进行端到端训练,通过在各种 NLP 任务中对前 k 个单词进行预测,实现了一个数量级更快的推理速度,例如在德语到英语的机器翻译任务中,与现有先进技术相比,我们实现了 20.4 倍的加速。
Oct, 2018
提出了两种新方法 F^2-Softmax 和 MefMax 以解决文本生成中标记分布不平衡的问题,实验表明这两种方法在提高生成文本的多样性和质量方面具有优越性。
Sep, 2020
本文研究了一系列经典目标函数,并将它们应用于神经序列到序列模型的训练,在 IWSLT'14 德语 - 英语翻译和 Gigaword 自动摘要等任务上达到了最新的最优结果。
Nov, 2017
本文将语言模型制定为矩阵分解问题,证明了基于 Softmax 的模型(包括大多数神经语言模型)的表达能力受到 Softmax 瓶颈的限制,指出在实践中,带有分布式单词嵌入的 Softmax 模型并没有足够的能力来对自然语言进行建模。作者提出了一种简单而有效的方法来解决这个问题,并在 Penn Treebank 和 WikiText-2 上改善了现有的最佳结果,分别达到了 47.69 和 40.68 的困惑度。而且,该方法也在大规模的 1B Word 数据集上表现出色,在困惑度上优于基线 5.6 个点以上。
Nov, 2017
本文提出了 L-Softmax loss 作为一种广义的大边际 softmax(L-Softmax)损失函数,可以显式地鼓励所学特征的类内紧密性和类间可分性,并且能够调整想要的边际并避免过拟合,并在四个基准数据集上进行了广泛实验,结果表明使用 L-Softmax 且深度学习的特征更具有区分度,从而大大提高了各种视觉分类和验证任务的性能。
Dec, 2016