连续输出序列到序列模型的 von Mises-Fisher 损失训练

ICLRDec, 2018

连续输出序列到序列模型的 von Mises-Fisher 损失训练

Von Mises-Fisher Loss for Training Sequence to Sequence Models with Continuous Outputs

Sachin Kumar, Yulia Tsvetkov

TL;DR本研究提出了一种用连续嵌入层替代 Softmax 层的技术，使得生成的语言模型具有较大的词汇表并且具有比传统模型更高效的训练速度，在神经机器翻译任务上的表现也保持在业界领先水平。

Abstract

The softmax function is used in the final layer of nearly all existing sequence-to-sequence models for language generation. However, it is usually the slowest layer to compute which limits the →

sequence-to-sequence models softmax function continuous embedding layer neural machine translation vocabulary size

发现论文，激发创造

von Mises-Fisher 损失：探索嵌入式几何模型用于监督式学习

研究了 embedding geometry 对 softmax losses 在分类和图像检索任务中的影响，并提出了一个基于 von Mises-Fisher 分布的概率分类器，在产生改进的 out-of-the-box 校准的同时，与现有技术方法相比具有竞争力。

Mar, 2021

通过可学习的单调逐点非线性性消除 Softmax 瓶颈

提出一种在 softmax 函数之上学习参数单调函数的方法，理论上和实验上都优于传统的 line-softmax 方法，在自然语言模型的应用方面具有潜在的可拓展性。

Feb, 2019

稀疏序列到序列模型

提出了基于 alpha-entmax 变换的稀疏序列到序列模型，能产生稀疏的对齐和分配概率到一组合理的输出，这在形态学变化和机器翻译的实验中展现了比密集模型更好的表现。

May, 2019

稀疏 Seq2Seq 搜索空间的平滑和缩小

本研究发现基于 entmax 的模型具有很好的解决翻译中的 “cat got your tongue” 问题的能力，同时该模型也可以处理诸如跨语言形态学和机器翻译等任务，并且引入了一种更广泛的正则化技术 Fenchel-Young losses。

Mar, 2021

用 Gumbel-softmax 分布的 GAN 生成离散元素序列

本文介绍的是使用基于递归神经网络和 Gumbel-softmax 输出分布的生成敌对网络来生成离散元素序列时的表现评估。

Nov, 2016

大词汇神经网络快速 Softmax 推理的筛选学习

在本文中，我们介绍了一种利用上下文向量的聚类结构的软最大似然层逼近算法，在移动设备上比传统方法具有更快的推理速度。我们使用 Gumbel softmax 对筛选模型进行端到端训练，通过在各种 NLP 任务中对前 k 个单词进行预测，实现了一个数量级更快的推理速度，例如在德语到英语的机器翻译任务中，与现有先进技术相比，我们实现了 20.4 倍的加速。

Oct, 2018

F^2-Softmax: 通过频率因式分解 Softmax 实现神经文本生成的多样性

提出了两种新方法 F^2-Softmax 和 MefMax 以解决文本生成中标记分布不平衡的问题，实验表明这两种方法在提高生成文本的多样性和质量方面具有优越性。

Sep, 2020

用于序列到序列学习的经典结构化预测损失

本文研究了一系列经典目标函数，并将它们应用于神经序列到序列模型的训练，在 IWSLT'14 德语 - 英语翻译和 Gigaword 自动摘要等任务上达到了最新的最优结果。

Nov, 2017

打破 Softmax 瓶颈：高级 RNN 语言模型

本文将语言模型制定为矩阵分解问题，证明了基于 Softmax 的模型（包括大多数神经语言模型）的表达能力受到 Softmax 瓶颈的限制，指出在实践中，带有分布式单词嵌入的 Softmax 模型并没有足够的能力来对自然语言进行建模。作者提出了一种简单而有效的方法来解决这个问题，并在 Penn Treebank 和 WikiText-2 上改善了现有的最佳结果，分别达到了 47.69 和 40.68 的困惑度。而且，该方法也在大规模的 1B Word 数据集上表现出色，在困惑度上优于基线 5.6 个点以上。

Nov, 2017

卷积神经网络大边界 Softmax 损失

本文提出了 L-Softmax loss 作为一种广义的大边际 softmax（L-Softmax）损失函数，可以显式地鼓励所学特征的类内紧密性和类间可分性，并且能够调整想要的边际并避免过拟合，并在四个基准数据集上进行了广泛实验，结果表明使用 L-Softmax 且深度学习的特征更具有区分度，从而大大提高了各种视觉分类和验证任务的性能。

Dec, 2016