加速 Entmax

ACLNov, 2021

Speeding Up Entmax

Maxat Tezekbayev, Vassilina Nikoulina, Matthias Gallé, Zhenisbek Assylbekov

TL;DR本文研究了针对语言处理中神经网络常用的 softmax 在文本生成中出现的问题，提出了一种替代 alpha-entmax 的方法，并在机器翻译任务中取得了与 alpha-entmax 相当或更好的性能。

Abstract

softmax is the de facto standard in modern neural networks for language processing when it comes to normalizing logits. However, by producing a dense probability distribution each token in the vocabulary has a no

softmax neural networks language processing alpha-entmax machine translation

发现论文，激发创造

稀疏 Seq2Seq 搜索空间的平滑和缩小

本研究发现基于 entmax 的模型具有很好的解决翻译中的 “cat got your tongue” 问题的能力，同时该模型也可以处理诸如跨语言形态学和机器翻译等任务，并且引入了一种更广泛的正则化技术 Fenchel-Young losses。

Mar, 2021

快速最大熵训练的类

我们提出了一种新的速度提升技术，通过使用类的形式将模型分解为两个最大熵模型，其一用于预测每个单词的类，其二用于预测单词本身，从而减少非零指示函数和更快的归一化，实现了比以前最佳技术高达 35 倍的速度提升。该技术还可用于加速训练其他机器学习技术，例如神经网络，适用于任何具有大量输出的问题，如语言建模。

Aug, 2001

稀疏文本生成

本文提出使用 entmax 转换来训练和采样自然稀疏的语言模型，从而避免训练和测试之间的差异，以达到更好的性能和更接近人类文本的 n-gram 多样性，同时提出了三个度量标准来比较稀疏或截断的分布，并通过故事和对话生成等应用展示了该方法的有效性。

Apr, 2020

用 Softmax 温化技术训练神经机器翻译模型

本研究探讨了采用 softmax tempering 技术来训练神经机器翻译模型，在亚洲语言 Treebank 数据集和 WMT 2019 英德翻译任务中实验证明该技术显著提高翻译质量，同时使贪心搜索与 Beam Search 解码同为一体，从而实现高速翻译。此外，我们还分析了 softmax entropy 和梯度对 NMT 模型内部行为的影响。

Sep, 2020

大词汇神经网络快速 Softmax 推理的筛选学习

在本文中，我们介绍了一种利用上下文向量的聚类结构的软最大似然层逼近算法，在移动设备上比传统方法具有更快的推理速度。我们使用 Gumbel softmax 对筛选模型进行端到端训练，通过在各种 NLP 任务中对前 k 个单词进行预测，实现了一个数量级更快的推理速度，例如在德语到英语的机器翻译任务中，与现有先进技术相比，我们实现了 20.4 倍的加速。

Oct, 2018

GPU 上高效的 softmax 近似算法

文章提出了一种名为自适应 softmax 的算法，采用字词聚类的方法来降低神经网络语言模型训练中的计算复杂度，并结合现代计算机体系结构和矩阵向量运算技术进一步提高了训练效率。实验结果表明该方法的效果稳定，能够在保证高精度的同时显著提高计算速度。

Sep, 2016

稀疏序列到序列模型

提出了基于 alpha-entmax 变换的稀疏序列到序列模型，能产生稀疏的对齐和分配概率到一组合理的输出，这在形态学变化和机器翻译的实验中展现了比密集模型更好的表现。

May, 2019

打破 Softmax 瓶颈：高级 RNN 语言模型

本文将语言模型制定为矩阵分解问题，证明了基于 Softmax 的模型（包括大多数神经语言模型）的表达能力受到 Softmax 瓶颈的限制，指出在实践中，带有分布式单词嵌入的 Softmax 模型并没有足够的能力来对自然语言进行建模。作者提出了一种简单而有效的方法来解决这个问题，并在 Penn Treebank 和 WikiText-2 上改善了现有的最佳结果，分别达到了 47.69 和 40.68 的困惑度。而且，该方法也在大规模的 1B Word 数据集上表现出色，在困惑度上优于基线 5.6 个点以上。

Nov, 2017

连续输出序列到序列模型的 von Mises-Fisher 损失训练

本研究提出了一种用连续嵌入层替代 Softmax 层的技术，使得生成的语言模型具有较大的词汇表并且具有比传统模型更高效的训练速度，在神经机器翻译任务上的表现也保持在业界领先水平。

Dec, 2018

F^2-Softmax: 通过频率因式分解 Softmax 实现神经文本生成的多样性

提出了两种新方法 F^2-Softmax 和 MefMax 以解决文本生成中标记分布不平衡的问题，实验表明这两种方法在提高生成文本的多样性和质量方面具有优越性。

Sep, 2020