加速 Entmax
本研究发现基于 entmax 的模型具有很好的解决翻译中的 “cat got your tongue” 问题的能力,同时该模型也可以处理诸如跨语言形态学和机器翻译等任务,并且引入了一种更广泛的正则化技术 Fenchel-Young losses。
Mar, 2021
我们提出了一种新的速度提升技术,通过使用类的形式将模型分解为两个最大熵模型,其一用于预测每个单词的类,其二用于预测单词本身,从而减少非零指示函数和更快的归一化,实现了比以前最佳技术高达 35 倍的速度提升。该技术还可用于加速训练其他机器学习技术,例如神经网络,适用于任何具有大量输出的问题,如语言建模。
Aug, 2001
本文提出使用 entmax 转换来训练和采样自然稀疏的语言模型,从而避免训练和测试之间的差异,以达到更好的性能和更接近人类文本的 n-gram 多样性,同时提出了三个度量标准来比较稀疏或截断的分布,并通过故事和对话生成等应用展示了该方法的有效性。
Apr, 2020
本研究探讨了采用 softmax tempering 技术来训练神经机器翻译模型,在亚洲语言 Treebank 数据集和 WMT 2019 英德翻译任务中实验证明该技术显著提高翻译质量,同时使贪心搜索与 Beam Search 解码同为一体,从而实现高速翻译。此外,我们还分析了 softmax entropy 和梯度对 NMT 模型内部行为的影响。
Sep, 2020
在本文中,我们介绍了一种利用上下文向量的聚类结构的软最大似然层逼近算法,在移动设备上比传统方法具有更快的推理速度。我们使用 Gumbel softmax 对筛选模型进行端到端训练,通过在各种 NLP 任务中对前 k 个单词进行预测,实现了一个数量级更快的推理速度,例如在德语到英语的机器翻译任务中,与现有先进技术相比,我们实现了 20.4 倍的加速。
Oct, 2018
文章提出了一种名为自适应 softmax 的算法,采用字词聚类的方法来降低神经网络语言模型训练中的计算复杂度,并结合现代计算机体系结构和矩阵向量运算技术进一步提高了训练效率。实验结果表明该方法的效果稳定,能够在保证高精度的同时显著提高计算速度。
Sep, 2016
提出了基于 alpha-entmax 变换的稀疏序列到序列模型,能产生稀疏的对齐和分配概率到一组合理的输出,这在形态学变化和机器翻译的实验中展现了比密集模型更好的表现。
May, 2019
本文将语言模型制定为矩阵分解问题,证明了基于 Softmax 的模型(包括大多数神经语言模型)的表达能力受到 Softmax 瓶颈的限制,指出在实践中,带有分布式单词嵌入的 Softmax 模型并没有足够的能力来对自然语言进行建模。作者提出了一种简单而有效的方法来解决这个问题,并在 Penn Treebank 和 WikiText-2 上改善了现有的最佳结果,分别达到了 47.69 和 40.68 的困惑度。而且,该方法也在大规模的 1B Word 数据集上表现出色,在困惑度上优于基线 5.6 个点以上。
Nov, 2017
本研究提出了一种用连续嵌入层替代 Softmax 层的技术,使得生成的语言模型具有较大的词汇表并且具有比传统模型更高效的训练速度,在神经机器翻译任务上的表现也保持在业界领先水平。
Dec, 2018
提出了两种新方法 F^2-Softmax 和 MefMax 以解决文本生成中标记分布不平衡的问题,实验表明这两种方法在提高生成文本的多样性和质量方面具有优越性。
Sep, 2020