打破 Softmax 瓶颈：高级 RNN 语言模型

ICLRNov, 2017

打破 Softmax 瓶颈：高级 RNN 语言模型

Breaking the Softmax Bottleneck: A High-Rank RNN Language Model

Zhilin Yang, Zihang Dai, Ruslan Salakhutdinov, William W. Cohen

TL;DR本文将语言模型制定为矩阵分解问题，证明了基于 Softmax 的模型（包括大多数神经语言模型）的表达能力受到 Softmax 瓶颈的限制，指出在实践中，带有分布式单词嵌入的 Softmax 模型并没有足够的能力来对自然语言进行建模。作者提出了一种简单而有效的方法来解决这个问题，并在 Penn Treebank 和 WikiText-2 上改善了现有的最佳结果，分别达到了 47.69 和 40.68 的困惑度。而且，该方法也在大规模的 1B Word 数据集上表现出色，在困惑度上优于基线 5.6 个点以上。

Abstract

We formulate language modeling as a matrix factorization problem, and show that the expressiveness of Softmax-based models (including the majority of →

language modeling matrix factorization neural language models softmax bottleneck distributed word embeddings

发现论文，激发创造

小型语言模型性能下降的原因：通过 Softmax Engular 点探究语言模型饱和现象

在语言建模中，研究人员发现较小的模型在训练后期可能会出现饱和现象，其原因是较小模型的隐藏维度与目标上下文概率分布的高秩之间存在不匹配，由此导致线性预测头的性能下降。实验结果表明，隐藏维度小于 1000 的模型在预训练后期会采用退化的潜在表示，从而导致评估性能降低。

Apr, 2024

探索语言建模的极限

本文研究了递归神经网络在大规模语言建模中的最新进展和应用，对语料库和词汇量的大小和语言的复杂性和长期结构等问题进行了探讨，并在 One Billion Word Benchmark 上进行了详尽的研究，最佳单一模型将习惯度从 51.3 降低到 30.0，而模型集成则创下了 41.0 到 23.7 的新纪录，在总结中，研究结果可供自然语言处理和机器学习界进一步研究和提高。

Feb, 2016

通过可学习的单调逐点非线性性消除 Softmax 瓶颈

提出一种在 softmax 函数之上学习参数单调函数的方法，理论上和实验上都优于传统的 line-softmax 方法，在自然语言模型的应用方面具有潜在的可拓展性。

Feb, 2019

循环神经网络语言模型的扩展

本论文调查了循环神经网络语言模型（RNNLMs）的规模特性，对在 GPU 上训练非常大的 RNN 的方法进行了讨论，并探讨了有关模型大小、训练集大小、计算成本和内存方面的扩展性问题。研究结果展现出虽然训练成本更高，但相比于 N 元模型，RNNLMs 在标准测试中得到了更低的困惑度。此外，我们训练了目前已知的最大 RNN，并在 ASR 任务上表现出 18% 的相对词误差率提升，在最近发布的十亿字语言建模基准测试中呈现出新的最低困惑度、机器翻译的 1 BLEU 点表现提升以及词预测方面的 17% 相对命中率提高。

Feb, 2015

一种高等级语言模型的直接输出连接

这篇论文提出了一种最新的循环神经网络语言模型，不仅从最后一层，还从中间层计算概率分布。该方法提升了基于杨等人 (2018) 语言建模矩阵分解解释的语言模型的表现力，并在标准基准数据集 Penn Treebank 和 WikiText-2 上实现了最佳得分。此外，作者还展示了该方法在机器翻译和标题生成两个任务上的应用。

Aug, 2018

GroupReduce: 块状低秩逼近神经语言模型压缩

本文提出了一种新的神经语言模型压缩方法，基于基于词汇划分的低秩矩阵逼近和词汇分布的幂律分布，相比传统压缩方法更优，在 OBW 数据集上实现了 6.6 倍的压缩率，采用量化可以实现 26 倍的压缩率，而且模型困惑度几乎没有降低。

Jun, 2018

语言建模的显式词语密度估计

使用基于 NeuralODEs 和连续模拟的 Normalizing Flows 的一种新型语言模型，改进了某些基准模型。

Jun, 2024

Sigsoftmax：Softmax Engpass 的重新分析

该论文提出了一种输出激活函数 sigsoftmax 用于解决神经网络语言建模中的 softmax 瓶颈问题，它由指数函数和 sigmoid 函数的乘积构成，相对于 softmax 和混合 softmax，在语言建模实验中表现更好。

May, 2018

阅读就是信仰：重新审视语言瓶颈模型对图像分类的作用

通过将现代图像描述器与预训练的语言模型相结合，语言瓶颈模型在灾害图像分类任务中能够超过黑盒模型的分类准确率，并且通过融合两者可以产生协同效应，进一步提高分类准确率。

Jun, 2024

大词汇神经网络快速 Softmax 推理的筛选学习

在本文中，我们介绍了一种利用上下文向量的聚类结构的软最大似然层逼近算法，在移动设备上比传统方法具有更快的推理速度。我们使用 Gumbel softmax 对筛选模型进行端到端训练，通过在各种 NLP 任务中对前 k 个单词进行预测，实现了一个数量级更快的推理速度，例如在德语到英语的机器翻译任务中，与现有先进技术相比，我们实现了 20.4 倍的加速。

Oct, 2018