ICLRNov, 2017

打破 Softmax 瓶颈:高级 RNN 语言模型

TL;DR本文将语言模型制定为矩阵分解问题,证明了基于 Softmax 的模型(包括大多数神经语言模型)的表达能力受到 Softmax 瓶颈的限制,指出在实践中,带有分布式单词嵌入的 Softmax 模型并没有足够的能力来对自然语言进行建模。作者提出了一种简单而有效的方法来解决这个问题,并在 Penn Treebank 和 WikiText-2 上改善了现有的最佳结果,分别达到了 47.69 和 40.68 的困惑度。而且,该方法也在大规模的 1B Word 数据集上表现出色,在困惑度上优于基线 5.6 个点以上。