TL;DR这篇论文提出了一种最新的循环神经网络语言模型,不仅从最后一层,还从中间层计算概率分布。该方法提升了基于杨等人(2018)语言建模矩阵分解解释的语言模型的表现力,并在标准基准数据集 Penn Treebank 和 WikiText-2 上实现了最佳得分。此外,作者还展示了该方法在机器翻译和标题生成两个任务上的应用。
Abstract
This paper proposes a state-of-the-art recurrent neural network (RNN) language model that combines probability distributions computed not only from a final RNN layer but also from middle layers. Our proposed meth