探索语言建模的极限

Feb, 2016

Exploring the Limits of Language Modeling

Rafal Jozefowicz, Oriol Vinyals, Mike Schuster, Noam Shazeer, Yonghui Wu

TL;DR本文研究了递归神经网络在大规模语言建模中的最新进展和应用，对语料库和词汇量的大小和语言的复杂性和长期结构等问题进行了探讨，并在 One Billion Word Benchmark 上进行了详尽的研究，最佳单一模型将习惯度从 51.3 降低到 30.0，而模型集成则创下了 41.0 到 23.7 的新纪录，在总结中，研究结果可供自然语言处理和机器学习界进一步研究和提高。

Abstract

In this work we explore recent advances in recurrent neural networks for large scale language modeling, a task central to language understanding. We extend current models to deal with two key challenges present i

recurrent neural networks language modeling one billion word benchmark convolutional neural networks long-short term memory

发现论文，激发创造

循环神经网络语言模型的扩展

本论文调查了循环神经网络语言模型（RNNLMs）的规模特性，对在 GPU 上训练非常大的 RNN 的方法进行了讨论，并探讨了有关模型大小、训练集大小、计算成本和内存方面的扩展性问题。研究结果展现出虽然训练成本更高，但相比于 N 元模型，RNNLMs 在标准测试中得到了更低的困惑度。此外，我们训练了目前已知的最大 RNN，并在 ASR 任务上表现出 18% 的相对词误差率提升，在最近发布的十亿字语言建模基准测试中呈现出新的最低困惑度、机器翻译的 1 BLEU 点表现提升以及词预测方面的 17% 相对命中率提高。

Feb, 2015

衡量统计语言模型进展的十亿词基准

该论文提出了一种新的基准语料库，用于衡量统计语言建模的进展，探讨了多种语言模型的性能表现，通过使用长短时记忆模型，降低模型复杂度来改善模型性能，实现了对语言模型的快速评估，并提出了相应的语言模型技巧，解决了语言建模中存在的困难。

Dec, 2013

语音识别的长跨度语言建模

本文探索多句子语境下神经语言模型的应用，并介绍结合了注意力机制和 LSTM 的新型模型在语音识别和长跨度语言模型方面的实验结果。

Nov, 2019

多尺度下神经语言建模分析

本论文通过对现有 LSTMs 和 QRNNs 语言模型的扩展，提高了对大型语料库的处理能力，并在字符级（Penn Treebank，enwik8）和单词级（WikiText-103）数据集上分别取得了最新的最高水平结果，而且只用了一台现代 GPU，最快只需 12 小时（WikiText-103）或 2 天（enwik8）即可。

Mar, 2018

大规模语言建模：在四小时内收敛于 40GB 文本

本研究开发出用于自然语言处理的基于 RNN 的 4096 维乘法 LSTM 模型，结合混合精度算法和大规模并行计算，使模型短短 4 小时内能在亚马逊评论数据集上通过三次训练实现无监督文本重构；同时，我们提供了一种学习率策略，使得该模型可以在 32k 批量大小的情况下收敛，这一结果对于商用应用和深度学习研究者来说具有重要意义。

Aug, 2018

基于压缩的循环神经网络用于高效语言建模

本文考虑了针对循环神经网络的多种压缩技术，特别关注大词汇量带来的高维输出问题，探讨剪枝、量化和矩阵分解在语言模型中的有效压缩方法，以及大小、适用性和困惑度的取舍，最终提出一种压缩循环神经网络的通用流程，并使用 Penn Treebank 数据集展示了矩阵分解技术在速度和压缩 - 困惑度平衡方面的最佳结果。

Feb, 2019

基于字符识别的神经语言模型

本研究描述了一种仅依赖字符级输入的简单神经语言模型，该模型利用卷积神经网络和字符级公路网络作为输入，并将结果给予一种长短时记忆递归神经网络语言模型作为输出，该模型可以用较少的参数占据现有最先进的地位。此外，该模型表现出色的证明了许多语言所需的字符输入已经足够进行语言建模，且可以从字符组成的部分编码的单词表示中得到语义和字形信息。

Aug, 2015

基于贝叶斯神经网络的语言模型用于语音识别

提出一种普遍的贝叶斯学习框架，利用三种方法模拟 LSTM-RNN 和 Transformer LMs 的模型参数、神经激活选择和隐藏输出表示的不确定性，使用神经结构搜索自动选择优化网络内部组件，并使用有效的推断方法来降低计算成本，并在 AMI 会议转录和 LRS2 超叠话音频道的语音识别任务中实验验证，相对于基线 LSTM-RNN 和 Transformer LMs，在困惑度和字错误率方面均取得了一致的性能提升。

Aug, 2022

神经语言模型中，数量不代表语法质量

本论文研究了增加神经网络大小和训练语料对于缓解基于循环神经网络的语言模型中存在的语法复杂性问题的作用。研究发现，增加网络大小和扩展语料对于缓解该问题的效果都有限，而与基于 Transformer 的模型 GPT 和 BERT 相比，LSTM 模型在某些结构下表现更好。因此，本研究倡导更为数据高效的神经网络结构。

Aug, 2019

Character-Word LSTM 语言模型

使用长期短期记忆（LSTM）、字符信息和单词嵌入等技术，设计了一种基于字符的语言模型，有效提高了对单词的建模能力，优于传统基于单词的模型。

Apr, 2017