多尺度下神经语言建模分析

Mar, 2018

An Analysis of Neural Language Modeling at Multiple Scales

Stephen Merity, Nitish Shirish Keskar, Richard Socher

TL;DR本论文通过对现有 LSTMs 和 QRNNs 语言模型的扩展，提高了对大型语料库的处理能力，并在字符级（Penn Treebank，enwik8）和单词级（WikiText-103）数据集上分别取得了最新的最高水平结果，而且只用了一台现代 GPU，最快只需 12 小时（WikiText-103）或 2 天（enwik8）即可。

Abstract

Many of the leading approaches in language modeling introduce novel, complex and specialized architectures. We take existing state-of-the-art word level language models based on lstms and →

language modeling lstms qrnns character-level word-level

发现论文，激发创造

基于字符识别的神经语言模型

本研究描述了一种仅依赖字符级输入的简单神经语言模型，该模型利用卷积神经网络和字符级公路网络作为输入，并将结果给予一种长短时记忆递归神经网络语言模型作为输出，该模型可以用较少的参数占据现有最先进的地位。此外，该模型表现出色的证明了许多语言所需的字符输入已经足够进行语言建模，且可以从字符组成的部分编码的单词表示中得到语义和字形信息。

Aug, 2015

探索语言建模的极限

本文研究了递归神经网络在大规模语言建模中的最新进展和应用，对语料库和词汇量的大小和语言的复杂性和长期结构等问题进行了探讨，并在 One Billion Word Benchmark 上进行了详尽的研究，最佳单一模型将习惯度从 51.3 降低到 30.0，而模型集成则创下了 41.0 到 23.7 的新纪录，在总结中，研究结果可供自然语言处理和机器学习界进一步研究和提高。

Feb, 2016

神经语言模型评估的现状

通过使用自动超参数调整，重新评估了几种流行的神经网络架构和正则化方法，得出了标准 LSTM 架构在合适的正则化情况下优于更新模型的惊人结论，并在 Penn Treebank 和 Wikitext-2 语料库上建立了新的最先进技术水平，以及在 Hutter Prize 数据集上建立了强大的基准线。

Jul, 2017

使用深度自注意力进行字符级语言建模

本文通过实验证明，64 层深 (Deep) 的 transformer 模型，通过加入中间网络层和序列位置的辅助损失 (auxiliary losses)，能够在文本压缩数据 (text8) 和维基百科压缩数据 (enwik8) 数据集上超越截断反向传播 (Truncated Backpropagation) 的 RNN 变体，实现 1.13 和 1.06 的最小比特位 (bit per character)。

Aug, 2018

循环神经网络语言模型的扩展

本论文调查了循环神经网络语言模型（RNNLMs）的规模特性，对在 GPU 上训练非常大的 RNN 的方法进行了讨论，并探讨了有关模型大小、训练集大小、计算成本和内存方面的扩展性问题。研究结果展现出虽然训练成本更高，但相比于 N 元模型，RNNLMs 在标准测试中得到了更低的困惑度。此外，我们训练了目前已知的最大 RNN，并在 ASR 任务上表现出 18% 的相对词误差率提升，在最近发布的十亿字语言建模基准测试中呈现出新的最低困惑度、机器翻译的 1 BLEU 点表现提升以及词预测方面的 17% 相对命中率提高。

Feb, 2015

大规模语言建模：在四小时内收敛于 40GB 文本

本研究开发出用于自然语言处理的基于 RNN 的 4096 维乘法 LSTM 模型，结合混合精度算法和大规模并行计算，使模型短短 4 小时内能在亚马逊评论数据集上通过三次训练实现无监督文本重构；同时，我们提供了一种学习率策略，使得该模型可以在 32k 批量大小的情况下收敛，这一结果对于商用应用和深度学习研究者来说具有重要意义。

Aug, 2018

层次循环神经网络的字符级语言模型

我们通过提出分层 RNN 体系结构，提高了基于字符级语言模型的溢出词建模的性能。在 One Billion Word Benchmark 上，我们的 CLM 模型比 Kneser-Ney 5 元语言模型表现更好，同时参数却只有 2%。我们在 WSJ 语料库上展示了对话识别示例，并将传统的 RNN CLMs 替换为所提出的模型，即使参数数量减少了 30％，精度也有所提高。

Sep, 2016

基于贝叶斯神经网络的语言模型用于语音识别

提出一种普遍的贝叶斯学习框架，利用三种方法模拟 LSTM-RNN 和 Transformer LMs 的模型参数、神经激活选择和隐藏输出表示的不确定性，使用神经结构搜索自动选择优化网络内部组件，并使用有效的推断方法来降低计算成本，并在 AMI 会议转录和 LRS2 超叠话音频道的语音识别任务中实验验证，相对于基线 LSTM-RNN 和 Transformer LMs，在困惑度和字错误率方面均取得了一致的性能提升。

Aug, 2022

语言建模的神经网络压缩

本文研究了针对基于循环神经网络的语言建模问题的几种压缩技术。通过使用 Penn Treebank（PTB）数据集，我们比较了 LSTM 网络的剪枝、量化、低秩分解、张量列车分解对模型大小和适用于快速推理的适合性，并发现传统的 LSTM 网络要么拥有高空间复杂度，要么具有相当大的推理时间；这个问题对于移动应用程序尤其关键，因为不适用于与远程服务器进行不断的交互。

Aug, 2017

几近白板：针对未经分词的文本训练的基于字符级神经语言模型的语言学知识探究

我们进行了一项多语言研究，探讨了在去除单词边界的输入数据上，以字符级语言模型为训练对象的循环神经网络通过基于输入统计量发现有用的语言单位这一更加困难和认知真实的任务的语言学知识编码。结果表明，我们的 “近乎于白板” 的循环神经网络主要能够解决形态、语法和语义任务，这些任务根据直观上的想象需要单词级别的知识，并且它们在某种程度上学会了追踪单词边界。我们的研究为关于语言学习和使用中明确、严格的单词词典必要性的猜测打开了大门。

Jun, 2019