大规模语言建模：在四小时内收敛于 40GB 文本

Aug, 2018

大规模语言建模：在四小时内收敛于 40GB 文本

Large Scale Language Modeling: Converging on 40GB of Text in Four Hours

Raul Puri, Robert Kirby, Nikolai Yakovenko, Bryan Catanzaro

TL;DR本研究开发出用于自然语言处理的基于 RNN 的 4096 维乘法 LSTM 模型，结合混合精度算法和大规模并行计算，使模型短短 4 小时内能在亚马逊评论数据集上通过三次训练实现无监督文本重构；同时，我们提供了一种学习率策略，使得该模型可以在 32k 批量大小的情况下收敛，这一结果对于商用应用和深度学习研究者来说具有重要意义。

Abstract

Recent work has shown how to train Convolutional Neural Networks (CNNs) rapidly on large image datasets, then transfer the knowledge gained from these models to a variety of tasks. Following [Radford 2017], in this work, we demonstrate similar scalability and transfer for recurrent neural net

recurrent neural networks unsupervised text reconstruction large scale nlp training mixed precision arithmetic learning rate schedule

发现论文，激发创造

循环神经网络语言模型的扩展

本论文调查了循环神经网络语言模型（RNNLMs）的规模特性，对在 GPU 上训练非常大的 RNN 的方法进行了讨论，并探讨了有关模型大小、训练集大小、计算成本和内存方面的扩展性问题。研究结果展现出虽然训练成本更高，但相比于 N 元模型，RNNLMs 在标准测试中得到了更低的困惑度。此外，我们训练了目前已知的最大 RNN，并在 ASR 任务上表现出 18% 的相对词误差率提升，在最近发布的十亿字语言建模基准测试中呈现出新的最低困惑度、机器翻译的 1 BLEU 点表现提升以及词预测方面的 17% 相对命中率提高。

Feb, 2015

探索语言建模的极限

本文研究了递归神经网络在大规模语言建模中的最新进展和应用，对语料库和词汇量的大小和语言的复杂性和长期结构等问题进行了探讨，并在 One Billion Word Benchmark 上进行了详尽的研究，最佳单一模型将习惯度从 51.3 降低到 30.0，而模型集成则创下了 41.0 到 23.7 的新纪录，在总结中，研究结果可供自然语言处理和机器学习界进一步研究和提高。

Feb, 2016

多尺度下神经语言建模分析

本论文通过对现有 LSTMs 和 QRNNs 语言模型的扩展，提高了对大型语料库的处理能力，并在字符级（Penn Treebank，enwik8）和单词级（WikiText-103）数据集上分别取得了最新的最高水平结果，而且只用了一台现代 GPU，最快只需 12 小时（WikiText-103）或 2 天（enwik8）即可。

Mar, 2018

LSTM 和更多模型的大批量训练

本文提出了一种新的线性逐渐预热的方法（LEGW），此方法可以在大批量 CNN 和 RNN 训练中实现 sqrt scaling scheme，同时不会丢失精度，并实现比之前的自动调整技术更好的表现，提高了四个基于 LSTM 的应用程序的平均速度。

Jan, 2019

卷积网络的大批量训练

本文介绍了一种新的大批量训练算法：LARS，该算法采用分层自适应速率缩放，可使得尽管使用大批量训练，Alexnet 和 Resnet-50 的准确性不会降低。

Aug, 2017

Batch Normalized LSTM 引导的大规模视频分类

该论文提出一种基于深度循环神经网络的在线学习方法，将标签视为单词，用于视频的多标签分类，通过对输入的随机门控和批量归一化的采用进一步改进了模型，有效提高了在 Youtube-8M 数据集上的识别结果。

Jul, 2017

数据受限的语言模型的扩展

本研究考察了在数据受限的情况下缩放语言模型的方法以及采用重复数据进行训练的效果，并提出了可衡量计算优化性的缩放规律，并尝试通过增加训练数据或去除常用过滤器等方式缓解数据稀缺问题。

May, 2023

神经语言模型中，数量不代表语法质量

本论文研究了增加神经网络大小和训练语料对于缓解基于循环神经网络的语言模型中存在的语法复杂性问题的作用。研究发现，增加网络大小和扩展语料对于缓解该问题的效果都有限，而与基于 Transformer 的模型 GPT 和 BERT 相比，LSTM 模型在某些结构下表现更好。因此，本研究倡导更为数据高效的神经网络结构。

Aug, 2019

神经机器翻译的扩展

通过采用降低精度和大批量培训，结合仔细的调整和实施，可以在单个 8-GPU 计算机上加速训练近 5 倍，从而达到在大型基准数据集上达到最先进性能的状态，如 WMT'14 英德翻译等任务。

Jun, 2018

循环神经网络语法的有效批处理

本文提出了基于批处理的 RNN-Grammar 训练方法，并借助 PyTorch 实现在 GPU 上显著加速训练和推断过程，并在大规模的训练数据集和广泛的句法评估基准测试中验证了批处理 RNN-Grammar 的性能优势。

May, 2021