神经语言模型中，数量不代表语法质量

EMNLPAug, 2019

神经语言模型中，数量不代表语法质量

Quantity doesn't buy quality syntax with neural language models

Marten van Schijndel, Aaron Mueller, Tal Linzen

TL;DR本论文研究了增加神经网络大小和训练语料对于缓解基于循环神经网络的语言模型中存在的语法复杂性问题的作用。研究发现，增加网络大小和扩展语料对于缓解该问题的效果都有限，而与基于 Transformer 的模型 GPT 和 BERT 相比，LSTM 模型在某些结构下表现更好。因此，本研究倡导更为数据高效的神经网络结构。

Abstract

recurrent neural networks can learn to predict upcoming words remarkably well on average; in syntactically complex contexts, however, they often assign unexpectedly high probabilities to ungrammatical words. We investigate to what extent these shortcomings can be mitigated by increasin

recurrent neural networks syntactic complexity language modeling training corpus data efficiency

发现论文，激发创造

探索语言建模的极限

本文研究了递归神经网络在大规模语言建模中的最新进展和应用，对语料库和词汇量的大小和语言的复杂性和长期结构等问题进行了探讨，并在 One Billion Word Benchmark 上进行了详尽的研究，最佳单一模型将习惯度从 51.3 降低到 30.0，而模型集成则创下了 41.0 到 23.7 的新纪录，在总结中，研究结果可供自然语言处理和机器学习界进一步研究和提高。

Feb, 2016

何时需要数十亿字的预训练数据？

通过四种探究方法，我们发现语言模型只需要大约 100M 的单词量，就能够可靠地编码大多数句法和语义特征，而大量的数据需要用来获得足够的常识和其他技能，以掌握典型的下游 NLU 任务。

Nov, 2020

语言模型需要多少预训练数据才能学习语法？

本研究探讨了预训练数据大小对 RoBERTa 模型的句法能力及其在下游应用中的影响，并分析了训练此类模型的成本效益权衡。结果显示，虽然预训练数据大小的增加会显著提高模型的句法能力及在下游任务中表现，但这也带来了更高的经济和环境成本。

Sep, 2021

多尺度下神经语言建模分析

本论文通过对现有 LSTMs 和 QRNNs 语言模型的扩展，提高了对大型语料库的处理能力，并在字符级（Penn Treebank，enwik8）和单词级（WikiText-103）数据集上分别取得了最新的最高水平结果，而且只用了一台现代 GPU，最快只需 12 小时（WikiText-103）或 2 天（enwik8）即可。

Mar, 2018

循环神经网络语言模型的扩展

本论文调查了循环神经网络语言模型（RNNLMs）的规模特性，对在 GPU 上训练非常大的 RNN 的方法进行了讨论，并探讨了有关模型大小、训练集大小、计算成本和内存方面的扩展性问题。研究结果展现出虽然训练成本更高，但相比于 N 元模型，RNNLMs 在标准测试中得到了更低的困惑度。此外，我们训练了目前已知的最大 RNN，并在 ASR 任务上表现出 18% 的相对词误差率提升，在最近发布的十亿字语言建模基准测试中呈现出新的最低困惑度、机器翻译的 1 BLEU 点表现提升以及词预测方面的 17% 相对命中率提高。

Feb, 2015

不止尺寸重要：小型语言模型也是少样本学习者

该研究通过将文本输入转换为包含任务描述的填空问题，并结合梯度优化和利用未标记数据，成功地创造了小型语言模型，达到了与 GPT-3 相似的性能，为小型语言模型的成功应用提供了关键因素。

Sep, 2020

探索深度神经网络如何学习语言结构的理论

通过下一个词预测需要多少数据来学习语言的结构？我们通过一个概率上下文无关文法 (PCFG) 生成的合成数据集进行了研究，该文法是表示自然语言树状结构的层次生成模型。我们在模型中通过分析确定了词 - 词之间的相关性，并显示它们可以用来构建文法的隐藏变量表示，范围越长，变量越深。此外，有限的训练集限制了相关性的分辨率，其有效范围的大小随训练集的增大而增加。因此，使用越来越多的样本进行训练的语言模型可以建立更深入的文法结构表示，从而在问题的高维度下达到良好的性能。我们推测训练集大小与相关性的有效范围之间的关系不仅适用于合成数据集，而且适用于其他数据集。特别是，我们的推测预测了测试损失随训练集大小变化的缩放规律与上下文窗口长度的关系，我们通过莎士比亚剧作中的一系列台词进行了实证验证。

May, 2024

神经语言模型并非一出生就适合大脑数据，但训练有助于改善

本文探讨了使用神经语言模型对大脑活动进行研究的方法，主要研究了测试损失、训练语料库和模型架构对捕捉大脑活动的影响，并提出了未来研究的良好实践建议。

Jul, 2022

N-Grammer: 使用潜在 n-gram 扩充 Transformer

本研究提出了一种新的改进 Transformer 模型的方法，使用了文本序列中的离散潜在表示构造 n-gram，并应用于语言建模和文本分类中，经实验证明性能优于传统的 Transformer 模型和 Primer，该模型已在 Jax 中开源以便复现。

Jul, 2022

神经语言模型中语法表示的过高估计

研究最近聚焦于神经语言模型的成功因素，测试方法学、n-gram 模型以及 LSTM 模型等方式都被用来验证其句法表达的能力，本论文重现了最近论文的实验结果，显示了以字符串为基础的句法诱导训练的基本问题。

Apr, 2020