探索深度神经网络如何学习语言结构的理论

May, 2024

探索深度神经网络如何学习语言结构的理论

Towards a theory of how the structure of language is acquired by deep neural networks

Francesco Cagnetta, Matthieu Wyart

TL;DR通过下一个词预测需要多少数据来学习语言的结构？我们通过一个概率上下文无关文法 (PCFG) 生成的合成数据集进行了研究，该文法是表示自然语言树状结构的层次生成模型。我们在模型中通过分析确定了词 - 词之间的相关性，并显示它们可以用来构建文法的隐藏变量表示，范围越长，变量越深。此外，有限的训练集限制了相关性的分辨率，其有效范围的大小随训练集的增大而增加。因此，使用越来越多的样本进行训练的语言模型可以建立更深入的文法结构表示，从而在问题的高维度下达到良好的性能。我们推测训练集大小与相关性的有效范围之间的关系不仅适用于合成数据集，而且适用于其他数据集。特别是，我们的推测预测了测试损失随训练集大小变化的缩放规律与上下文窗口长度的关系，我们通过莎士比亚剧作中的一系列台词进行了实证验证。

Abstract

How much data is required to learn the structure of a language via next-token prediction? We study this question for synthetic datasets generated via a →

data language next-token prediction probabilistic context-free grammar correlations

发现论文，激发创造

语言模型的物理学：第 1 部分，无上下文语法

本研究设计实验以探究生成式语言模型如何学习上下文无关文法，并发现了 Transformer 如何利用物理机制隐式地编码文法结构、形成类动态规划的 attention，并在处理语法错误时表现出的鲁棒性方面的相关拓展。

May, 2023

透明、来源：评估和解释有真实分布访问的语言模型

我们提出了一种使用人工制造的类似语言的数据来训练、评估和解释神经语言模型的设置。使用大规模概率语法（基于状态拆分的 PCFGs）生成数据，该语法源自大型自然语言语料库，但也可完全控制生成过程。通过比较神经语言建模架构和训练目标对可获取困惑度下界的逼近程度的差异，我们得出了显著的结果。我们的方法还允许直接将学到的表示与底层源中的符号规则进行比较，并尝试了各种用于解释模型行为和学习动态的技术。通过访问底层真实源，我们的结果显示出不同类别的单词在学习动态方面存在明显的差异和结果。

Oct, 2023

神经语言模型中，数量不代表语法质量

本论文研究了增加神经网络大小和训练语料对于缓解基于循环神经网络的语言模型中存在的语法复杂性问题的作用。研究发现，增加网络大小和扩展语料对于缓解该问题的效果都有限，而与基于 Transformer 的模型 GPT 和 BERT 相比，LSTM 模型在某些结构下表现更好。因此，本研究倡导更为数据高效的神经网络结构。

Aug, 2019

自回归下一个单词预测器是通用学习者

大型语言模型在逻辑和数学推理方面显示出令人瞩目的能力，使它们能够解决复杂的任务。本文提出了一个理论框架来研究自回归的下一个标记预测器。我们证明，即使是简单的模型，如线性的下一个标记预测器在 Chain-of-Thought（CoT）数据上训练，也能有效地近似于图灵机计算的任何函数。我们引入了一个新的复杂度度量方法 —— 长度复杂度，它衡量了实现某个目标函数所需的 CoT 序列中的中间标记数，并分析了长度复杂度与其他复杂度概念之间的相互关系。最后，我们通过实验证明，简单的下一个标记预测器，如线性网络和浅层多层感知器（MLP），在文本生成和算术任务中显示出非平凡的性能。我们的结果表明，语言模型的强大能力很大程度上归功于自回归的下一个标记训练方案，而不一定取决于特定的架构选择。

Sep, 2023

PCFGs 能做得更好：用许多符号诱导概率上下文无关文法

本文介绍了一种基于张量分解的新的概率上下文无关文法参数化形式，其符号数量的计算复杂度最多为二次，适用于大量符号，可以进一步使用神经参数化来改善无监督解析性能。

Apr, 2021

gzip 预测数据相关的缩放规律

通过改变数据复杂性的方式生成不同复杂性的训练数据集，发现参数和训练数据量的缩放规律对数据复杂性非常敏感，并且发现 gzip 压缩算法能够有效预测数据复杂性对性能缩放规律的影响，提出了一个新的与数据相关的神经语言模型缩放规律，该规律考虑到了训练数据的 gzip 可压缩性，当训练数据难以压缩时，数据集大小优先于参数数量的计算最优边界增加。

May, 2024

有限上下文对成分句法分析的限制

本文探讨了当前神经语法学习方法对句法结构的表征方式，以及限制神经语法学习方法的表征能力的主要因素，并利用概率上下文无关文法为基础，说明上下文对神经语法学习方法进行语法分析决策时的关键作用。

Jun, 2021

语言模型预训练中的学习曲线特征：学习、遗忘和稳定性

语言模型在预训练时如何学习进行预测？通过提取来自五个自回归英语语言模型预训练运行的学习曲线，我们观察到语言模型在学习生成更长更连贯的文本前会生成短重复短语。我们量化了上下文中个体标记的学习曲线的最终惊奇度、运行内变异度、习得年龄、忘却度以及跨运行的变异度。频率更高的标记达到更低的最终惊奇度，在预训练运行内外变异度更小，更早被学习，而且在预训练过程中更不容易被遗忘。更高的 n-gram 概率进一步强化了这些影响。与目标标记无关，较短且更频繁的上下文与稍微更稳定和更快习得的预测相关。词类的影响也较小，尽管名词倾向于比动词、副词和形容词后习得且更不稳定。我们的工作有助于更好地理解语言模型预训练动态并为稳定的语言模型的应用提供指导。

Aug, 2023

揭开语言习得的黑盒子

通过序列记忆和分块构建的最小认知体系架构用于学习语言，替代了使用深度学习的大型语言模型，并且能够从零开始学习人工语言，并提取支持学习的语法信息。研究表明这种简单的架构的强大性，并强调序列记忆作为语言学习过程的关键组成部分的重要性，这可能解释了仅人类发展了复杂语言的原因。

Feb, 2024

神经语言模型中的分层表示：期望的抑制和恢复

本研究旨在探究神经语言模型是否能够在单线性序列输入的情况下提取层次信息，并通过中心嵌套句子和语法岛约束等自然语言现象的实验研究证明：LSTM 能够识别和利用堆栈数据结构来存储和获取一定数量的语言层次结构。

Jun, 2019