语言模型的物理学：第 1 部分，无上下文语法

May, 2023

语言模型的物理学：第 1 部分，无上下文语法

Physics of Language Models: Part 1, Context-Free Grammar

Zeyuan Allen-Zhu, Yuanzhi Li

TL;DR本研究设计实验以探究生成式语言模型如何学习上下文无关文法，并发现了 Transformer 如何利用物理机制隐式地编码文法结构、形成类动态规划的 attention，并在处理语法错误时表现出的鲁棒性方面的相关拓展。

Abstract

We design experiments to study $\textit{how}$ generative language models, like GPT, learn context-free grammars (CFGs) -- diverse language systems with a tree-like structure capturing many aspects of natural lang

generative language models context-free grammars transformers hidden states dynamic programming

发现论文，激发创造

探索深度神经网络如何学习语言结构的理论

通过下一个词预测需要多少数据来学习语言的结构？我们通过一个概率上下文无关文法 (PCFG) 生成的合成数据集进行了研究，该文法是表示自然语言树状结构的层次生成模型。我们在模型中通过分析确定了词 - 词之间的相关性，并显示它们可以用来构建文法的隐藏变量表示，范围越长，变量越深。此外，有限的训练集限制了相关性的分辨率，其有效范围的大小随训练集的增大而增加。因此，使用越来越多的样本进行训练的语言模型可以建立更深入的文法结构表示，从而在问题的高维度下达到良好的性能。我们推测训练集大小与相关性的有效范围之间的关系不仅适用于合成数据集，而且适用于其他数据集。特别是，我们的推测预测了测试损失随训练集大小变化的缩放规律与上下文窗口长度的关系，我们通过莎士比亚剧作中的一系列台词进行了实证验证。

May, 2024

使用 CCG 分析和大型语言模型建模大脑中的结构构建

通过使用组合范畴语法（CCG）作为语法模型，研究人员发现可以更好地理解自然环境中语言理解的行为和神经相关性。使用 fMRI 收集参与者听故事期间的神经信号，研究发现 CCG 在解释神经信号方面的有效性优于上下文无关文法，并可以从可选附加语方面解释。

Oct, 2022

解释 Transformer 如何利用上下文来建立预测

本文使用 Transformer 的最新可解释性进展提出了分析语言生成模型的过程，并使用对比实例比较了我们的方法与渐变和扰动基线的解释的一致性，结果表明我们的方法具有更好的表现。最后，我们将该方法应用于神经机器翻译模型，并展示了生成人类相似的源 - 目标对齐结果的能力。

May, 2023

复合概率上下文无关文法用于文法归纳

我们研究了一个语法归纳问题的正式化，其将句子建模为由复合概率上下文无关文法生成。与传统的学习单一随机文法的方式不同，我们的文法的规则概率由每个句子的连续潜变量调制，这在传统上下文无关假设以外引出了边际依赖性。这种文法的推理通过折叠变分推理实现，在这种方法中，连续变量上放置平化的变分后验，并通过动态规划边际化潜在树。针对英语和中文的实验表明，与最近的最先进方法相比，我们的方法在无监督语法分析评估时非常有效。

Jun, 2019

技术报告：图神经网络进入语法领域

本文提出一种新的 GNN 设计策略，利用无上下文语法生成矩阵语言 MATLANG，从而确保 WL 表达能力，子结构计数能力和谱属性。根据该策略，设计了语法图神经网络 G$^2$N$^2$，证明了其在边级上计算长度为 6 的环并能够达到带通滤波器，实验结果证实了理论结果。

Mar, 2023

无需种植树木的语法学习：理解变换器何时以及何种方式实现分层普遍化

透过对自然语言数据训练的 Transformer 模型的研究和实验证明，具备语言建模目标的 Transformer 模型更容易学习和推广层次结构，并在处理无法预见的句法结构的句子时表现优异。

Apr, 2024

词汇依赖关系的回归：神经词汇化 PCFGs

本文演示了基于上下文无关文法（CFG）的语法归纳方法从建模词法依赖方面受益，这与当前最流行的语法归纳方法形成对比，后者专注于发现要么为构件，要么为依存关系；本研究的神经模型克服了稀疏性问题，有效地在单个模型中诱导了构件和依存关系的统一框架；实验证明，与单独建模形式主义相比，该统一框架对于两种表示都有更强的结果。

Jul, 2020

通过 LSTM 与 Transformer 学习有界无上下文语法：区别与解释

研究比较了 LSTM 和 Transformer 的潜在空间分解模式，进一步解释了 Transformer 在自然语言处理任务中比 LSTM 有更好的表述能力

Dec, 2021

透明、来源：评估和解释有真实分布访问的语言模型

我们提出了一种使用人工制造的类似语言的数据来训练、评估和解释神经语言模型的设置。使用大规模概率语法（基于状态拆分的 PCFGs）生成数据，该语法源自大型自然语言语料库，但也可完全控制生成过程。通过比较神经语言建模架构和训练目标对可获取困惑度下界的逼近程度的差异，我们得出了显著的结果。我们的方法还允许直接将学到的表示与底层源中的符号规则进行比较，并尝试了各种用于解释模型行为和学习动态的技术。通过访问底层真实源，我们的结果显示出不同类别的单词在学习动态方面存在明显的差异和结果。

Oct, 2023

不使用分类器的引导方式，保持话题一致性

通过对多项任务的优化，本文展示了分类器自由引导（CFG）可以作为一种单纯的语言模型推理技术，以优于当前最佳模型的表现在 LAMBADA 任务上取得了 SOTA 成果，并可改善语言助手任务的准确性和连贯性。

Jun, 2023