语言模型中如何种植树木：数据和架构对句法归纳偏差发生的影响

ACLMay, 2023

语言模型中如何种植树木：数据和架构对句法归纳偏差发生的影响

How to Plant Trees in Language Models: Data and Architectural Effects on the Emergence of Syntactic Inductive Biases

Aaron Mueller, Tal Linzen

TL;DR本文研究了预训练模型在通用语言中层次化句法功能的作用，通过诊断语法转换任务来诊断预训练参数的归纳偏差，结果表明，模型深度对于层次化泛化具有更大的作用，同时，在训练规模方面，使用适当的语料库预训练可以提高效率。

Abstract

Accurate syntactic representations are essential for robust generalization in natural language. Recent work has found that pre-training can teach language models to rely on hierarchical syntactic features - as op

syntactic representations pre-training hierarchical bias neural language models data efficiency

发现论文，激发创造

序列到序列网络中的层级归纳偏差源：语法需要生长在树上吗？

研究神经序列到序列模型中的归纳偏差如何影响其推广行为，发现只有采用具有语法结构的树状模型才能保持类人语法推广能力。

Jan, 2020

无需种植树木的语法学习：理解变换器何时以及何种方式实现分层普遍化

透过对自然语言数据训练的 Transformer 模型的研究和实验证明，具备语言建模目标的 Transformer 模型更容易学习和推广层次结构，并在处理无法预见的句法结构的句子时表现优异。

Apr, 2024

给白板上色：预训练赋予序列到序列模型分层归纳偏置

本文通过使用预训练的 seq2seq 模型，探究其是否能够在句法变换中进行层次化泛化，同时还证明了从未经注释的自然语言文本中可以学习到分层句法信息，_SEQ2SEQ 模型具有句法泛化能力，但需要比人类学习者接收更多的语言数据才能达到该能力_。

Mar, 2022

只预训结构：利用迁移学习理解语言归纳偏差

本研究通过对语言模型进行先验的结构性偏置，探索了不同感性学习偏差的影响，并研究了三种感性偏差的相对成功：1）递归，分层处理的感性偏差；2）无法通过上下文自由文法建模的无限制令牌 - 令牌依赖的感性偏差；和 3）一个 Zipfian 幂律词汇分布的感性偏差。我们发现，复杂的令牌 - 令牌交互形成了最好的感性偏向，并且在非上下文自由情况下最强。同时，我们还表明，独立于语法结构，Zipfian 词汇分布形成一个良好的感性偏向。

Apr, 2023

深度学习方法的句法归纳偏置

我们在本文中介绍了两种归纳偏差方法，分别针对语法结构和依赖关系，实现了深度学习模型的归纳偏差，并通过这些方法建立了深度学习模型的潜在分层表示，使模型能够处理复杂的序列结构并在语言处理任务中取得了优秀的效果。

Jun, 2022

Transformer 语言模型中的句法归纳偏置：对低资源语言特别有帮助吗？

一项关于基于 Transformer 的语言模型（如 BERT）的研究尝试使用语法归纳偏置来增强预训练过程，理论上通过将语法结构融入训练过程可以降低训练所需的数据量。但此类方法通常在高资源语言（如英语）上进行测试。在这项研究中，我们调查了这些方法是否可以弥补低资源语言中的数据稀疏性，研究假设它们在低资源语言中应该更加有效。我们对五种低资源语言进行了实验：维吾尔语、沃洛夫语、马耳他语、科普特语和古希腊语。我们发现这些语法归纳偏置方法在低资源环境中产生不均匀的结果，并在大多数情况下提供出乎意料的少量益处。

Nov, 2023

语言模型需要多少预训练数据才能学习语法？

本研究探讨了预训练数据大小对 RoBERTa 模型的句法能力及其在下游应用中的影响，并分析了训练此类模型的成本效益权衡。结果显示，虽然预训练数据大小的增加会显著提高模型的句法能力及在下游任务中表现，但这也带来了更高的经济和环境成本。

Sep, 2021

双向编码器句法结构提取预训练

本文研究了文本表示学习器在句法表现上的优越性和在自然语言句法中的应用，提出了将句法模型的预测注入 BERT 的知识蒸馏策略，并表明在一系列结构预测任务中，这种方法能够显著地减少相对误差。

May, 2020

薛定谔树 -- 论语法与神经语言模型

本文回顾了近年来自然语言处理领域的语言模型的发展，并探讨在研究语言模型中基于句法的研究中存在的问题以及解决方案，旨在为未来语言模型的研究提供一种较为多样化和立体化的研究视角。

Oct, 2021

基于预训练语言模型的句法分支偏差探究

该研究提出了一种通过比较语言和反向语言的性能差距来量化分支偏差的方法，并分析了分析算法、特征定义和语言模型对分支偏差的影响。实验结果表明，存在一些现有作品存在分支偏差，并且这三个因素的一些实现可能会引入分支偏差。

Oct, 2020