Transformer 语言模型中的句法归纳偏置：对低资源语言特别有帮助吗？

Nov, 2023

Transformer 语言模型中的句法归纳偏置：对低资源语言特别有帮助吗？

Syntactic Inductive Bias in Transformer Language Models: Especially Helpful for Low-Resource Languages?

Luke Gessler, Nathan Schneider

TL;DR一项关于基于 Transformer 的语言模型（如 BERT）的研究尝试使用语法归纳偏置来增强预训练过程，理论上通过将语法结构融入训练过程可以降低训练所需的数据量。但此类方法通常在高资源语言（如英语）上进行测试。在这项研究中，我们调查了这些方法是否可以弥补低资源语言中的数据稀疏性，研究假设它们在低资源语言中应该更加有效。我们对五种低资源语言进行了实验：维吾尔语、沃洛夫语、马耳他语、科普特语和古希腊语。我们发现这些语法归纳偏置方法在低资源环境中产生不均匀的结果，并在大多数情况下提供出乎意料的少量益处。

Abstract

A line of work on transformer-based language models such as BERT has attempted to use syntactic inductive bias to enhance the pretraining process

transformer-based language models syntactic inductive bias pretraining process data sparseness low-resource languages

发现论文，激发创造

只预训结构：利用迁移学习理解语言归纳偏差

本研究通过对语言模型进行先验的结构性偏置，探索了不同感性学习偏差的影响，并研究了三种感性偏差的相对成功：1）递归，分层处理的感性偏差；2）无法通过上下文自由文法建模的无限制令牌 - 令牌依赖的感性偏差；和 3）一个 Zipfian 幂律词汇分布的感性偏差。我们发现，复杂的令牌 - 令牌交互形成了最好的感性偏向，并且在非上下文自由情况下最强。同时，我们还表明，独立于语法结构，Zipfian 词汇分布形成一个良好的感性偏向。

Apr, 2023

语言模型中如何种植树木：数据和架构对句法归纳偏差发生的影响

本文研究了预训练模型在通用语言中层次化句法功能的作用，通过诊断语法转换任务来诊断预训练参数的归纳偏差，结果表明，模型深度对于层次化泛化具有更大的作用，同时，在训练规模方面，使用适当的语料库预训练可以提高效率。

May, 2023

提高变形金刚在形态丰富语言翻译中的结构偏差

本论文旨在探讨如何通过加入结构偏置来提高 Transformer 的翻译能力，并且通过 TP-Transformer 和形态结构的分割两种方式来实现。实验表明，这两种方法都能使 Transformer 在翻译土耳其语和伊努伊特语等形态丰富的语言时表现更好，但要考虑数据集的大小。总的来说，结构编码方法可以使 Transformer 更加高效，在少量数据的情况下表现更好。

Aug, 2022

使用人工语言检验神经语言模型的归纳偏差

该研究提出了一种新颖的方法，使用人造语言验证语言模型的归纳偏见，并发现常用的神经架构在处理语句单词排序方面存在不同的归纳偏差。

Jun, 2021

深度学习方法的句法归纳偏置

我们在本文中介绍了两种归纳偏差方法，分别针对语法结构和依赖关系，实现了深度学习模型的归纳偏差，并通过这些方法建立了深度学习模型的潜在分层表示，使模型能够处理复杂的序列结构并在语言处理任务中取得了优秀的效果。

Jun, 2022

神经网络是否可以从原始语言数据中获得结构偏见？

通过针对不同结构相关现象的四个实验，我们评估了 BERT 在原始数据的预训练过程中是否获得了形成结构化概括的归纳偏差，并发现 BERT 在实体 - 助动词倒装，反身代词，以及嵌套从句中动词时态检测中进行了结构化概括，但在 NPI 许可证检测中进行了线性概括，这是迄今为止最有力的支持从原始数据中获取结构性偏差的人工学习器研究结果之一。

Jul, 2020

多语言 BERT 有口音：评估英语对多语言模型流畅性的影响

研究发现多语种模型中高资源语言的语法结构会渗透到低资源语言中，给跨语言模型性能带来偏差。

Oct, 2022

分析多种语言 BERT 变体中存在的社会偏见

本研究探讨了预训练语言模型在不同语言中所存在的偏见，提出了一种基于句子假设度量的模板方法来检测偏见，通过该方法分析了每个单语模型。研究发现，检测偏见的方法高度依赖于语言和文化，需要对每种语言和文化的独特表达方式进行深入了解。而与此相关的，我们假设非英语 BERT 模型中更高的社会偏见指数与其训练的用户生成内容有关。

Nov, 2022

双向编码器句法结构提取预训练

本文研究了文本表示学习器在句法表现上的优越性和在自然语言句法中的应用，提出了将句法模型的预测注入 BERT 的知识蒸馏策略，并表明在一系列结构预测任务中，这种方法能够显著地减少相对误差。

May, 2020

低资源机器翻译中的语法差异处理

本文提出一种简单但有效的方法，即将目标语句重新排序以匹配源语序，并将其作为另外一种训练时的监督信号，从而在模拟低资源日语 - 英语和真实低资源维吾尔 - 英语语种中获得显着改进。

Aug, 2019